Articoli di ricerca IA selezionati quotidianamente con traduzioni
Con l'introduzione delle tecniche di generazione video basate sulla diffusione, la generazione di video umani condizionata dall'audio ha recentemente raggiunto significativi progressi sia nella naturalezza del movimento che nella sintesi dei dettagli del ritratto. A causa del limitato controllo dei segnali audio nel guidare il movimento umano, i metodi esistenti spesso aggiungono segnali spaziali ausiliari per stabilizzare i movimenti, compromettendo la naturalezza e la libertà di movimento. In questo articolo, proponiamo un modello di diffusione video condizionato solo dall'audio end-to-end chiamato Loopy. In particolare, abbiamo progettato un modulo temporale interno ed intra-clip e un modulo audio-a-latenti, consentendo al modello di sfruttare le informazioni sul movimento a lungo termine dai dati per apprendere modelli di movimento naturali e migliorare la correlazione tra movimento audio-ritratto. Questo metodo elimina la necessità di specificare manualmente modelli di movimento spaziale utilizzati nei metodi esistenti per vincolare il movimento durante l'inferenza. Estesi esperimenti mostrano che Loopy supera i recenti modelli di diffusione di ritratti guidati dall'audio, offrendo risultati più realistici e di alta qualità in vari scenari.
Espandere le capacità di lungo contesto dei Modelli Linguistici Multimodali di Grandi Dimensioni (MLLMs) è cruciale per la comprensione dei video, la comprensione delle immagini ad alta risoluzione e gli agenti multimodali. Ciò implica una serie di ottimizzazioni sistematiche, tra cui l'architettura del modello, la costruzione dei dati e la strategia di addestramento, affrontando in particolare sfide come la ridotta performance con un maggior numero di immagini e i costi computazionali elevati. In questo articolo, adattiamo l'architettura del modello a un ibrido di blocchi Mamba e Transformer, affrontiamo la costruzione dei dati con dipendenze temporali e spaziali tra più immagini e adottiamo una strategia di addestramento progressiva. Il modello rilasciato LongLLaVA (Assistente Linguistico e Visivo a Lungo Contesto) è il primo MLLM ibrido, che ha ottenuto un miglior equilibrio tra efficienza ed efficacia. LongLLaVA non solo raggiunge risultati competitivi su vari benchmark, ma mantiene anche un alto throughput e un basso consumo di memoria. In particolare, è in grado di elaborare quasi un migliaio di immagini su una singola GPU A100 80GB, mostrando promettenti prospettive di applicazione per una vasta gamma di compiti.
Sebbene attuali modelli linguistici a lungo contesto (LLM) abbiano dimostrato capacità impressionanti nel rispondere alle domande degli utenti basandosi su testi estesi, la mancanza di citazioni nelle loro risposte rende difficile la verifica da parte dell'utente, suscitando preoccupazioni sulla loro affidabilità a causa delle potenziali allucinazioni. In questo lavoro, ci proponiamo di abilitare i LLM a lungo contesto a generare risposte con citazioni a livello di singola frase, migliorandone la fedeltà e verificabilità. Introduciamo innanzitutto LongBench-Cite, un benchmark automatizzato per valutare le prestazioni attuali dei LLM nel Question Answering a Lungo Contesto con Citazioni (LQAC), rivelando un considerevole margine di miglioramento. A tal fine, proponiamo CoF (Coarse to Fine), un nuovo processo che utilizza LLM pronti all'uso per generare automaticamente istanze di QA a lungo contesto con citazioni precise a livello di singola frase, e sfruttiamo questo processo per creare LongCite-45k, un dataset SFT su larga scala per LQAC. Infine, addestriamo LongCite-8B e LongCite-9B utilizzando il dataset LongCite-45k, abilitandoli con successo a generare risposte accurate e citazioni a livello di singola frase dettagliate in un'unica uscita. I risultati della valutazione su LongBench-Cite mostrano che i nostri modelli addestrati raggiungono una qualità delle citazioni all'avanguardia, superando modelli proprietari avanzati tra cui GPT-4o.
Questo articolo introduce MMMU-Pro, una versione robusta del benchmark Massive Multi-discipline Multimodal Understanding and Reasoning (MMMU). MMMU-Pro valuta rigorosamente le vere capacità di comprensione e ragionamento dei modelli multimodali attraverso un processo in tre fasi basato su MMMU: (1) filtraggio delle domande risolvibili solo dai modelli basati sul testo, (2) ampliamento delle opzioni dei candidati e (3) introduzione di un'impostazione di input solo visione in cui le domande sono incorporate nelle immagini. Questa configurazione sfida l'IA a "vedere" e "leggere" contemporaneamente, testando una competenza cognitiva umana fondamentale di integrare in modo fluido informazioni visive e testuali. I risultati mostrano che le prestazioni del modello sono notevolmente inferiori su MMMU-Pro rispetto a MMMU, con variazioni dal 16,8% al 26,9% tra i modelli. Esploriamo l'impatto delle istruzioni OCR e del ragionamento Chain of Thought (CoT), scoprendo che le istruzioni OCR hanno un effetto minimo mentre CoT migliora generalmente le prestazioni. MMMU-Pro fornisce uno strumento di valutazione più rigoroso, che imita da vicino scenari reali e offre preziose indicazioni per futuri studi nell'ambito dell'IA multimodale.
Presentiamo un framework per la manipolazione assistita da robot, che si concentra su due sfide fondamentali: in primo luogo, adattare efficientemente modelli su larga scala per compiti di comprensione delle affordance della scena, specialmente in scenari di vita quotidiana in cui raccogliere dati multi-task che coinvolgono esseri umani richiede uno sforzo considerevole; in secondo luogo, imparare efficacemente le traiettorie del robot ancorandosi al modello di affordance visiva. Affrontiamo la prima sfida impiegando un metodo di sintonizzazione efficiente dei parametri che antepone prompt di testo apprendibili al modello di visione congelato per prevedere le affordance di manipolazione in scenari multi-task. Successivamente proponiamo di imparare le traiettorie del robot guidate dalle affordance in un metodo di corrispondenza di flusso supervisionato. La corrispondenza di flusso rappresenta una politica visuomotoria del robot come un processo condizionato di flusso di waypoint casuali verso traiettorie desiderate del robot. Infine, presentiamo un dataset del mondo reale con 10 compiti relativi alle Attività della Vita Quotidiana per testare il nostro framework. La nostra ampia valutazione evidenzia che il metodo proposto di sintonizzazione dei prompt per imparare le affordance di manipolazione con un prompter di linguaggio raggiunge prestazioni competitive e supera addirittura altri protocolli di fine-tuning su scale di dati, garantendo al contempo efficienza dei parametri. Imparare le traiettorie del robot multi-task con una singola politica di corrispondenza di flusso porta anche a prestazioni costantemente migliori rispetto ai metodi alternativi di clonazione del comportamento, specialmente date le distribuzioni di azioni di robot multimodali. Il nostro framework unifica in modo fluido l'apprendimento del modello di affordance e la generazione di traiettorie con la corrispondenza di flusso per la manipolazione del robot.
Studi recenti stanno dimostrando sempre più che dati di alta qualità sono cruciali per un efficace preaddestramento dei modelli linguistici. Tuttavia, la definizione precisa di "alta qualità" rimane poco esplorata. Concentrandoci sul dominio del codice, presentiamo Arctic-SnowCoder-1.3B, un modello di base efficiente nei dati preaddestrato su 555 miliardi di token attraverso tre fasi di dati progressivamente raffinati: (1) preaddestramento generale con 500 miliardi di token di codice di qualità standard, preprocessati tramite filtraggio di base, deduplicazione e decontaminazione, (2) continuazione del preaddestramento con 50 miliardi di token di alta qualità, selezionati dalla fase uno da un annotatore di qualità in stile BERT addestrato a distinguere il buon codice dai dati casuali, utilizzando esempi positivi tratti da file di codice di alta qualità, insieme a dati di istruzione da Magicoder e StarCoder2-Instruct, e (3) preaddestramento potenziato con 5 miliardi di dati sintetici creati da Llama-3.1-70B utilizzando i dati della fase due come semi, adattando l'approccio di Magicoder per il preaddestramento. Nonostante sia stato addestrato su un dataset limitato, Arctic-SnowCoder raggiunge prestazioni all'avanguardia su BigCodeBench, un benchmark di codifica focalizzato su compiti di programmazione pratici e impegnativi, rispetto a modelli di dimensioni simili addestrati su non più di 1 trilione di token, superando Phi-1.5-1.3B del 36%. Su tutti i benchmark valutati, Arctic-SnowCoder-1.3B batte StarCoderBase-3B preaddestrato su 1 trilione di token. Inoltre, eguaglia le prestazioni dei principali modelli di base di codice ridotto addestrati su trilioni di token. Ad esempio, Arctic-SnowCoder-1.3B supera StarCoder2-3B, preaddestrato su oltre 3,3 trilioni di token, su HumanEval+, un benchmark che valuta la generazione di codice a livello di funzione, e rimane competitivo su BigCodeBench. La nostra valutazione presenta un'analisi completa che giustifica varie scelte progettuali per Arctic-SnowCoder. In particolare, scopriamo che la chiave per dati di alta qualità è la loro allineamento con la distribuzione delle applicazioni downstream.
Gli scienziati sociali hanno rapidamente adottato i grandi modelli linguistici per la loro capacità di annotare documenti senza addestramento supervisionato, una capacità nota come apprendimento zero-shot. Tuttavia, a causa delle loro esigenze computazionali, dei costi e della natura spesso proprietaria, questi modelli sono spesso in contrasto con gli standard di replicazione e di scienza aperta. Questo articolo introduce i modelli linguistici Political DEBATE (DeBERTa Algorithm for Textual Entailment) per la classificazione zero-shot e few-shot dei documenti politici. Questi modelli non solo sono altrettanto buoni, se non migliori, dei grandi modelli linguistici all'avanguardia nella classificazione zero e few-shot, ma sono anche ordini di grandezza più efficienti e completamente open source. Addestrando i modelli su un semplice campione casuale di 10-25 documenti, possono superare i classificatori supervisionati addestrati su centinaia o migliaia di documenti e i modelli generativi all'avanguardia con prompt complessi e progettati. Inoltre, rilasciamo il dataset PolNLI utilizzato per addestrare questi modelli - un corpus di oltre 200.000 documenti politici con etichette altamente accurate su oltre 800 compiti di classificazione.
Le tecniche di conversione vocale (VC) basate sulla diffusione, come VoiceGrad, hanno suscitato interesse grazie alle loro elevate prestazioni in termini di qualità del parlato e similitudine del parlante. Tuttavia, una limitazione notevole è la lentezza dell'inferenza causata dalla diffusione inversa a più passaggi. Pertanto, proponiamo FastVoiceGrad, una nuova VC basata sulla diffusione in un solo passaggio che riduce il numero di iterazioni da decine a una, pur ereditando le elevate prestazioni della VC basata sulla diffusione a più passaggi. Otteniamo il modello utilizzando la distillazione della diffusione condizionale avversaria (ACDD), sfruttando la capacità delle reti generative avversarie e dei modelli di diffusione, riconsiderando gli stati iniziali nel campionamento. Le valutazioni della VC any-to-any in un colpo solo dimostrano che FastVoiceGrad raggiunge prestazioni di VC superiori o paragonabili a quelle della precedente VC basata sulla diffusione a più passaggi, migliorando nel contempo la velocità di inferenza. Campioni audio sono disponibili su https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/fastvoicegrad/.