Articoli di ricerca IA selezionati quotidianamente con traduzioni
Il ragionamento è fondamentale affinché i grandi modelli linguistici (LLM) eccellano in una vasta gamma di compiti. Mentre metodi come il ragionamento a catena di pensiero (CoT) migliorano le prestazioni dei LLM scomponendo i problemi in passaggi intermedi, comportano anche un notevole sovraccarico nell'uso dei token, con conseguenti costi maggiori. Abbiamo riscontrato che il processo di ragionamento dei LLM attuali è eccessivamente lungo e può essere compresso includendo un budget di token ragionevole nel prompt, ma la scelta del budget di token gioca un ruolo cruciale nell'efficacia effettiva della compressione. Proponiamo quindi un framework di ragionamento LLM consapevole del budget di token, che stima dinamicamente i budget di token per problemi diversi in base alla complessità del ragionamento e utilizza i budget di token stimati per guidare il processo di ragionamento. Gli esperimenti mostrano che il nostro metodo riduce efficacemente i costi dei token nel ragionamento CoT con solo una leggera riduzione delle prestazioni, offrendo una soluzione pratica per bilanciare l'efficienza e l'accuratezza nel ragionamento dei LLM. Codice: https://github.com/GeniusHTX/TALE.
In questo lavoro, miriamo a sviluppare un MLLM che comprenda e risolva domande apprendendo a creare ciascun passaggio intermedio del ragionamento coinvolto fino alla risposta finale. A tal fine, proponiamo Collective Monte Carlo Tree Search (CoMCTS), un nuovo metodo di apprendimento per il ragionamento per MLLM, che introduce il concetto di apprendimento collettivo nella "ricerca ad albero" per una ricerca e apprendimento del percorso di ragionamento efficace ed efficiente. L'idea principale di CoMCTS è sfruttare la conoscenza collettiva di più modelli per congetturare, cercare e identificare collaborativamente percorsi di ragionamento efficaci verso risposte corrette tramite quattro operazioni iterative, tra cui Espansione, Simulazione e Posizionamento dell'Errore, Retropropagazione e Selezione. Utilizzando CoMCTS, costruiamo Mulberry-260k, un dataset multimodale con un albero di nodi di ragionamento ricchi, espliciti e ben definiti per ciascuna domanda. Con Mulberry-260k, eseguiamo SFT collettivo per addestrare il nostro modello, Mulberry, una serie di MLLM con capacità di Ragionamento e Riflessione passo dopo passo simili a o1. Estesi esperimenti dimostrano la superiorità dei nostri metodi proposti su vari benchmark. Il codice sarà disponibile su https://github.com/HJYao00/Mulberry
Presentiamo un approccio efficiente senza codificatore per la comprensione video-linguaggio che raggiunge prestazioni competitive riducendo significativamente l'onere computazionale. I modelli attuali di video-linguaggio di solito si basano su pesanti codificatori di immagini (da 300M a 1.1B di parametri) o codificatori video (da 1B a 1.4B di parametri), creando un notevole onere computazionale durante l'elaborazione di video a più frame. Il nostro metodo introduce un nuovo Blocco di Allineamento Spazio-Temporale (STAB) che elabora direttamente gli input video senza richiedere codificatori preaddestrati, utilizzando solo 45M di parametri per l'elaborazione visiva - almeno una riduzione del 6.5 volte rispetto agli approcci tradizionali. L'architettura STAB combina la Codifica Spazio-Temporale Locale per l'estrazione dettagliata delle caratteristiche, il downsampling spaziale efficiente tramite attenzione appresa e meccanismi separati per modellare le relazioni a livello di frame e di video. Il nostro modello raggiunge prestazioni comparabili o superiori rispetto agli approcci basati su codificatori per la risposta a domande video aperte su benchmark standard. La valutazione dettagliata di risposta a domande video dimostra l'efficacia del nostro modello, superando gli approcci basati su codificatori Video-ChatGPT e Video-LLaVA in aspetti chiave come correttezza e comprensione temporale. Estesi studi di ablazione convalidano le nostre scelte architetturali e dimostrano l'efficacia del nostro approccio di modellazione spazio-temporale, ottenendo velocità di elaborazione 3-4 volte più veloci rispetto ai metodi precedenti. Il codice è disponibile su https://github.com/jh-yi/Video-Panda.
La radio rimane un mezzo pervasivo per la diffusione di informazioni di massa, con stazioni AM/FM che raggiungono più americani rispetto sia ai social network basati su smartphone che alla televisione in diretta. Sempre più spesso, le trasmissioni radiofoniche vengono anche trasmesse in streaming online e accessibili tramite Internet. Presentiamo WavePulse, un framework che registra, documenta e analizza i contenuti radio in tempo reale. Sebbene il nostro framework sia generalmente applicabile, mostriamo l'efficacia di WavePulse in un progetto collaborativo con un team di scienziati politici concentrati sulle Elezioni Presidenziali del 2024. Utilizziamo WavePulse per monitorare le trasmissioni in diretta di 396 stazioni radio di notizie per un periodo di tre mesi, elaborando quasi 500.000 ore di flussi audio. Questi flussi sono stati convertiti in trascrizioni datate e diarizzate e analizzati per tracciare le risposte a domande chiave di scienze politiche sia a livello nazionale che statale. La nostra analisi ha rivelato come le questioni locali interagissero con le tendenze nazionali, fornendo approfondimenti sul flusso di informazioni. I nostri risultati dimostrano l'efficacia di WavePulse nel catturare e analizzare i contenuti delle trasmissioni radiofoniche in diretta provenienti dal Web. Il codice e il dataset sono accessibili su https://wave-pulse.io.
La traduzione simultanea del discorso in testo (SimulST) traduce il discorso nella lingua di origine in testo nella lingua di destinazione contemporaneamente al discorso del parlante, garantendo una bassa latenza per una migliore comprensione dell'utente. Nonostante la sua applicazione prevista al discorso illimitato, la maggior parte delle ricerche si è concentrata sul discorso umano pre-segmentato, semplificando il compito e trascurando sfide significative. Questo focus limitato, unito a diffusi problemi di inconsistenza terminologica, sta limitando l'applicabilità dei risultati della ricerca alle applicazioni reali, ostacolando infine il progresso nel settore. La nostra approfondita revisione della letteratura di 110 articoli non solo mette in luce questi problemi critici nella ricerca attuale, ma costituisce anche la base per i nostri contributi chiave. 1) Definiamo i passaggi e i componenti principali di un sistema SimulST, proponendo una terminologia standardizzata e una tassonomia; 2) conduciamo un'analisi approfondita delle tendenze della comunità e 3) offriamo raccomandazioni concrete e indicazioni future per colmare le lacune nella letteratura esistente, dai framework di valutazione alle architetture di sistema, per far progredire il settore verso soluzioni SimulST più realistiche ed efficaci.
Gli avanzamenti recenti nei codificatori automatici video (Video AEs) hanno migliorato significativamente la qualità e l'efficienza della generazione video. In questo articolo, proponiamo un codificatore automatico video innovativo e compatto, VidTwin, che separa i video in due spazi latenti distinti: vettori latenti di Struttura, che catturano il contenuto complessivo e il movimento globale, e vettori latenti di Dinamica, che rappresentano dettagli fini e movimenti rapidi. In particolare, il nostro approccio sfrutta un'architettura Codificatore-Decodificatore, potenziata con due sottomoduli per l'estrazione di questi spazi latenti, rispettivamente. Il primo sottomodulo utilizza un Q-Former per estrarre le tendenze di movimento a bassa frequenza, seguito da blocchi di sottocampionamento per rimuovere dettagli di contenuto ridondanti. Il secondo calcola la media dei vettori latenti lungo la dimensione spaziale per catturare il movimento rapido. Estesi esperimenti dimostrano che VidTwin raggiunge un'elevata percentuale di compressione dello 0,20% con alta qualità di ricostruzione (PSNR di 28,14 sul dataset MCL-JCV), e si comporta in modo efficiente ed efficace nei compiti generativi successivi. Inoltre, il nostro modello dimostra spiegabilità e scalabilità, aprendo la strada per futuri studi sulla rappresentazione latente e generazione video. Il nostro codice è stato reso disponibile su https://github.com/microsoft/VidTok/tree/main/vidtwin.
I terapeutici peptidici, una classe principale di medicinali, hanno ottenuto un notevole successo in diverse patologie come il diabete e il cancro, con esempi di rilievo come gli agonisti del recettore GLP-1 che hanno rivoluzionato il trattamento del diabete di tipo 2 e dell'obesità. Nonostante il loro successo, progettare peptidi che soddisfino obiettivi contrastanti multipli, come l'affinità di legame con il bersaglio, la solubilità e la permeabilità della membrana, rimane una sfida importante. Lo sviluppo di farmaci classico e il design basato sulla struttura sono inefficaci per compiti del genere, poiché non riescono ad ottimizzare le proprietà funzionali globali critiche per l'efficacia terapeutica. I framework generativi esistenti sono in gran parte limitati a spazi continui, output non condizionati o guida a singolo obiettivo, rendendoli inadatti all'ottimizzazione di sequenze discrete attraverso proprietà multiple. Per affrontare questo problema, presentiamo PepTune, un modello di diffusione discreta multi-obiettivo per la generazione e l'ottimizzazione simultanea di SMILES peptidici terapeutici. Basato sul framework Masked Discrete Language Model (MDLM), PepTune garantisce strutture peptidiche valide con programmi di mascheramento dipendenti dallo stato e obiettivi basati su penalità. Per guidare il processo di diffusione, proponiamo una strategia basata su Monte Carlo Tree Search (MCTS) che bilancia l'esplorazione e lo sfruttamento per affinare iterativamente sequenze di Pareto ottimali. MCTS integra ricompense basate su classificatori con l'espansione dell'albero di ricerca, superando le sfide di stima del gradiente e la scarsità di dati intrinseche agli spazi discreti. Utilizzando PepTune, generiamo peptidi diversi e chimicamente modificati ottimizzati per molteplici proprietà terapeutiche, inclusa l'affinità di legame con il bersaglio, la permeabilità della membrana, la solubilità, l'emolisi e le caratteristiche anti-incrostazione su vari bersagli rilevanti per malattie. Nel complesso, i nostri risultati dimostrano che la diffusione discreta guidata da MCTS è un approccio potente e modulare per il design di sequenze multi-obiettivo in spazi di stato discreti.