Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo InternLM-XComposer-2.5 (IXC-2.5), un modello linguistico di grandi dimensioni versatile che supporta input e output a contesto lungo. IXC-2.5 eccelle in varie applicazioni di comprensione e composizione testo-immagine, raggiungendo capacità a livello di GPT-4V con un backend LLM di soli 7B. Addestrato con 24K contesti intervallati di immagini e testo, può estendersi senza soluzione di continuità a contesti lunghi 96K tramite estrapolazione RoPE. Questa capacità di contesto lungo consente a IXC-2.5 di eccellere in compiti che richiedono contesti di input e output estesi. Rispetto alla precedente versione 2.0, InternLM-XComposer-2.5 presenta tre importanti aggiornamenti nella comprensione visione-linguaggio: (1) Comprensione a Risoluzione Ultra-Alta, (2) Comprensione Fine-Grained dei Video e (3) Dialogo Multi-Turn con Immagini Multiple. Oltre alla comprensione, IXC-2.5 si estende a due applicazioni convincenti utilizzando parametri LoRA aggiuntivi per la composizione testo-immagine: (1) Creazione di Pagine Web e (2) Composizione di Articoli Testo-Immagine di Alta Qualità. IXC-2.5 è stato valutato su 28 benchmark, superando i modelli open-source all'avanguardia esistenti su 16 benchmark. Supera o compete strettamente con GPT-4V e Gemini Pro su 16 compiti chiave. InternLM-XComposer-2.5 è disponibile pubblicamente all'indirizzo https://github.com/InternLM/InternLM-XComposer.
I benchmark che riflettono fedelmente gli scenari applicativi reali sono essenziali per l'adozione efficiente delle nuove ricerche nell'apprendimento automatico (ML) su dati tabellari. In questo lavoro, esaminiamo i benchmark tabellari esistenti e individuiamo due caratteristiche comuni dei dati tabellari di livello industriale che sono sottorappresentate nei dataset disponibili alla comunità accademica. In primo luogo, i dati tabellari spesso cambiano nel tempo negli scenari di deployment reali. Ciò influisce sulle prestazioni del modello e richiede divisioni temporali dei dati di addestramento e test per una corretta valutazione del modello. Tuttavia, i dataset tabellari accademici esistenti spesso mancano di metadati temporali che consentano tale valutazione. In secondo luogo, una parte considerevole dei dataset negli ambienti di produzione deriva da estese pipeline di acquisizione dati e ingegnerizzazione delle feature. Per ogni specifico dataset, ciò può avere un impatto diverso sul numero assoluto e relativo di feature predittive, non informative e correlate, il che a sua volta può influenzare la selezione del modello. Per colmare le lacune sopra menzionate nei benchmark accademici, introduciamo TabReD — una raccolta di otto dataset tabellari di livello industriale che coprono un'ampia gamma di settori, dalla finanza ai servizi di consegna di cibo. Valutiamo un gran numero di modelli ML tabellari nell'ambito di dati ricchi di feature e temporalmente evolutivi reso possibile da TabReD. Dimostriamo che la valutazione su divisioni temporali dei dati porta a un diverso ranking dei metodi rispetto alla valutazione su divisioni casuali più comuni nei benchmark accademici. Inoltre, sui dataset di TabReD, le architetture di tipo MLP e i GBDT mostrano i migliori risultati, mentre i modelli DL più sofisticati devono ancora dimostrare la loro efficacia.
La guida senza classificatore (Classifier-Free Guidance, CFG) è diventata il metodo standard per migliorare la qualità dei modelli di diffusione condizionata. Tuttavia, l'utilizzo della CFG richiede o l'addestramento di un modello non condizionato insieme al modello di diffusione principale o la modifica della procedura di addestramento inserendo periodicamente una condizione nulla. Inoltre, non esiste un'estensione chiara della CFG ai modelli non condizionati. In questo articolo, riprendiamo i principi fondamentali della CFG e introduciamo un nuovo metodo, la guida indipendente dalla condizione (Independent Condition Guidance, ICG), che offre i vantaggi della CFG senza la necessità di procedure di addestramento speciali. Il nostro approccio semplifica il processo di addestramento dei modelli di diffusione condizionata e può essere applicato anche durante l'inferenza su qualsiasi modello condizionato pre-addestrato. Inoltre, sfruttando le informazioni sul passo temporale codificate in tutte le reti di diffusione, proponiamo un'estensione della CFG, chiamata guida basata sul passo temporale (Time-Step Guidance, TSG), che può essere applicata a qualsiasi modello di diffusione, inclusi quelli non condizionati. Le nostre tecniche di guida sono facili da implementare e hanno lo stesso costo di campionamento della CFG. Attraverso esperimenti estensivi, dimostriamo che l'ICG eguaglia le prestazioni della CFG standard su vari modelli di diffusione condizionata. Inoltre, mostriamo che la TSG migliora la qualità della generazione in modo simile alla CFG, senza fare affidamento su alcuna informazione condizionata.
Il proiettore visivo funge da ponte essenziale tra l'encoder visivo e il Large Language Model (LLM) in un Multimodal LLM (MLLM). Tipicamente, gli MLLM adottano un semplice MLP per preservare tutti i contesti visivi attraverso una trasformazione uno-a-uno. Tuttavia, i token visivi sono ridondanti e possono aumentare considerevolmente quando si trattano immagini ad alta risoluzione, compromettendo significativamente l'efficienza degli MLLM. Alcuni lavori recenti hanno introdotto un resampler o un abstractor per ridurre il numero di token visivi risultanti. Purtroppo, questi non riescono a catturare i dettagli più fini e minano le capacità di ragionamento visivo degli MLLM. In questo lavoro, proponiamo un nuovo proiettore visivo, che adotta uno schema da grossolano a fine per iniettare le caratteristiche arricchite e generare token visivi condensati. Nello specifico, prima interpoliamo le caratteristiche visive come una query puntuale a bassa risoluzione, fornendo la rappresentazione visiva complessiva come fondamento. Poi, introduciamo un modulo di iniezione da regione a punto che utilizza indizi basati su regioni ad alta risoluzione e multi-livello come chiavi e valori di riferimento fine-granulari, permettendo loro di essere completamente assorbiti all'interno della corrispondente regione di contesto locale. Questo passaggio aggiorna efficacemente la query puntuale grossolana, trasformandola in una arricchita per il successivo ragionamento LLM. Esperimenti estensivi dimostrano che il nostro approccio comprime i token visivi del 75%~89%, ottenendo prestazioni comparabili o addirittura migliori su diversi benchmark con un'efficienza significativamente maggiore. I codici sorgente sono disponibili all'indirizzo https://github.com/CircleRadon/TokenPacker.
Recentemente, i compiti di generazione audio hanno attirato un notevole interesse di ricerca. La controllabilità temporale precisa è essenziale per integrare la generazione audio con applicazioni reali. In questo lavoro, proponiamo un framework di generazione audio temporalmente controllato, PicoAudio. PicoAudio integra informazioni temporali per guidare la generazione audio attraverso un design del modello su misura. Sfrutta il crawling dei dati, la segmentazione, il filtraggio e la simulazione di dati audio-testo temporalmente allineati a grana fine. Sia le valutazioni soggettive che quelle oggettive dimostrano che PicoAudio supera in modo significativo gli attuali modelli di generazione all'avanguardia in termini di controllabilità del timestamp e della frequenza di occorrenza. I campioni generati sono disponibili sul sito demo https://PicoAudio.github.io.
I modelli di diffusione (DMs) hanno rivoluzionato l'apprendimento generativo. Utilizzano un processo di diffusione per codificare i dati in una semplice distribuzione gaussiana. Tuttavia, codificare una distribuzione di dati complessa e potenzialmente multimodale in un'unica distribuzione gaussiana continua rappresenta, senza dubbio, un problema di apprendimento eccessivamente impegnativo. Proponiamo i Modelli di Diffusione con Variabili Latenti Discrete-Continue (DisCo-Diff) per semplificare questo compito introducendo variabili latenti discrete complementari. Aumentiamo i DMs con variabili latenti discrete apprendibili, inferite tramite un encoder, e addestriamo il DM e l'encoder end-to-end. DisCo-Diff non si basa su reti pre-addestrate, rendendo il framework universalmente applicabile. Le variabili latenti discrete semplificano significativamente l'apprendimento della complessa mappatura rumore-dati del DM riducendo la curvatura dell'ODE generativo del DM. Un ulteriore trasformatore autoregressivo modella la distribuzione delle variabili latenti discrete, un passo semplice poiché DisCo-Diff richiede solo poche variabili discrete con piccoli codebook. Validiamo DisCo-Diff su dati giocattolo, diverse attività di sintesi di immagini e docking molecolare, e scopriamo che l'introduzione di variabili latenti discrete migliora costantemente le prestazioni del modello. Ad esempio, DisCo-Diff raggiunge punteggi FID all'avanguardia sui dataset ImageNet-64/128 con condizionamento di classe utilizzando un campionatore ODE.
I grandi modelli linguistici (LLM), noti per le loro eccezionali capacità di ragionamento, generalizzabilità e fluidità in diversi domini, rappresentano una promettente opportunità per migliorare le attività legate al parlato. In questo articolo, ci concentriamo sull'integrazione di LLM di tipo decoder-only nel compito di traduzione da parlato a testo (S2TT). Proponiamo un'architettura decoder-only che consente all'LLM di elaborare direttamente la rappresentazione codificata del parlato e generare la traduzione testuale. Inoltre, esploriamo gli effetti di diverse tecniche di fine-tuning efficiente in termini di parametri e di formulazione del compito. Il nostro modello raggiunge prestazioni all'avanguardia su CoVoST 2 e FLEURS tra i modelli addestrati senza dati proprietari. Eseguiamo anche analisi per validare le scelte progettuali del modello proposto e forniamo approfondimenti sull'integrazione degli LLM nel contesto della S2TT.
I Large Language Model (LLM) sono vulnerabili ai jailbreak, metodi per ottenere output dannosi o generalmente non consentiti. Le misure di sicurezza vengono sviluppate e valutate in base alla loro efficacia nel difendere dagli attacchi di jailbreak, indicando una convinzione che la sicurezza equivalga alla robustezza. Affermiamo che i meccanismi di difesa attuali, come i filtri sugli output e il fine-tuning di allineamento, sono e rimarranno fondamentalmente insufficienti per garantire la sicurezza del modello. Queste difese non affrontano i rischi derivanti da query a doppia intenzione e dalla capacità di comporre output innocui per raggiungere obiettivi dannosi. Per colmare questa lacuna critica, introduciamo un modello di minaccia basato sulla teoria dell'informazione chiamato avversari inferenziali, che sfruttano la fuoriuscita di informazioni non consentite dagli output del modello per raggiungere obiettivi malevoli. Distinguiamo questi dagli avversari di sicurezza comunemente studiati, che cercano solo di costringere i modelli vittima a generare specifici output non consentiti. Dimostriamo la fattibilità di automatizzare gli avversari inferenziali attraverso la scomposizione delle domande e l'aggregazione delle risposte. Per fornire garanzie di sicurezza, definiamo un criterio di censura delle informazioni per i meccanismi di censura, limitando la fuoriuscita di informazioni non consentite. Proponiamo un meccanismo di difesa che assicura questo limite e riveliamo un compromesso intrinseco tra sicurezza e utilità. Il nostro lavoro fornisce la prima comprensione teoricamente fondata dei requisiti per il rilascio di LLM sicuri e dei costi di utilità coinvolti.
Il bias posizionale si è dimostrato un problema diffuso nei moderni modelli linguistici (LM), in cui i modelli privilegiano il contenuto in base alla sua posizione all'interno del contesto fornito. Questo bias spesso porta a fallimenti imprevisti del modello e compromette le prestazioni, la robustezza e l'affidabilità in varie applicazioni. La nostra analisi meccanicistica attribuisce il bias posizionale a due componenti utilizzati in quasi tutti i LM all'avanguardia: l'attenzione causale e le codifiche posizionali relative. In particolare, scopriamo che l'attenzione causale induce generalmente i modelli a favorire il contenuto distante, mentre le codifiche posizionali relative come RoPE preferiscono quello vicino, sulla base dell'analisi del question answering (QA) potenziato dal recupero di informazioni. Inoltre, il nostro studio empirico sul rilevamento di oggetti rivela che il bias posizionale è presente anche nei modelli visione-linguaggio (VLM). Sulla base delle analisi sopra descritte, proponiamo di ELIMINARE il bias posizionale causato da diversi ordini di segmenti di input (ad esempio, opzioni in LM-as-a-judge, documenti recuperati in QA) in modo TRAINING-FREE ZERO-SHOT. Il nostro metodo modifica l'attenzione causale in un'attenzione bidirezionale tra i segmenti e utilizza i valori di attenzione del modello per decidere l'ordine relativo dei segmenti invece di usare l'ordine fornito nei prompt di input, consentendo così un'inferenza INVARIANTE alla POSIZIONE (PINE) a livello di segmento. Eliminando il bias posizionale, i modelli raggiungono prestazioni e affidabilità migliori nei task downstream in cui il bias posizionale è ampiamente presente, come LM-as-a-judge e QA potenziato dal recupero di informazioni. In particolare, PINE è particolarmente utile quando si adattano i LM per valutare coppie di ragionamento: fornisce costantemente miglioramenti delle prestazioni dell'8-10% nella maggior parte dei casi e fa sì che Llama-3-70B-Instruct performi persino meglio di GPT-4-0125-preview nel sottoinsieme di ragionamento di RewardBench.