Articoli di ricerca IA selezionati quotidianamente con traduzioni
I fogli di calcolo, con le loro estese griglie bidimensionali, vari layout e diverse opzioni di formattazione, presentano sfide significative per i grandi modelli linguistici (LLM). In risposta, introduciamo SpreadsheetLLM, pionierizzando un metodo di codifica efficiente progettato per liberare e ottimizzare la potente capacità di comprensione e ragionamento degli LLM sui fogli di calcolo. Inizialmente, proponiamo un approccio di serializzazione di base che incorpora indirizzi delle celle, valori e formati. Tuttavia, questo approccio era limitato dai vincoli di token degli LLM, rendendolo impraticabile per la maggior parte delle applicazioni. Per affrontare questa sfida, sviluppiamo SheetCompressor, un framework di codifica innovativo che comprime efficacemente i fogli di calcolo per gli LLM. Esso comprende tre moduli: compressione basata su ancore strutturali, traduzione di indici inversi e aggregazione consapevole del formato dei dati. Migliora significativamente le prestazioni nel compito di rilevamento delle tabelle nei fogli di calcolo, superando l'approccio di base del 25,6% nell'impostazione di apprendimento in-context di GPT4. Inoltre, un LLM fine-tuned con SheetCompressor ha un rapporto di compressione medio di 25 volte, ma raggiunge un punteggio F1 all'avanguardia del 78,9%, superando i migliori modelli esistenti del 12,3%. Infine, proponiamo Chain of Spreadsheet per i compiti a valle della comprensione dei fogli di calcolo e convalidiamo in un nuovo e impegnativo compito di QA sui fogli di calcolo. Sfruttiamo metodicamente il layout e la struttura intrinseca dei fogli di calcolo, dimostrando che SpreadsheetLLM è altamente efficace in una varietà di compiti sui fogli di calcolo.
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità notevoli, ma continuano a lottare con l'elaborazione di contesti estesi, limitando la loro capacità di mantenere coerenza e accuratezza su sequenze lunghe. Al contrario, il cervello umano eccelle nell'organizzare e recuperare esperienze episodiche su scale temporali vaste, che abbracciano un'intera vita. In questo lavoro, introduciamo EM-LLM, un approccio innovativo che integra aspetti chiave della memoria episodica umana e della cognizione degli eventi negli LLM, consentendo loro di gestire efficacemente lunghezze di contesto praticamente infinite mantenendo l'efficienza computazionale. EM-LLM organizza sequenze di token in eventi episodici coerenti utilizzando una combinazione di sorpresa bayesiana e raffinamento dei confini basato sulla teoria dei grafi in modo online. Quando necessario, questi eventi vengono recuperati attraverso un processo di memoria a due stadi, che combina il recupero basato sulla similarità e quello temporalmente contiguo per un accesso efficiente e simile a quello umano alle informazioni rilevanti. Gli esperimenti sul dataset LongBench dimostrano la performance superiore di EM-LLM, superando il modello all'avanguardia InfLLM con un miglioramento relativo complessivo del 4,3% su vari compiti, incluso un miglioramento del 33% nel task PassageRetrieval. Inoltre, la nostra analisi rivela forti correlazioni tra la segmentazione degli eventi di EM-LLM e gli eventi percepiti dagli esseri umani, suggerendo un ponte tra questo sistema artificiale e la sua controparte biologica. Questo lavoro non solo avanza le capacità degli LLM nell'elaborazione di contesti estesi, ma fornisce anche un framework computazionale per esplorare i meccanismi della memoria umana, aprendo nuove strade per la ricerca interdisciplinare nell'IA e nelle scienze cognitive.
Questo rapporto tecnico descrive il Time Series Optimized Transformer for Observability (Toto), un nuovo modello foundation all'avanguardia per la previsione di serie temporali sviluppato da Datadog. Oltre a far progredire lo stato dell'arte su benchmark generalizzati di serie temporali in domini come l'elettricità e il meteo, questo modello è il primo modello foundation per la previsione di serie temporali a scopo generale specificamente ottimizzato per metriche di osservabilità. Toto è stato addestrato su un dataset di mille miliardi di punti dati di serie temporali, il più grande tra tutti i modelli foundation per serie temporali attualmente pubblicati. Oltre ai dataset di serie temporali pubblicamente disponibili, il 75% dei dati utilizzati per addestrare Toto è costituito da punti dati numerici completamente anonimi provenienti dalla piattaforma Datadog. Nei nostri esperimenti, Toto supera i modelli foundation esistenti per serie temporali sui dati di osservabilità. Lo fa mantenendo anche un'eccellente capacità di previsione a scopo generale, raggiungendo prestazioni zero-shot all'avanguardia su più dataset benchmark aperti.
I Large Language Model (LLM) vengono aggiornati frequentemente a causa di modifiche ai dati o all'architettura per migliorarne le prestazioni. Durante l'aggiornamento dei modelli, gli sviluppatori si concentrano spesso sull'aumento delle metriche di prestazione complessive, dedicando meno attenzione alla compatibilità con le versioni precedenti del modello. Tuttavia, gli utenti tendono a costruire un modello mentale delle funzionalità e delle capacità di un particolare modello di machine learning con cui interagiscono. Devono adattare questo modello mentale a ogni aggiornamento, un compito faticoso che può portare a insoddisfazione. Nella pratica, gli adattatori per task downstream fine-tuned si basano su modelli base LLM pre-addestrati. Quando questi modelli base vengono aggiornati, i modelli downstream rivolti agli utenti sperimentano regressioni di istanze o "negative flips" — casi precedentemente corretti che ora vengono predetti in modo errato. Ciò accade anche quando le procedure di addestramento per i task downstream rimangono identiche. Il nostro lavoro mira a fornire aggiornamenti di modelli senza interruzioni per l'utente in due modi. Innanzitutto, forniamo metriche di valutazione per una nozione di compatibilità con le versioni precedenti del modello, specificamente per task generativi ma applicabili anche a task discriminativi. Osserviamo regressioni e inconsistenze tra diverse versioni del modello su un insieme diversificato di task e aggiornamenti. In secondo luogo, proponiamo una strategia di addestramento per minimizzare il numero di inconsistenze negli aggiornamenti del modello, che prevede l'addestramento di un modello di compatibilità in grado di migliorare i modelli linguistici fine-tuned per task specifici. Riduciamo i "negative flips" — casi in cui una versione precedente del modello era corretta, ma una nuova versione è errata — fino al 40% passando da Llama 1 a Llama 2.
I Large Language Model (LLM) hanno dimostrato un grande potenziale come assistenti generalisti, mostrando una potente comprensione dei compiti e capacità di problem solving. Per implementare gli LLM come assistenti AI, è cruciale che questi modelli mostrino tratti comportamentali desiderabili, come la non tossicità e la resilienza contro tentativi di jailbreak. I metodi attuali per la detossificazione o la prevenzione del jailbreaking di solito coinvolgono il Supervised Fine-Tuning (SFT) o il Reinforcement Learning from Human Feedback (RLHF), che richiedono il fine-tuning di miliardi di parametri attraverso la discesa del gradiente con un costo computazionale sostanziale. Inoltre, i modelli modificati tramite SFT e RLHF possono deviare dai modelli pre-addestrati, potenzialmente portando a un degrado delle capacità fondamentali degli LLM. In questo articolo, osserviamo che, sorprendentemente, modificare direttamente un piccolo sottoinsieme di parametri può modulare efficacemente comportamenti specifici degli LLM, come la detossificazione e la resistenza al jailbreaking. Nello specifico, per un comportamento che intendiamo evitare, utilizziamo un classificatore lineare, che chiamiamo sonda comportamentale, per classificare etichette comportamentali binarie all'interno dello spazio degli stati nascosti dell'LLM. Utilizzando questa sonda, introduciamo un algoritmo per identificare un sottoinsieme critico di parametri dell'LLM che influenzano significativamente questo comportamento mirato. Quindi modifichiamo direttamente questi parametri selezionati spostandoli verso la sonda comportamentale. Tale metodo di modifica diretta dei parametri richiede solo risorse computazionali a livello di inferenza. Gli esperimenti dimostrano che nel compito rappresentativo di detossificazione, il nostro approccio ottiene riduzioni fino al 90,0% della tossicità sul dataset RealToxicityPrompts e del 49,2% su ToxiGen, mantenendo le capacità generali dell'LLM in aree come il senso comune, il question answering e la matematica. Il nostro codice è disponibile all'indirizzo https://github.com/lucywang720/model-surgery.
Presentiamo H2O-Danube3, una serie di piccoli modelli linguistici composta da H2O-Danube3-4B, addestrato su 6T di token, e H2O-Danube3-500M, addestrato su 4T di token. I nostri modelli sono pre-addestrati su dati Web di alta qualità, costituiti principalmente da token in inglese, in tre fasi con diverse combinazioni di dati, prima della messa a punto finale supervisionata per la versione chat. I modelli mostrano metriche altamente competitive in una moltitudine di benchmark accademici, di chat e di fine-tuning. Grazie alla sua architettura compatta, H2O-Danube3 può essere eseguito in modo efficiente su uno smartphone moderno, consentendo inferenza locale e capacità di elaborazione rapida anche su dispositivi mobili. Rendiamo tutti i modelli disponibili pubblicamente con licenza Apache 2.0, democratizzando ulteriormente i LLM per un pubblico più ampio in modo economico.
Generare automaticamente giochi nuovi e interessanti è un compito complesso. Le sfide includono la rappresentazione delle regole del gioco in una forma computazionalmente gestibile, l'esplorazione del vasto spazio dei potenziali giochi nella maggior parte di tali rappresentazioni e la valutazione accurata dell'originalità e della qualità di giochi mai visti prima. Il lavoro precedente nella generazione automatica di giochi si è concentrato principalmente su rappresentazioni delle regole relativamente ristrette e ha fatto affidamento su euristiche specifiche del dominio. In questo lavoro, esploriamo la generazione di giochi nuovi nel linguaggio di descrizione dei giochi Ludii, che è comparativamente più espansivo e codifica le regole di oltre 1000 giochi da tavolo in una varietà di stili e modalità di gioco. Traiamo ispirazione dai recenti progressi nei modelli linguistici di grandi dimensioni e nel calcolo evolutivo per addestrare un modello che muta e ricombina in modo intelligente giochi e meccaniche espressi come codice. Dimostriamo sia quantitativamente che qualitativamente che il nostro approccio è in grado di generare giochi nuovi e interessanti, comprese regioni dello spazio delle regole potenziali non coperte dai giochi esistenti nel dataset Ludii. Un campione dei giochi generati è disponibile per essere giocato online attraverso il portale Ludii.
Nonostante la loro adozione quasi universale per i modelli linguistici di grandi dimensioni, il funzionamento interno dei transformer non è ben compreso. Il nostro obiettivo è comprendere meglio l'impatto della rimozione o della riorganizzazione delle informazioni attraverso i livelli di un transformer preaddestrato. Tale comprensione potrebbe portare sia a un migliore utilizzo dei modelli esistenti sia a miglioramenti architetturali per produrre nuove varianti. Presentiamo una serie di studi empirici su modelli congelati che dimostrano come i livelli inferiori e finali dei transformer preaddestrati differiscano dai livelli intermedi, ma che i livelli intermedi presentano una sorprendente uniformità. Mostriamo inoltre che alcune classi di problemi sono robuste rispetto al salto di livelli, all'esecuzione dei livelli in un ordine diverso da quello con cui sono stati addestrati o all'esecuzione dei livelli in parallelo. Le nostre osservazioni suggeriscono che anche i modelli preaddestrati congelati possono scambiare in modo elegante precisione con latenza saltando livelli o eseguendo livelli in parallelo.
I recenti progressi nei campi di radianza hanno aperto nuove strade per la creazione di asset e scene 3D di alta qualità. Il trasferimento di stile può arricchire questi asset 3D con una varietà di stili artistici, trasformando l'espressione creativa. Tuttavia, le tecniche esistenti sono spesso lente o incapaci di localizzare il trasferimento di stile su oggetti specifici. Introduciamo StyleSplat, un metodo leggero per stilizzare oggetti 3D in scene rappresentate da Gaussiane 3D a partire da immagini di stile di riferimento. Il nostro approccio apprende prima una rappresentazione fotorealistica della scena utilizzando lo splatting di Gaussiane 3D, segmentando contemporaneamente i singoli oggetti 3D. Successivamente, utilizziamo una perdita di corrispondenza delle caratteristiche basata sul vicino più prossimo per affinare le Gaussiane degli oggetti selezionati, allineando i loro coefficienti armonici sferici con l'immagine di stile per garantire coerenza e attrattiva visiva. StyleSplat consente un trasferimento di stile rapido e personalizzabile, nonché la stilizzazione localizzata di più oggetti all'interno di una scena, ciascuno con uno stile diverso. Dimostriamo la sua efficacia in varie scene e stili 3D, evidenziando un maggiore controllo e personalizzazione nella creazione 3D.
La ricerca di risposte a domande all'interno di lunghi articoli di ricerca scientifica rappresenta un'area di studio cruciale che aiuta i lettori a risolvere rapidamente i propri dubbi. Tuttavia, i dataset esistenti per il question-answering (QA) basati su articoli scientifici sono limitati in scala e si concentrano esclusivamente sul contenuto testuale. Per superare questa limitazione, introduciamo SPIQA (Scientific Paper Image Question Answering), il primo dataset QA su larga scala specificamente progettato per interpretare figure e tabelle complesse nel contesto di articoli di ricerca scientifica in vari ambiti dell'informatica. Sfruttando l'ampia competenza e la capacità dei modelli linguistici multimodali di grandi dimensioni (MLLMs) di comprendere le figure, utilizziamo una curatela automatica e manuale per creare il dataset. Abbiamo ideato un'attività di ricerca di informazioni che coinvolge più immagini, coprendo una vasta gamma di grafici, diagrammi, tabelle, schemi e visualizzazioni di risultati. SPIQA comprende 270K domande suddivise in set di addestramento, validazione e tre diversi set di valutazione. Attraverso esperimenti estesi con 12 modelli fondazionali di rilievo, valutiamo la capacità dei sistemi multimodali attuali di comprendere gli aspetti più sfumati degli articoli di ricerca. Inoltre, proponiamo una strategia di valutazione Chain-of-Thought (CoT) con recupero in contesto che consente una valutazione granulare e passo-passo, migliorando le prestazioni del modello. Esploriamo ulteriormente i limiti superiori del miglioramento delle prestazioni con informazioni testuali aggiuntive, evidenziando il suo potenziale promettente per la ricerca futura e l'impatto del dataset nel rivoluzionare il modo in cui interagiamo con la letteratura scientifica.
In passato, i grandi modelli linguistici si sono generalmente affidati a qualche forma di apprendimento per rinforzo con feedback umano (RLHF) per allineare meglio le risposte del modello alle preferenze umane. Tuttavia, a causa delle instabilità spesso osservate durante l'implementazione di queste pipeline RLHF, recentemente sono state introdotte varie tecniche di riparametrizzazione per evitare la necessità di apprendere separatamente un modello di ricompensa RL. Invece, il fine-tuning diretto per le preferenze umane viene ottenuto attraverso la minimizzazione di un singolo obiettivo di addestramento in forma chiusa, un processo originariamente denominato ottimizzazione diretta delle preferenze (DPO) e seguito da diversi discendenti notevoli. Sebbene efficaci in certi contesti reali, introduciamo nuovi criteri di valutazione che evidenziano carenze irrisolte nella capacità dei metodi DPO esistenti di interpolare tra un modello di riferimento pre-addestrato e misure empiriche delle preferenze umane, nonché compromessi inevitabili nel modo in cui le risposte di bassa e alta qualità vengono regolarizzate e i vincoli gestiti. Le nostre intuizioni motivano quindi una perdita alternativa simile al DPO che mitiga provabilmente queste limitazioni. I risultati empirici servono a corroborare aspetti notevoli delle nostre analisi.
L'inferenza su contesti lunghi presenta sfide a livello di sistema con un aumento dei requisiti di calcolo e memoria, nonché dal punto di vista dell'accuratezza nella capacità di ragionare su contesti estesi. Recentemente, sono stati proposti diversi metodi per comprimere il prompt al fine di ridurre la lunghezza del contesto. Tuttavia, sono stati condotti pochi lavori che confrontano i diversi metodi proposti su vari compiti attraverso un'analisi standardizzata. Ciò ha portato a risultati contrastanti. Per affrontare questo problema, qui eseguiamo una caratterizzazione e valutazione completa dei diversi metodi di compressione del prompt. In particolare, analizziamo la compressione estrattiva, la compressione astrattiva basata su riassunto e i metodi di potatura dei token. Sorprendentemente, scopriamo che la compressione estrattiva spesso supera tutti gli altri approcci e consente una compressione fino a 10x con un degrado minimo dell'accuratezza. Inoltre, troviamo che, nonostante diverse affermazioni recenti, i metodi di potatura dei token spesso rimangono indietro rispetto alla compressione estrattiva. Abbiamo riscontrato solo miglioramenti marginali nei compiti di riassunto.
È troppo presto per concludere che Mamba rappresenti un'alternativa migliore ai transformer nel campo del riconoscimento vocale prima di confrontare Mamba con i transformer in termini di prestazioni ed efficienza in molteplici attività legate al parlato. Per giungere a questa conclusione, proponiamo e valutiamo tre modelli per tre compiti: Mamba-TasNet per la separazione del parlato, ConMamba per il riconoscimento vocale e VALL-M per la sintesi vocale. Confrontiamo questi modelli con transformer di dimensioni simili in termini di prestazioni, memoria e velocità. I nostri modelli Mamba o ibridi Mamba-transformer mostrano prestazioni comparabili o superiori rispetto alle loro controparti basate su transformer: Sepformer, Conformer e VALL-E. Sono inoltre più efficienti dei transformer in termini di memoria e velocità per segmenti vocali più lunghi di una durata soglia, inversamente correlata alla risoluzione di un token vocale. Mamba per la separazione è il più efficiente, mentre Mamba per il riconoscimento è il meno efficiente. Inoltre, dimostriamo che Mamba non è più efficiente dei transformer per segmenti vocali più brevi della durata soglia e si comporta peggio in modelli che richiedono una modellazione congiunta di testo e parlato, come l'attenzione incrociata o mascherata su due input. Pertanto, sosteniamo che la superiorità di Mamba o transformer dipenda da problemi e modelli specifici. Il codice è disponibile su https://github.com/xi-j/Mamba-TasNet e https://github.com/xi-j/Mamba-ASR.
I modelli di diffusione per l'animazione di immagini umane guidate dalla posa hanno dimostrato capacità notevoli nella sintesi realistica di video umani. Nonostante i risultati promettenti ottenuti da approcci precedenti, permangono sfide nel raggiungere un'animazione temporalmente coerente e nel garantire robustezza con rilevatori di posa preesistenti. In questo articolo, presentiamo TCAN, un metodo di animazione di immagini umane guidato dalla posa che è robusto agli errori nelle pose e coerente nel tempo. A differenza dei metodi precedenti, utilizziamo il ControlNet pre-addestrato senza fine-tuning per sfruttare la sua vasta conoscenza acquisita da numerose coppie posa-immagine-didascalia. Per mantenere il ControlNet congelato, adattiamo LoRA agli strati UNet, consentendo alla rete di allineare lo spazio latente tra le caratteristiche della posa e dell'aspetto. Inoltre, introducendo uno strato temporale aggiuntivo al ControlNet, miglioriamo la robustezza contro gli outlier del rilevatore di pose. Attraverso l'analisi delle mappe di attenzione lungo l'asse temporale, abbiamo anche progettato una nuova mappa di temperatura che sfrutta le informazioni sulla posa, permettendo uno sfondo più statico. Esperimenti estesi dimostrano che il metodo proposto può ottenere risultati promettenti in compiti di sintesi video che comprendono varie pose, come il chibi. Pagina del progetto: https://eccv2024tcan.github.io/
I recenti progressi nei modelli potenziati dal recupero per la generazione di didascalie di immagini evidenziano i vantaggi del recupero di didascalie correlate per modelli efficienti e leggeri con forti capacità di trasferimento di dominio. Sebbene questi modelli dimostrino il successo del potenziamento tramite recupero, i modelli di recupero sono ancora lontani dall'essere perfetti nella pratica: le informazioni recuperate possono talvolta fuorviare il modello, portando a una generazione errata e a prestazioni peggiori. In questo articolo, analizziamo la robustezza di un modello di generazione di didascalie potenziato dal recupero, SmallCap. La nostra analisi mostra che il modello è sensibile ai token che compaiono nella maggior parte delle didascalie recuperate, e l'attribuzione dell'input indica che tali token hanno una probabilità elevata di essere copiati nell'output generato. Alla luce di questi risultati, proponiamo di addestrare il modello campionando didascalie recuperate da insiemi più diversificati. Ciò riduce la probabilità che il modello impari a copiare i token maggioritari e migliora le prestazioni sia in dominio che in cross-dominio.
Questo studio affronta una lacuna critica nelle pratiche di ottimizzazione della sicurezza per i Modelli Linguistici di Grande Dimensione (LLM), identificando e risolvendo un bias di posizione di rifiuto all'interno dei dati di ottimizzazione della sicurezza, che compromette la capacità dei modelli di rifiutare in modo appropriato la generazione di contenuti non sicuri. Introduciamo un approccio innovativo, l'Addestramento Decoupled Refusal (DeRTa), progettato per consentire ai LLM di rifiutare il rispetto di prompt dannosi in qualsiasi posizione della risposta, migliorando significativamente le loro capacità di sicurezza. DeRTa incorpora due componenti innovative: (1) la Massima Verosimiglianza (MLE) con Prefisso di Risposta Dannosa, che addestra i modelli a riconoscere ed evitare contenuti non sicuri aggiungendo un segmento di risposta dannosa all'inizio di una risposta sicura, e (2) l'Ottimizzazione Rafforzata della Transizione (RTO), che fornisce ai modelli la capacità di passare da un potenziale danno a un rifiuto sicuro in modo coerente lungo l'intera sequenza di risposta dannosa. La nostra valutazione empirica, condotta utilizzando le famiglie di modelli LLaMA3 e Mistral in sei scenari di attacco, dimostra che il nostro metodo non solo migliora la sicurezza del modello senza comprometterne le prestazioni, ma supera anche modelli ben noti come GPT-4 nella difesa contro gli attacchi. In particolare, il nostro approccio difende con successo metodi di attacco avanzati recenti (ad esempio, CodeAttack) che hanno violato GPT-4 e LLaMA3-70B-Instruct. Il nostro codice e i nostri dati sono disponibili all'indirizzo https://github.com/RobustNLP/DeRTa.
La sintesi di NeRF con illuminazione arbitraria è diventata un problema fondamentale negli ultimi anni. I recenti tentativi affrontano il problema attraverso l'estrazione di parametri fisicamente basati che possono poi essere renderizzati con illuminazione arbitraria, ma sono limitati nella gamma di scene che possono gestire, solitamente gestendo male le scene lucide. Proponiamo RRM, un metodo in grado di estrarre i materiali, la geometria e l'illuminazione ambientale di una scena anche in presenza di oggetti altamente riflettenti. Il nostro metodo consiste in una rappresentazione del campo di radianza fisicamente consapevole che informa i parametri fisicamente basati, e in una struttura espressiva dell'illuminazione ambientale basata su una Piramide Laplaciana. Dimostriamo che i nostri contributi superano lo stato dell'arte nelle attività di recupero dei parametri, portando a una ricostruzione fedele dell'illuminazione e alla sintesi di nuove viste su scene superficiali.