Articoli di ricerca IA selezionati quotidianamente con traduzioni
Gli attuali modelli linguistici di grandi dimensioni (LLM) con contesto lungo possono elaborare input fino a 100.000 token, ma faticano a generare output che superino anche una lunghezza modesta di 2.000 parole. Attraverso esperimenti controllati, abbiamo scoperto che la lunghezza effettiva della generazione del modello è intrinsecamente limitata dai campioni che ha visto durante il fine-tuning supervisionato (SFT). In altre parole, la loro limitazione nell'output è dovuta alla scarsità di esempi con output lunghi nei dataset SFT esistenti. Per affrontare questo problema, introduciamo AgentWrite, una pipeline basata su agenti che scompone i compiti di generazione ultra-lunghi in sottotask, consentendo ai LLM esistenti di generare output coerenti che superano le 20.000 parole. Sfruttando AgentWrite, costruiamo LongWriter-6k, un dataset contenente 6.000 dati SFT con lunghezze di output che vanno da 2k a 32k parole. Incorporando questo dataset nell'addestramento del modello, riusciamo a scalare la lunghezza dell'output dei modelli esistenti a oltre 10.000 parole mantenendo la qualità dell'output. Abbiamo anche sviluppato LongBench-Write, un benchmark completo per valutare le capacità di generazione ultra-lunga. Il nostro modello da 9B parametri, ulteriormente migliorato tramite DPO, raggiunge prestazioni all'avanguardia su questo benchmark, superando persino modelli proprietari molto più grandi. In generale, il nostro lavoro dimostra che gli attuali LLM con contesto lungo possiedono già il potenziale per una finestra di output più ampia: tutto ciò di cui si ha bisogno sono dati con output estesi durante l'allineamento del modello per sbloccare questa capacità. Il nostro codice e i nostri modelli sono disponibili su: https://github.com/THUDM/LongWriter.
Presentiamo Imagen 3, un modello di diffusione latente che genera immagini di alta qualità a partire da prompt testuali. Descriviamo le nostre valutazioni sulla qualità e sulla responsabilità. Imagen 3 è preferito rispetto ad altri modelli all'avanguardia (SOTA) al momento della valutazione. Inoltre, discutiamo questioni relative alla sicurezza e alla rappresentazione, nonché i metodi utilizzati per minimizzare il potenziale danno dei nostri modelli.
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato un grande potenziale nella risoluzione di problemi reali di ingegneria del software (SWE). L'agente SWE open-source più avanzato è in grado di risolvere oltre il 27% dei problemi reali su GitHub in SWE-Bench Lite. Tuttavia, questi sofisticati framework di agenti presentano punti di forza variabili, eccellendo in alcuni compiti mentre risultano meno performanti in altri. Per sfruttare appieno la diversità di questi agenti, proponiamo DEI (Diversity Empowered Intelligence), un framework che sfrutta le loro competenze uniche. DEI funziona come un meta-modulo sopra i framework esistenti di agenti SWE, gestendo collettivi di agenti per migliorare la risoluzione dei problemi. I risultati sperimentali mostrano che un comitato di agenti guidato da DEI è in grado di superare di gran lunga le prestazioni del miglior agente individuale. Ad esempio, un gruppo di agenti SWE open-source, con un tasso di risoluzione individuale massimo del 27,3% su SWE-Bench Lite, può raggiungere un tasso di risoluzione del 34,3% con DEI, ottenendo un miglioramento del 25% e superando la maggior parte delle soluzioni closed-source. Il nostro gruppo con le migliori prestazioni eccelle con un tasso di risoluzione del 55%, ottenendo il punteggio più alto su SWE-Bench Lite. Le nostre scoperte contribuiscono al crescente corpus di ricerca sui sistemi di intelligenza artificiale collaborativi e sul loro potenziale nel risolvere complesse sfide di ingegneria del software.
La rapida crescita della letteratura scientifica pone sfide significative per i ricercatori che cercano di rimanere aggiornati sugli ultimi progressi nei loro campi e di esplorare nuove aree. Presentiamo OpenResearcher, una piattaforma innovativa che sfrutta tecniche di Intelligenza Artificiale (IA) per accelerare il processo di ricerca rispondendo a una vasta gamma di domande dei ricercatori. OpenResearcher è costruito basandosi sulla Generazione Aumentata dal Recupero (RAG) per integrare Modelli Linguistici di Grande Scala (LLMs) con conoscenze specifiche e aggiornate del dominio. Inoltre, sviluppiamo vari strumenti per OpenResearcher per comprendere le domande dei ricercatori, cercare nella letteratura scientifica, filtrare le informazioni recuperate, fornire risposte accurate e complete e affinare autonomamente queste risposte. OpenResearcher può utilizzare in modo flessibile questi strumenti per bilanciare efficienza ed efficacia. Di conseguenza, OpenResearcher consente ai ricercatori di risparmiare tempo e aumentare il loro potenziale per scoprire nuove intuizioni e favorire progressi scientifici. Demo, video e codice sono disponibili su: https://github.com/GAIR-NLP/OpenResearcher.
Il ridimensionamento dei grandi modelli linguistici (LLM) ha rivoluzionato le loro capacità in vari compiti, ma questa crescita deve essere accompagnata da strategie computazionali efficienti. L'architettura Mixture-of-Experts (MoE) si distingue per la sua capacità di scalare le dimensioni del modello senza aumentare significativamente i costi di addestramento. Nonostante i loro vantaggi, gli attuali modelli MoE spesso mostrano inefficienza nei parametri. Ad esempio, un LLM basato su MoE pre-addestrato con 52 miliardi di parametri potrebbe performare in modo comparabile a un modello standard con 6,7 miliardi di parametri. Essendo una parte cruciale di MoE, i router attuali in diversi strati assegnano i token in modo indipendente senza sfruttare le informazioni storiche di routing, potenzialmente portando a combinazioni subottimali token-esperto e al problema dell'inefficienza dei parametri. Per alleviare questo problema, introduciamo il Layerwise Recurrent Router for Mixture-of-Experts (RMoE). RMoE sfrutta una Gated Recurrent Unit (GRU) per stabilire dipendenze tra le decisioni di routing attraverso strati consecutivi. Tale ricorrenza strato per strato può essere calcolata in modo efficiente in parallelo per i token di input e introduce costi negoziabili. Le nostre estese valutazioni empiriche dimostrano che i modelli linguistici basati su RMoE superano costantemente una gamma di modelli di riferimento. Inoltre, RMoE integra una nuova fase di calcolo ortogonale ai metodi esistenti, consentendo una compatibilità senza soluzione di continuità con altre architetture MoE. Le nostre analisi attribuiscono i guadagni di RMoE alla sua efficace condivisione di informazioni tra strati, che migliora anche la selezione e la diversità degli esperti. Il nostro codice è disponibile su https://github.com/qiuzh20/RMoE.
Lo sviluppo di modelli linguistici di grandi dimensioni porta alla formazione di un paradigma di pre-addestramento e allineamento, in cui il modello viene tipicamente pre-addestrato su un ampio corpus di testo e sottoposto a una fase di ottimizzazione per allinearlo alle preferenze umane o ai task downstream. In questo lavoro, indaghiamo la relazione tra pre-addestramento e fine-tuning ottimizzando più checkpoint intermedi di modelli pre-addestrati. I nostri risultati su 18 dataset suggeriscono che: i) il pre-addestramento continuo migliora il modello in modo latente che si manifesta dopo il fine-tuning; ii) con un ulteriore fine-tuning, i dataset su cui il modello non dimostra capacità migliorano molto più di quelli su cui il modello performa bene durante la fase di pre-addestramento; iii) sebbene il modello tragga significativi benefici dal fine-tuning supervisionato, può dimenticare conoscenze di dominio precedentemente acquisite e i task non visti durante il fine-tuning; iv) il modello mostra un'elevata sensibilità ai prompt di valutazione dopo il fine-tuning supervisionato, ma questa sensibilità può essere attenuata con ulteriore pre-addestramento.
La capacità di distillare astrazioni centrate sugli oggetti da scene visive complesse è alla base della generalizzazione di livello umano. Nonostante i significativi progressi nei metodi di apprendimento centrati sugli oggetti, l'apprendimento di rappresentazioni centrate sugli oggetti nel mondo fisico 3D rimane una sfida cruciale. In questo lavoro, proponiamo SlotLifter, un innovativo modello di radianza centrato sugli oggetti che affronta congiuntamente la ricostruzione e la scomposizione della scene tramite il sollevamento di caratteristiche guidato da slot. Tale design unisce rappresentazioni di apprendimento centrate sugli oggetti e metodi di rendering basati su immagini, offrendo prestazioni all'avanguardia nella scomposizione delle scene e nella sintesi di nuove viste su quattro dataset sintetici impegnativi e quattro dataset real-world complessi, superando di gran lunga i metodi esistenti di apprendimento 3D centrati sugli oggetti. Attraverso studi ablativi estesi, dimostriamo l'efficacia dei design in SlotLifter, rivelando intuizioni chiave per potenziali direzioni future.
Ispirati dall'enfasi di Geoffrey Hinton sulla modellazione generativa, "Per riconoscere le forme, prima impara a generarle", esploriamo l'uso di modelli di diffusione 3D per la classificazione di oggetti. Sfruttando le stime di densità di questi modelli, il nostro approccio, il Classificatore a Diffusione per Oggetti 3D (DC3DO), consente la classificazione zero-shot di forme 3D senza ulteriore addestramento. In media, il nostro metodo ottiene un miglioramento del 12,5% rispetto alle controparti multivista, dimostrando un ragionamento multimodale superiore rispetto agli approcci discriminativi. DC3DO utilizza un modello di diffusione condizionato alla classe addestrato su ShapeNet, e eseguiamo inferenze su nuvole di punti di sedie e automobili. Questo lavoro evidenzia il potenziale dei modelli generativi nella classificazione di oggetti 3D.
UniT rappresenta un approccio innovativo all'apprendimento di rappresentazioni tattili, utilizzando VQVAE per apprendere uno spazio latente compatto e fungere da rappresentazione tattile. Sfrutta immagini tattili ottenute da un singolo oggetto semplice per addestrare la rappresentazione con trasferibilità e generalizzabilità. Questa rappresentazione tattile può essere trasferita in modalità zero-shot a varie attività downstream, inclusi compiti di percezione e apprendimento di politiche di manipolazione. Le nostre valutazioni su un compito di stima della posa 3D in mano dimostrano che UniT supera i metodi esistenti di apprendimento di rappresentazioni visive e tattili. Inoltre, l'efficacia di UniT nell'apprendimento di politiche è dimostrata in tre compiti del mondo reale che coinvolgono oggetti manipolati diversi e interazioni complesse tra robot, oggetto e ambiente. Attraverso un'ampia sperimentazione, UniT si dimostra un metodo semplice da addestrare, plug-and-play, ma ampiamente efficace per l'apprendimento di rappresentazioni tattili. Per maggiori dettagli, si rimanda al nostro repository open-source https://github.com/ZhengtongXu/UniT e al sito web del progetto https://zhengtongxu.github.io/unifiedtactile.github.io/.
I grandi modelli linguistici (LLM) hanno dimostrato competenza in un'ampia gamma di compiti. Tuttavia, molti LLM presentano significative discrepanze di prestazioni tra lingue ad alta e bassa risorsa. Per mitigare questa sfida, presentiamo FuxiTranyu, un LLM multilingue open-source, progettato per soddisfare le esigenze della comunità di ricerca in termini di capacità multilingue bilanciate e ad alte prestazioni. FuxiTranyu-8B, il modello base con 8 miliardi di parametri, è addestrato da zero su un repository di dati multilingue meticolosamente bilanciato che contiene 600 miliardi di token, coprendo 43 lingue naturali e 16 linguaggi di programmazione. Oltre al modello base, sviluppiamo anche due modelli ottimizzati per le istruzioni: FuxiTranyu-8B-SFT, che è fine-tuned su un dataset multilingue di istruzioni diversificato, e FuxiTranyu-8B-DPO, ulteriormente raffinato con DPO su un dataset di preferenze per migliorare la capacità di allineamento. Esperimenti estesi su una vasta gamma di benchmark multilingue dimostrano le prestazioni competitive di FuxiTranyu rispetto agli LLM multilingue esistenti, come BLOOM-7B, PolyLM-13B, Llama-2-Chat-7B e Mistral-7B-Instruct. Analisi di interpretabilità sia a livello di neurone che di rappresentazione suggeriscono che FuxiTranyu è in grado di apprendere rappresentazioni multilingue coerenti tra diverse lingue. Per promuovere ulteriori ricerche sugli LLM multilingue e sui loro meccanismi di funzionamento, rilasciamo sia il modello base che quelli ottimizzati per le istruzioni di FuxiTranyu, insieme a 58 checkpoint di pre-addestramento su HuggingFace e Github.
La sintesi di sceneggiature cinematografiche rappresenta una sfida significativa, poiché richiede la comprensione di contesti di input estesi e di vari elementi peculiari dei film. I modelli linguistici di grandi dimensioni hanno mostrato progressi notevoli nella sintesi di documenti, ma spesso incontrano difficoltà nel processare contesti di input lunghi. Inoltre, mentre le trascrizioni di programmi televisivi hanno ricevuto attenzione in studi recenti, la sintesi di sceneggiature cinematografiche rimane ancora poco esplorata. Per stimolare la ricerca in questo ambito, presentiamo un nuovo dataset, MovieSum, per la sintesi astrattiva di sceneggiature cinematografiche. Questo dataset comprende 2200 sceneggiature accompagnate dai relativi riassunti della trama di Wikipedia. Abbiamo formattato manualmente le sceneggiature per rappresentare i loro elementi strutturali. Rispetto ai dataset esistenti, MovieSum possiede diverse caratteristiche distintive: (1) Include sceneggiature cinematografiche, che sono più lunghe rispetto a quelle degli episodi televisivi. (2) È due volte più grande dei precedenti dataset di sceneggiature cinematografiche. (3) Fornisce metadati con ID IMDb per facilitare l'accesso a conoscenze esterne aggiuntive. Mostriamo inoltre i risultati di modelli linguistici di grandi dimensioni recentemente rilasciati applicati alla sintesi sul nostro dataset, fornendo una baseline dettagliata.
I modelli linguistici pre-addestrati (LLM) hanno dimostrato capacità significative in una gamma di compiti convenzionali di elaborazione del linguaggio naturale (NLP), come la riassunzione e il riconoscimento di entità. In questo articolo, esploriamo l'applicazione degli LLM nella generazione di sequenze proteiche di alta qualità. Nello specifico, adottiamo una serie di LLM pre-addestrati, tra cui Mistral-7B1, Llama-2-7B2, Llama-3-8B3 e gemma-7B4, per produrre sequenze proteiche valide. Tutti questi modelli sono pubblicamente disponibili. A differenza dei lavori precedenti in questo campo, il nostro approccio utilizza un dataset relativamente piccolo composto da 42.000 sequenze proteiche umane distinte. Riadattiamo questi modelli per elaborare dati relativi alle proteine, garantendo la generazione di strutture proteiche biologicamente fattibili. I nostri risultati dimostrano che, anche con dati limitati, i modelli adattati mostrano un'efficienza paragonabile a modelli consolidati focalizzati sulle proteine, come le varianti di ProGen, ProtGPT2 e ProLLaMA, che sono stati addestrati su milioni di sequenze proteiche. Per validare e quantificare le prestazioni dei nostri modelli, conduciamo analisi comparative utilizzando metriche standard come pLDDT, RMSD, TM-score e REU. Inoltre, ci impegniamo a rendere pubblicamente disponibili le versioni addestrate di tutti e quattro i modelli, promuovendo una maggiore trasparenza e collaborazione nel campo della biologia computazionale.
Sia per gli esseri umani che per i robot, il senso del tatto, noto come percezione tattile, è fondamentale per eseguire compiti di manipolazione che richiedono contatto. Tre sfide principali nella percezione tattile robotica sono: 1) interpretare i segnali dei sensori, 2) generare segnali dei sensori in scenari nuovi e 3) apprendere politiche basate sui sensori. Per i sensori visuo-tattili, l'interpretazione è stata facilitata dalla loro stretta relazione con i sensori visivi (ad esempio, telecamere RGB). Tuttavia, la generazione rimane difficile, poiché i sensori visuo-tattili coinvolgono tipicamente contatto, deformazione, illuminazione e imaging, tutti elementi costosi da simulare; di conseguenza, l'apprendimento delle politiche è stato impegnativo, poiché la simulazione non può essere sfruttata per la raccolta di dati su larga scala. Presentiamo TacSL (taxel), una libreria per la simulazione e l'apprendimento di sensori visuo-tattili basata su GPU. TacSL può essere utilizzata per simulare immagini visuo-tattili ed estrarre distribuzioni di forza di contatto oltre 200 volte più velocemente rispetto allo stato dell'arte precedente, tutto all'interno del simulatore ampiamente utilizzato Isaac Gym. Inoltre, TacSL fornisce un toolkit di apprendimento contenente modelli di sensori multipli, ambienti di formazione intensivi al contatto e algoritmi online/offline che possono facilitare l'apprendimento delle politiche per applicazioni sim-to-real. Sul lato algoritmico, introduciamo un nuovo algoritmo di apprendimento per rinforzo online chiamato distillazione attore-critico asimmetrica (\sysName), progettato per apprendere in modo efficace ed efficiente politiche basate sul tatto in simulazione che possono essere trasferite nel mondo reale. Infine, dimostriamo l'utilità della nostra libreria e degli algoritmi valutando i vantaggi della distillazione e della percezione multimodale per compiti di manipolazione ricchi di contatto e, soprattutto, eseguendo il trasferimento sim-to-real. Video e risultati supplementari sono disponibili su https://iakinola23.github.io/tacsl/.
I modelli di generazione di immagini da testo basati su diffusione hanno fatto avanzare significativamente il campo della sintesi di contenuti artistici. Tuttavia, i metodi attuali di stilizzazione di ritratti richiedono generalmente un fine-tuning del modello basato su esempi o l'utilizzo di DDIM Inversion per riportare le immagini nello spazio del rumore, entrambi approcci che rallentano sostanzialmente il processo di generazione delle immagini. Per superare queste limitazioni, questo articolo presenta un framework di stilizzazione di ritratti senza inversione basato su modelli di diffusione che realizza la fusione di contenuto e stile in soli quattro passaggi di campionamento. Abbiamo osservato che i Latent Consistency Models che impiegano la distillazione di consistenza possono estrarre efficacemente Consistency Features rappresentative da immagini rumorose. Per fondere le Consistency Features estratte sia dalle immagini di contenuto che da quelle di stile, introduciamo una tecnica di Style Enhancement Attention Control che unisce meticolosamente le caratteristiche di contenuto e stile all'interno dello spazio di attenzione dell'immagine target. Inoltre, proponiamo una strategia di fusione delle caratteristiche per amalgamare le feature ridondanti nelle Consistency Features, riducendo così il carico computazionale del controllo dell'attenzione. Esperimenti estensivi hanno validato l'efficacia del nostro framework proposto nel migliorare l'efficienza e la fedeltà della stilizzazione. Il codice è disponibile all'indirizzo https://github.com/liujin112/ZePo.
Un sistema generale di anonimizzazione del parlante basato sul disaccoppiamento tipicamente separa il parlato in caratteristiche di contenuto, parlante e prosodia utilizzando encoder individuali. Questo articolo esplora come adattare un tale sistema quando un nuovo attributo del parlato, ad esempio l'emozione, deve essere preservato in misura maggiore. Mentre i sistemi esistenti sono efficaci nell'anonimizzare gli embedding del parlante, non sono progettati per preservare l'emozione. Vengono esaminate due strategie per questo scopo. In primo luogo, dimostriamo che l'integrazione di embedding emotivi da un encoder di emozioni pre-addestrato può aiutare a preservare gli indizi emotivi, sebbene questo approccio comprometta leggermente la protezione della privacy. In alternativa, proponiamo una strategia di compensazione dell'emozione come passaggio di post-elaborazione applicato agli embedding del parlante anonimizzati. Questo nasconde l'identità del parlante originale e reintroduce i tratti emotivi persi durante l'anonimizzazione degli embedding del parlante. Nello specifico, modelliamo l'attributo dell'emozione utilizzando macchine a vettori di supporto per apprendere confini separati per ciascuna emozione. Durante l'inferenza, l'embedding del parlante originale viene elaborato in due modi: uno, da un indicatore di emozione per prevedere l'emozione e selezionare accuratamente la SVM corrispondente all'emozione; e due, da un anonimizzatore del parlante per nascondere le caratteristiche del parlante. L'embedding del parlante anonimizzato viene quindi modificato lungo il corrispondente confine SVM verso una direzione emotiva potenziata per salvare gli indizi emotivi. Le strategie proposte sono inoltre ritenute utili per adattare un sistema generale di anonimizzazione del parlante basato sul disaccoppiamento per preservare altri attributi paralinguistici target, con potenzialità per una gamma di task downstream.