HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

15 papers found

LongWriter: Sbloccare la Generazione di Testi Oltre le 10.000 Parole da Modelli Linguistici con Contesti Estesi
LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs

Aug 13

ByYushi Bai, Jiajie Zhang, Xin Lv, Linzhi Zheng, Siqi Zhu, Lei Hou, Yuxiao Dong, Jie Tang, Juanzi Li

Gli attuali modelli linguistici di grandi dimensioni (LLM) con contesto lungo possono elaborare input fino a 100.000 token, ma faticano a generare output che superino anche una lunghezza modesta di 2.000 parole. Attraverso esperimenti controllati, abbiamo scoperto che la lunghezza effettiva della generazione del modello è intrinsecamente limitata dai campioni che ha visto durante il fine-tuning supervisionato (SFT). In altre parole, la loro limitazione nell'output è dovuta alla scarsità di esempi con output lunghi nei dataset SFT esistenti. Per affrontare questo problema, introduciamo AgentWrite, una pipeline basata su agenti che scompone i compiti di generazione ultra-lunghi in sottotask, consentendo ai LLM esistenti di generare output coerenti che superano le 20.000 parole. Sfruttando AgentWrite, costruiamo LongWriter-6k, un dataset contenente 6.000 dati SFT con lunghezze di output che vanno da 2k a 32k parole. Incorporando questo dataset nell'addestramento del modello, riusciamo a scalare la lunghezza dell'output dei modelli esistenti a oltre 10.000 parole mantenendo la qualità dell'output. Abbiamo anche sviluppato LongBench-Write, un benchmark completo per valutare le capacità di generazione ultra-lunga. Il nostro modello da 9B parametri, ulteriormente migliorato tramite DPO, raggiunge prestazioni all'avanguardia su questo benchmark, superando persino modelli proprietari molto più grandi. In generale, il nostro lavoro dimostra che gli attuali LLM con contesto lungo possiedono già il potenziale per una finestra di output più ampia: tutto ciò di cui si ha bisogno sono dati con output estesi durante l'allineamento del modello per sbloccare questa capacità. Il nostro codice e i nostri modelli sono disponibili su: https://github.com/THUDM/LongWriter.

Imagen 3
Imagen 3

Aug 13

ByImagen-Team-Google, Jason Baldridge, Jakob Bauer, Mukul Bhutani, Nicole Brichtova, Andrew Bunner, Kelvin Chan, Yichang Chen, Sander Dieleman, Yuqing Du, Zach Eaton-Rosen, Hongliang Fei, Nando de Freitas, Yilin Gao, Evgeny Gladchenko, Sergio Gómez Colmenarejo, Mandy Guo, Alex Haig, Will Hawkins, Hexiang Hu, Huilian Huang, Tobenna Peter Igwe, Christos Kaplanis, Siavash Khodadadeh, Yelin Kim, Ksenia Konyushkova, Karol Langner, Eric Lau, Shixin Luo, Soňa Mokrá, Henna Nandwani, Yasumasa Onoe, Aäron van den Oord, Zarana Parekh, Jordi Pont-Tuset, Hang Qi, Rui Qian, Deepak Ramachandran, Poorva Rane, Abdullah Rashwan, Ali Razavi, Robert Riachi, Hansa Srinivasan, Srivatsan Srinivasan, Robin Strudel, Benigno Uria, Oliver Wang, Su Wang, Austin Waters, Chris Wolff, Auriel Wright, Zhisheng Xiao, Hao Xiong, Keyang Xu, Marc van Zee, Junlin Zhang, Katie Zhang, Wenlei Zhou, Konrad Zolna, Ola Aboubakar, Canfer Akbulut, Oscar Akerlund, Isabela Albuquerque, Nina Anderson, Marco Andreetto, Lora Aroyo, Ben Bariach, David Barker, Sherry Ben, Dana Berman, Courtney Biles, Irina Blok, Pankil Botadra, Jenny Brennan, Karla Brown, John Buckley, Rudy Bunel, Elie Bursztein, Christina Butterfield, Ben Caine, Viral Carpenter, Norman Casagrande, Ming-Wei Chang, Solomon Chang, Shamik Chaudhuri, Tony Chen, John Choi, Dmitry Churbanau, Nathan Clement, Matan Cohen, Forrester Cole, Mikhail Dektiarev, Vincent Du, Praneet Dutta, Tom Eccles, Ndidi Elue, Ashley Feden, Shlomi Fruchter, Frankie Garcia, Roopal Garg, Weina Ge, Ahmed Ghazy, Bryant Gipson, Andrew Goodman, Dawid Górny, Sven Gowal, Khyatti Gupta, Yoni Halpern, Yena Han, Susan Hao, Jamie Hayes, Amir Hertz, Ed Hirst, Tingbo Hou, Heidi Howard, Mohamed Ibrahim, Dirichi Ike-Njoku, Joana Iljazi, Vlad Ionescu, William Isaac, Reena Jana, Gemma Jennings, Donovon Jenson, Xuhui Jia, Kerry Jones, Xiaoen Ju, Ivana Kajic, Christos Kaplanis, Burcu Karagol Ayan, Jacob Kelly, Suraj Kothawade, Christina Kouridi, Ira Ktena, Jolanda Kumakaw, Dana Kurniawan, Dmitry Lagun, Lily Lavitas, Jason Lee, Tao Li, Marco Liang, Maggie Li-Calis, Yuchi Liu, Javier Lopez Alberca, Peggy Lu, Kristian Lum, Yukun Ma, Chase Malik, John Mellor, Inbar Mosseri, Tom Murray, Aida Nematzadeh, Paul Nicholas, João Gabriel Oliveira, Guillermo Ortiz-Jimenez, Michela Paganini, Tom Le Paine, Roni Paiss, Alicia Parrish, Anne Peckham, Vikas Peswani, Igor Petrovski, Tobias Pfaff, Alex Pirozhenko, Ryan Poplin, Utsav Prabhu, Yuan Qi, Matthew Rahtz, Cyrus Rashtchian, Charvi Rastogi, Amit Raul, Ali Razavi, Sylvestre-Alvise Rebuffi, Susanna Ricco, Felix Riedel, Dirk Robinson, Pankaj Rohatgi, Bill Rosgen, Sarah Rumbley, Moonkyung Ryu, Anthony Salgado, Sahil Singla, Florian Schroff, Candice Schumann, Tanmay Shah, Brendan Shillingford, Kaushik Shivakumar, Dennis Shtatnov, Zach Singer, Evgeny Sluzhaev, Valerii Sokolov, Thibault Sottiaux, Florian Stimberg, Brad Stone, David Stutz, Yu-Chuan Su, Eric Tabellion, Shuai Tang, David Tao, Kurt Thomas, Gregory Thornton, Andeep Toor, Cristian Udrescu, Aayush Upadhyay, Cristina Vasconcelos, Alex Vasiloff, Andrey Voynov, Amanda Walker, Luyu Wang, Miaosen Wang, Simon Wang, Stanley Wang, Qifei Wang, Yuxiao Wang, Ágoston Weisz, Olivia Wiles, Chenxia Wu, Xingyu Federico Xu, Andrew Xue, Jianbo Yang, Luo Yu, Mete Yurtoglu, Ali Zand, Han Zhang, Jiageng Zhang, Catherine Zhao, Adilet Zhaxybay, Miao Zhou, Shengqi Zhu, Zhenkai Zhu, Dawn Bloxwich, Mahyar Bordbar, Luis C. Cobo, Eli Collins, Shengyang Dai, Tulsee Doshi, Anca Dragan, Douglas Eck, Demis Hassabis, Sissie Hsiao, Tom Hume, Koray Kavukcuoglu, Helen King, Jack Krawczyk, Yeqing Li, Kathy Meier-Hellstern, Andras Orban, Yury Pinsky, Amar Subramanya, Oriol Vinyals, Ting Yu, Yori Zwols

Presentiamo Imagen 3, un modello di diffusione latente che genera immagini di alta qualità a partire da prompt testuali. Descriviamo le nostre valutazioni sulla qualità e sulla responsabilità. Imagen 3 è preferito rispetto ad altri modelli all'avanguardia (SOTA) al momento della valutazione. Inoltre, discutiamo questioni relative alla sicurezza e alla rappresentazione, nonché i metodi utilizzati per minimizzare il potenziale danno dei nostri modelli.

La Diversità Potenzia l'Intelligenza: Integrazione delle Competenze degli Agenti di Ingegneria del Software
Diversity Empowers Intelligence: Integrating Expertise of Software Engineering Agents

Aug 13

ByKexun Zhang, Weiran Yao, Zuxin Liu, Yihao Feng, Zhiwei Liu, Rithesh Murthy, Tian Lan, Lei Li, Renze Lou, Jiacheng Xu, Bo Pang, Yingbo Zhou, Shelby Heinecke, Silvio Savarese, Huan Wang, Caiming Xiong

I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato un grande potenziale nella risoluzione di problemi reali di ingegneria del software (SWE). L'agente SWE open-source più avanzato è in grado di risolvere oltre il 27% dei problemi reali su GitHub in SWE-Bench Lite. Tuttavia, questi sofisticati framework di agenti presentano punti di forza variabili, eccellendo in alcuni compiti mentre risultano meno performanti in altri. Per sfruttare appieno la diversità di questi agenti, proponiamo DEI (Diversity Empowered Intelligence), un framework che sfrutta le loro competenze uniche. DEI funziona come un meta-modulo sopra i framework esistenti di agenti SWE, gestendo collettivi di agenti per migliorare la risoluzione dei problemi. I risultati sperimentali mostrano che un comitato di agenti guidato da DEI è in grado di superare di gran lunga le prestazioni del miglior agente individuale. Ad esempio, un gruppo di agenti SWE open-source, con un tasso di risoluzione individuale massimo del 27,3% su SWE-Bench Lite, può raggiungere un tasso di risoluzione del 34,3% con DEI, ottenendo un miglioramento del 25% e superando la maggior parte delle soluzioni closed-source. Il nostro gruppo con le migliori prestazioni eccelle con un tasso di risoluzione del 55%, ottenendo il punteggio più alto su SWE-Bench Lite. Le nostre scoperte contribuiscono al crescente corpus di ricerca sui sistemi di intelligenza artificiale collaborativi e sul loro potenziale nel risolvere complesse sfide di ingegneria del software.

OpenResearcher: Sfruttare l'Intelligenza Artificiale per Accelerare la Ricerca Scientifica
OpenResearcher: Unleashing AI for Accelerated Scientific Research

Aug 13

ByYuxiang Zheng, Shichao Sun, Lin Qiu, Dongyu Ru, Cheng Jiayang, Xuefeng Li, Jifan Lin, Binjie Wang, Yun Luo, Renjie Pan, Yang Xu, Qingkai Min, Zizhao Zhang, Yiwen Wang, Wenjie Li, Pengfei Liu

La rapida crescita della letteratura scientifica pone sfide significative per i ricercatori che cercano di rimanere aggiornati sugli ultimi progressi nei loro campi e di esplorare nuove aree. Presentiamo OpenResearcher, una piattaforma innovativa che sfrutta tecniche di Intelligenza Artificiale (IA) per accelerare il processo di ricerca rispondendo a una vasta gamma di domande dei ricercatori. OpenResearcher è costruito basandosi sulla Generazione Aumentata dal Recupero (RAG) per integrare Modelli Linguistici di Grande Scala (LLMs) con conoscenze specifiche e aggiornate del dominio. Inoltre, sviluppiamo vari strumenti per OpenResearcher per comprendere le domande dei ricercatori, cercare nella letteratura scientifica, filtrare le informazioni recuperate, fornire risposte accurate e complete e affinare autonomamente queste risposte. OpenResearcher può utilizzare in modo flessibile questi strumenti per bilanciare efficienza ed efficacia. Di conseguenza, OpenResearcher consente ai ricercatori di risparmiare tempo e aumentare il loro potenziale per scoprire nuove intuizioni e favorire progressi scientifici. Demo, video e codice sono disponibili su: https://github.com/GAIR-NLP/OpenResearcher.

Router Ricorrente Strato per Strato per il Modello a Miscela di Esperti
Layerwise Recurrent Router for Mixture-of-Experts

Aug 13

ByZihan Qiu, Zeyu Huang, Shuang Cheng, Yizhi Zhou, Zili Wang, Ivan Titov, Jie Fu

Il ridimensionamento dei grandi modelli linguistici (LLM) ha rivoluzionato le loro capacità in vari compiti, ma questa crescita deve essere accompagnata da strategie computazionali efficienti. L'architettura Mixture-of-Experts (MoE) si distingue per la sua capacità di scalare le dimensioni del modello senza aumentare significativamente i costi di addestramento. Nonostante i loro vantaggi, gli attuali modelli MoE spesso mostrano inefficienza nei parametri. Ad esempio, un LLM basato su MoE pre-addestrato con 52 miliardi di parametri potrebbe performare in modo comparabile a un modello standard con 6,7 miliardi di parametri. Essendo una parte cruciale di MoE, i router attuali in diversi strati assegnano i token in modo indipendente senza sfruttare le informazioni storiche di routing, potenzialmente portando a combinazioni subottimali token-esperto e al problema dell'inefficienza dei parametri. Per alleviare questo problema, introduciamo il Layerwise Recurrent Router for Mixture-of-Experts (RMoE). RMoE sfrutta una Gated Recurrent Unit (GRU) per stabilire dipendenze tra le decisioni di routing attraverso strati consecutivi. Tale ricorrenza strato per strato può essere calcolata in modo efficiente in parallelo per i token di input e introduce costi negoziabili. Le nostre estese valutazioni empiriche dimostrano che i modelli linguistici basati su RMoE superano costantemente una gamma di modelli di riferimento. Inoltre, RMoE integra una nuova fase di calcolo ortogonale ai metodi esistenti, consentendo una compatibilità senza soluzione di continuità con altre architetture MoE. Le nostre analisi attribuiscono i guadagni di RMoE alla sua efficace condivisione di informazioni tra strati, che migliora anche la selezione e la diversità degli esperti. Il nostro codice è disponibile su https://github.com/qiuzh20/RMoE.

Amuro & Char: Analisi della relazione tra pre-addestramento e fine-tuning dei modelli linguistici su larga scala
Amuro & Char: Analyzing the Relationship between Pre-Training and Fine-Tuning of Large Language Models

Aug 13

ByKaiser Sun, Mark Dredze

Lo sviluppo di modelli linguistici di grandi dimensioni porta alla formazione di un paradigma di pre-addestramento e allineamento, in cui il modello viene tipicamente pre-addestrato su un ampio corpus di testo e sottoposto a una fase di ottimizzazione per allinearlo alle preferenze umane o ai task downstream. In questo lavoro, indaghiamo la relazione tra pre-addestramento e fine-tuning ottimizzando più checkpoint intermedi di modelli pre-addestrati. I nostri risultati su 18 dataset suggeriscono che: i) il pre-addestramento continuo migliora il modello in modo latente che si manifesta dopo il fine-tuning; ii) con un ulteriore fine-tuning, i dataset su cui il modello non dimostra capacità migliorano molto più di quelli su cui il modello performa bene durante la fase di pre-addestramento; iii) sebbene il modello tragga significativi benefici dal fine-tuning supervisionato, può dimenticare conoscenze di dominio precedentemente acquisite e i task non visti durante il fine-tuning; iv) il modello mostra un'elevata sensibilità ai prompt di valutazione dopo il fine-tuning supervisionato, ma questa sensibilità può essere attenuata con ulteriore pre-addestramento.

SlotLifter: Sollevamento delle Caratteristiche Guidato da Slot per l'Apprendimento di Campi di Radianza Centrati sugli Oggetti
SlotLifter: Slot-guided Feature Lifting for Learning Object-centric Radiance Fields

Aug 13

ByYu Liu, Baoxiong Jia, Yixin Chen, Siyuan Huang

La capacità di distillare astrazioni centrate sugli oggetti da scene visive complesse è alla base della generalizzazione di livello umano. Nonostante i significativi progressi nei metodi di apprendimento centrati sugli oggetti, l'apprendimento di rappresentazioni centrate sugli oggetti nel mondo fisico 3D rimane una sfida cruciale. In questo lavoro, proponiamo SlotLifter, un innovativo modello di radianza centrato sugli oggetti che affronta congiuntamente la ricostruzione e la scomposizione della scene tramite il sollevamento di caratteristiche guidato da slot. Tale design unisce rappresentazioni di apprendimento centrate sugli oggetti e metodi di rendering basati su immagini, offrendo prestazioni all'avanguardia nella scomposizione delle scene e nella sintesi di nuove viste su quattro dataset sintetici impegnativi e quattro dataset real-world complessi, superando di gran lunga i metodi esistenti di apprendimento 3D centrati sugli oggetti. Attraverso studi ablativi estesi, dimostriamo l'efficacia dei design in SlotLifter, rivelando intuizioni chiave per potenziali direzioni future.

DC3DO: Classificatore a Diffusione per Oggetti 3D
DC3DO: Diffusion Classifier for 3D Objects

Aug 13

ByNursena Koprucu, Meher Shashwat Nigam, Shicheng Xu, Biruk Abere, Gabriele Dominici, Andrew Rodriguez, Sharvaree Vadgam, Berfin Inal, Alberto Tono

Ispirati dall'enfasi di Geoffrey Hinton sulla modellazione generativa, "Per riconoscere le forme, prima impara a generarle", esploriamo l'uso di modelli di diffusione 3D per la classificazione di oggetti. Sfruttando le stime di densità di questi modelli, il nostro approccio, il Classificatore a Diffusione per Oggetti 3D (DC3DO), consente la classificazione zero-shot di forme 3D senza ulteriore addestramento. In media, il nostro metodo ottiene un miglioramento del 12,5% rispetto alle controparti multivista, dimostrando un ragionamento multimodale superiore rispetto agli approcci discriminativi. DC3DO utilizza un modello di diffusione condizionato alla classe addestrato su ShapeNet, e eseguiamo inferenze su nuvole di punti di sedie e automobili. Questo lavoro evidenzia il potenziale dei modelli generativi nella classificazione di oggetti 3D.

UniT: Rappresentazione Tattile Unificata per l'Apprendimento Robotico
UniT: Unified Tactile Representation for Robot Learning

Aug 12

ByZhengtong Xu, Raghava Uppuluri, Xinwei Zhang, Cael Fitch, Philip Glen Crandall, Wan Shou, Dongyi Wang, Yu She

UniT rappresenta un approccio innovativo all'apprendimento di rappresentazioni tattili, utilizzando VQVAE per apprendere uno spazio latente compatto e fungere da rappresentazione tattile. Sfrutta immagini tattili ottenute da un singolo oggetto semplice per addestrare la rappresentazione con trasferibilità e generalizzabilità. Questa rappresentazione tattile può essere trasferita in modalità zero-shot a varie attività downstream, inclusi compiti di percezione e apprendimento di politiche di manipolazione. Le nostre valutazioni su un compito di stima della posa 3D in mano dimostrano che UniT supera i metodi esistenti di apprendimento di rappresentazioni visive e tattili. Inoltre, l'efficacia di UniT nell'apprendimento di politiche è dimostrata in tre compiti del mondo reale che coinvolgono oggetti manipolati diversi e interazioni complesse tra robot, oggetto e ambiente. Attraverso un'ampia sperimentazione, UniT si dimostra un metodo semplice da addestrare, plug-and-play, ma ampiamente efficace per l'apprendimento di rappresentazioni tattili. Per maggiori dettagli, si rimanda al nostro repository open-source https://github.com/ZhengtongXu/UniT e al sito web del progetto https://zhengtongxu.github.io/unifiedtactile.github.io/.

FuxiTranyu: Un Modello Linguistico Multilingue di Grande Scala Addestrato con Dati Bilanciati
FuxiTranyu: A Multilingual Large Language Model Trained with Balanced Data

Aug 12

ByHaoran Sun, Renren Jin, Shaoyang Xu, Leiyu Pan, Supryadi, Menglong Cui, Jiangcun Du, Yikun Lei, Lei Yang, Ling Shi, Juesi Xiao, Shaolin Zhu, Deyi Xiong

I grandi modelli linguistici (LLM) hanno dimostrato competenza in un'ampia gamma di compiti. Tuttavia, molti LLM presentano significative discrepanze di prestazioni tra lingue ad alta e bassa risorsa. Per mitigare questa sfida, presentiamo FuxiTranyu, un LLM multilingue open-source, progettato per soddisfare le esigenze della comunità di ricerca in termini di capacità multilingue bilanciate e ad alte prestazioni. FuxiTranyu-8B, il modello base con 8 miliardi di parametri, è addestrato da zero su un repository di dati multilingue meticolosamente bilanciato che contiene 600 miliardi di token, coprendo 43 lingue naturali e 16 linguaggi di programmazione. Oltre al modello base, sviluppiamo anche due modelli ottimizzati per le istruzioni: FuxiTranyu-8B-SFT, che è fine-tuned su un dataset multilingue di istruzioni diversificato, e FuxiTranyu-8B-DPO, ulteriormente raffinato con DPO su un dataset di preferenze per migliorare la capacità di allineamento. Esperimenti estesi su una vasta gamma di benchmark multilingue dimostrano le prestazioni competitive di FuxiTranyu rispetto agli LLM multilingue esistenti, come BLOOM-7B, PolyLM-13B, Llama-2-Chat-7B e Mistral-7B-Instruct. Analisi di interpretabilità sia a livello di neurone che di rappresentazione suggeriscono che FuxiTranyu è in grado di apprendere rappresentazioni multilingue coerenti tra diverse lingue. Per promuovere ulteriori ricerche sugli LLM multilingue e sui loro meccanismi di funzionamento, rilasciamo sia il modello base che quelli ottimizzati per le istruzioni di FuxiTranyu, insieme a 58 checkpoint di pre-addestramento su HuggingFace e Github.

MovieSum: Un Dataset per la Sintesi Astratta di Copioni Cinematografici
MovieSum: An Abstractive Summarization Dataset for Movie Screenplays

Aug 12

ByRohit Saxena, Frank Keller

La sintesi di sceneggiature cinematografiche rappresenta una sfida significativa, poiché richiede la comprensione di contesti di input estesi e di vari elementi peculiari dei film. I modelli linguistici di grandi dimensioni hanno mostrato progressi notevoli nella sintesi di documenti, ma spesso incontrano difficoltà nel processare contesti di input lunghi. Inoltre, mentre le trascrizioni di programmi televisivi hanno ricevuto attenzione in studi recenti, la sintesi di sceneggiature cinematografiche rimane ancora poco esplorata. Per stimolare la ricerca in questo ambito, presentiamo un nuovo dataset, MovieSum, per la sintesi astrattiva di sceneggiature cinematografiche. Questo dataset comprende 2200 sceneggiature accompagnate dai relativi riassunti della trama di Wikipedia. Abbiamo formattato manualmente le sceneggiature per rappresentare i loro elementi strutturali. Rispetto ai dataset esistenti, MovieSum possiede diverse caratteristiche distintive: (1) Include sceneggiature cinematografiche, che sono più lunghe rispetto a quelle degli episodi televisivi. (2) È due volte più grande dei precedenti dataset di sceneggiature cinematografiche. (3) Fornisce metadati con ID IMDb per facilitare l'accesso a conoscenze esterne aggiuntive. Mostriamo inoltre i risultati di modelli linguistici di grandi dimensioni recentemente rilasciati applicati alla sintesi sul nostro dataset, fornendo una baseline dettagliata.

Progettazione di Proteine Utilizzando Modelli Linguistici di Grande Scala: Miglioramenti e Analisi Comparative
Design Proteins Using Large Language Models: Enhancements and Comparative Analyses

Aug 12

ByKamyar Zeinalipour, Neda Jamshidi, Monica Bianchini, Marco Maggini, Marco Gori

I modelli linguistici pre-addestrati (LLM) hanno dimostrato capacità significative in una gamma di compiti convenzionali di elaborazione del linguaggio naturale (NLP), come la riassunzione e il riconoscimento di entità. In questo articolo, esploriamo l'applicazione degli LLM nella generazione di sequenze proteiche di alta qualità. Nello specifico, adottiamo una serie di LLM pre-addestrati, tra cui Mistral-7B1, Llama-2-7B2, Llama-3-8B3 e gemma-7B4, per produrre sequenze proteiche valide. Tutti questi modelli sono pubblicamente disponibili. A differenza dei lavori precedenti in questo campo, il nostro approccio utilizza un dataset relativamente piccolo composto da 42.000 sequenze proteiche umane distinte. Riadattiamo questi modelli per elaborare dati relativi alle proteine, garantendo la generazione di strutture proteiche biologicamente fattibili. I nostri risultati dimostrano che, anche con dati limitati, i modelli adattati mostrano un'efficienza paragonabile a modelli consolidati focalizzati sulle proteine, come le varianti di ProGen, ProtGPT2 e ProLLaMA, che sono stati addestrati su milioni di sequenze proteiche. Per validare e quantificare le prestazioni dei nostri modelli, conduciamo analisi comparative utilizzando metriche standard come pLDDT, RMSD, TM-score e REU. Inoltre, ci impegniamo a rendere pubblicamente disponibili le versioni addestrate di tutti e quattro i modelli, promuovendo una maggiore trasparenza e collaborazione nel campo della biologia computazionale.

TacSL: Una libreria per la simulazione e l'apprendimento di sensori visuotattili
TacSL: A Library for Visuotactile Sensor Simulation and Learning

Aug 12

ByIretiayo Akinola, Jie Xu, Jan Carius, Dieter Fox, Yashraj Narang

Sia per gli esseri umani che per i robot, il senso del tatto, noto come percezione tattile, è fondamentale per eseguire compiti di manipolazione che richiedono contatto. Tre sfide principali nella percezione tattile robotica sono: 1) interpretare i segnali dei sensori, 2) generare segnali dei sensori in scenari nuovi e 3) apprendere politiche basate sui sensori. Per i sensori visuo-tattili, l'interpretazione è stata facilitata dalla loro stretta relazione con i sensori visivi (ad esempio, telecamere RGB). Tuttavia, la generazione rimane difficile, poiché i sensori visuo-tattili coinvolgono tipicamente contatto, deformazione, illuminazione e imaging, tutti elementi costosi da simulare; di conseguenza, l'apprendimento delle politiche è stato impegnativo, poiché la simulazione non può essere sfruttata per la raccolta di dati su larga scala. Presentiamo TacSL (taxel), una libreria per la simulazione e l'apprendimento di sensori visuo-tattili basata su GPU. TacSL può essere utilizzata per simulare immagini visuo-tattili ed estrarre distribuzioni di forza di contatto oltre 200 volte più velocemente rispetto allo stato dell'arte precedente, tutto all'interno del simulatore ampiamente utilizzato Isaac Gym. Inoltre, TacSL fornisce un toolkit di apprendimento contenente modelli di sensori multipli, ambienti di formazione intensivi al contatto e algoritmi online/offline che possono facilitare l'apprendimento delle politiche per applicazioni sim-to-real. Sul lato algoritmico, introduciamo un nuovo algoritmo di apprendimento per rinforzo online chiamato distillazione attore-critico asimmetrica (\sysName), progettato per apprendere in modo efficace ed efficiente politiche basate sul tatto in simulazione che possono essere trasferite nel mondo reale. Infine, dimostriamo l'utilità della nostra libreria e degli algoritmi valutando i vantaggi della distillazione e della percezione multimodale per compiti di manipolazione ricchi di contatto e, soprattutto, eseguendo il trasferimento sim-to-real. Video e risultati supplementari sono disponibili su https://iakinola23.github.io/tacsl/.

ZePo: Stilizzazione Ritrattistica Zero-Shot con Campionamento Accelerato
ZePo: Zero-Shot Portrait Stylization with Faster Sampling

Aug 10

ByJin Liu, Huaibo Huang, Jie Cao, Ran He

I modelli di generazione di immagini da testo basati su diffusione hanno fatto avanzare significativamente il campo della sintesi di contenuti artistici. Tuttavia, i metodi attuali di stilizzazione di ritratti richiedono generalmente un fine-tuning del modello basato su esempi o l'utilizzo di DDIM Inversion per riportare le immagini nello spazio del rumore, entrambi approcci che rallentano sostanzialmente il processo di generazione delle immagini. Per superare queste limitazioni, questo articolo presenta un framework di stilizzazione di ritratti senza inversione basato su modelli di diffusione che realizza la fusione di contenuto e stile in soli quattro passaggi di campionamento. Abbiamo osservato che i Latent Consistency Models che impiegano la distillazione di consistenza possono estrarre efficacemente Consistency Features rappresentative da immagini rumorose. Per fondere le Consistency Features estratte sia dalle immagini di contenuto che da quelle di stile, introduciamo una tecnica di Style Enhancement Attention Control che unisce meticolosamente le caratteristiche di contenuto e stile all'interno dello spazio di attenzione dell'immagine target. Inoltre, proponiamo una strategia di fusione delle caratteristiche per amalgamare le feature ridondanti nelle Consistency Features, riducendo così il carico computazionale del controllo dell'attenzione. Esperimenti estensivi hanno validato l'efficacia del nostro framework proposto nel migliorare l'efficienza e la fedeltà della stilizzazione. Il codice è disponibile all'indirizzo https://github.com/liujin112/ZePo.

Adattamento dell'anonimizzazione del parlante basata su disaccoppiamento generale per una migliore conservazione delle emozioni
Adapting General Disentanglement-Based Speaker Anonymization for Enhanced Emotion Preservation

Aug 12

ByXiaoxiao Miao, Yuxiang Zhang, Xin Wang, Natalia Tomashenko, Donny Cheng Lock Soh, Ian Mcloughlin

Un sistema generale di anonimizzazione del parlante basato sul disaccoppiamento tipicamente separa il parlato in caratteristiche di contenuto, parlante e prosodia utilizzando encoder individuali. Questo articolo esplora come adattare un tale sistema quando un nuovo attributo del parlato, ad esempio l'emozione, deve essere preservato in misura maggiore. Mentre i sistemi esistenti sono efficaci nell'anonimizzare gli embedding del parlante, non sono progettati per preservare l'emozione. Vengono esaminate due strategie per questo scopo. In primo luogo, dimostriamo che l'integrazione di embedding emotivi da un encoder di emozioni pre-addestrato può aiutare a preservare gli indizi emotivi, sebbene questo approccio comprometta leggermente la protezione della privacy. In alternativa, proponiamo una strategia di compensazione dell'emozione come passaggio di post-elaborazione applicato agli embedding del parlante anonimizzati. Questo nasconde l'identità del parlante originale e reintroduce i tratti emotivi persi durante l'anonimizzazione degli embedding del parlante. Nello specifico, modelliamo l'attributo dell'emozione utilizzando macchine a vettori di supporto per apprendere confini separati per ciascuna emozione. Durante l'inferenza, l'embedding del parlante originale viene elaborato in due modi: uno, da un indicatore di emozione per prevedere l'emozione e selezionare accuratamente la SVM corrispondente all'emozione; e due, da un anonimizzatore del parlante per nascondere le caratteristiche del parlante. L'embedding del parlante anonimizzato viene quindi modificato lungo il corrispondente confine SVM verso una direzione emotiva potenziata per salvare gli indizi emotivi. Le strategie proposte sono inoltre ritenute utili per adattare un sistema generale di anonimizzazione del parlante basato sul disaccoppiamento per preservare altri attributi paralinguistici target, con potenzialità per una gamma di task downstream.

Imagen 3
Imagen 3

Aug 13