HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

15 papers found

LongWriter: Het genereren van 10.000+ woorden uit LLM's met lange context
LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs

Aug 13

ByYushi Bai, Jiajie Zhang, Xin Lv, Linzhi Zheng, Siqi Zhu, Lei Hou, Yuxiao Dong, Jie Tang, Juanzi Li

Huidige grote taalmodellen (LLMs) met lange context kunnen inputs verwerken tot 100.000 tokens, maar hebben moeite om outputs te genereren die zelfs een bescheiden lengte van 2.000 woorden overschrijden. Door middel van gecontroleerde experimenten ontdekken we dat de effectieve generatielengte van het model inherent beperkt wordt door de voorbeelden die het heeft gezien tijdens supervised fine-tuning (SFT). Met andere woorden, hun outputbeperking is te wijten aan de schaarste aan lange-outputvoorbeelden in bestaande SFT-datasets. Om dit aan te pakken, introduceren we AgentWrite, een agent-gebaseerde pijplijn die ultra-lange generatietaken opdeelt in subtaken, waardoor standaard LLMs coherente outputs kunnen genereren die meer dan 20.000 woorden overschrijden. Door gebruik te maken van AgentWrite, construeren we LongWriter-6k, een dataset met 6.000 SFT-gegevens met outputlengtes variërend van 2k tot 32k woorden. Door deze dataset op te nemen in modeltraining, schalen we de outputlengte van bestaande modellen succesvol op tot meer dan 10.000 woorden, terwijl de outputkwaliteit behouden blijft. We ontwikkelen ook LongBench-Write, een uitgebreide benchmark voor het evalueren van ultra-lange generatiecapaciteiten. Ons 9B-parametermodel, verder verbeterd door DPO, behaalt state-of-the-art prestaties op deze benchmark en overtreft zelfs veel grotere propriëtaire modellen. Over het algemeen toont ons werk aan dat bestaande lange-context LLMs al het potentieel hebben voor een groter outputvenster—het enige wat nodig is, zijn gegevens met uitgebreide output tijdens modelafstemming om deze capaciteit te ontgrendelen. Onze code en modellen zijn te vinden op: https://github.com/THUDM/LongWriter.

Imagen 3
Imagen 3

Aug 13

ByImagen-Team-Google, Jason Baldridge, Jakob Bauer, Mukul Bhutani, Nicole Brichtova, Andrew Bunner, Kelvin Chan, Yichang Chen, Sander Dieleman, Yuqing Du, Zach Eaton-Rosen, Hongliang Fei, Nando de Freitas, Yilin Gao, Evgeny Gladchenko, Sergio Gómez Colmenarejo, Mandy Guo, Alex Haig, Will Hawkins, Hexiang Hu, Huilian Huang, Tobenna Peter Igwe, Christos Kaplanis, Siavash Khodadadeh, Yelin Kim, Ksenia Konyushkova, Karol Langner, Eric Lau, Shixin Luo, Soňa Mokrá, Henna Nandwani, Yasumasa Onoe, Aäron van den Oord, Zarana Parekh, Jordi Pont-Tuset, Hang Qi, Rui Qian, Deepak Ramachandran, Poorva Rane, Abdullah Rashwan, Ali Razavi, Robert Riachi, Hansa Srinivasan, Srivatsan Srinivasan, Robin Strudel, Benigno Uria, Oliver Wang, Su Wang, Austin Waters, Chris Wolff, Auriel Wright, Zhisheng Xiao, Hao Xiong, Keyang Xu, Marc van Zee, Junlin Zhang, Katie Zhang, Wenlei Zhou, Konrad Zolna, Ola Aboubakar, Canfer Akbulut, Oscar Akerlund, Isabela Albuquerque, Nina Anderson, Marco Andreetto, Lora Aroyo, Ben Bariach, David Barker, Sherry Ben, Dana Berman, Courtney Biles, Irina Blok, Pankil Botadra, Jenny Brennan, Karla Brown, John Buckley, Rudy Bunel, Elie Bursztein, Christina Butterfield, Ben Caine, Viral Carpenter, Norman Casagrande, Ming-Wei Chang, Solomon Chang, Shamik Chaudhuri, Tony Chen, John Choi, Dmitry Churbanau, Nathan Clement, Matan Cohen, Forrester Cole, Mikhail Dektiarev, Vincent Du, Praneet Dutta, Tom Eccles, Ndidi Elue, Ashley Feden, Shlomi Fruchter, Frankie Garcia, Roopal Garg, Weina Ge, Ahmed Ghazy, Bryant Gipson, Andrew Goodman, Dawid Górny, Sven Gowal, Khyatti Gupta, Yoni Halpern, Yena Han, Susan Hao, Jamie Hayes, Amir Hertz, Ed Hirst, Tingbo Hou, Heidi Howard, Mohamed Ibrahim, Dirichi Ike-Njoku, Joana Iljazi, Vlad Ionescu, William Isaac, Reena Jana, Gemma Jennings, Donovon Jenson, Xuhui Jia, Kerry Jones, Xiaoen Ju, Ivana Kajic, Christos Kaplanis, Burcu Karagol Ayan, Jacob Kelly, Suraj Kothawade, Christina Kouridi, Ira Ktena, Jolanda Kumakaw, Dana Kurniawan, Dmitry Lagun, Lily Lavitas, Jason Lee, Tao Li, Marco Liang, Maggie Li-Calis, Yuchi Liu, Javier Lopez Alberca, Peggy Lu, Kristian Lum, Yukun Ma, Chase Malik, John Mellor, Inbar Mosseri, Tom Murray, Aida Nematzadeh, Paul Nicholas, João Gabriel Oliveira, Guillermo Ortiz-Jimenez, Michela Paganini, Tom Le Paine, Roni Paiss, Alicia Parrish, Anne Peckham, Vikas Peswani, Igor Petrovski, Tobias Pfaff, Alex Pirozhenko, Ryan Poplin, Utsav Prabhu, Yuan Qi, Matthew Rahtz, Cyrus Rashtchian, Charvi Rastogi, Amit Raul, Ali Razavi, Sylvestre-Alvise Rebuffi, Susanna Ricco, Felix Riedel, Dirk Robinson, Pankaj Rohatgi, Bill Rosgen, Sarah Rumbley, Moonkyung Ryu, Anthony Salgado, Sahil Singla, Florian Schroff, Candice Schumann, Tanmay Shah, Brendan Shillingford, Kaushik Shivakumar, Dennis Shtatnov, Zach Singer, Evgeny Sluzhaev, Valerii Sokolov, Thibault Sottiaux, Florian Stimberg, Brad Stone, David Stutz, Yu-Chuan Su, Eric Tabellion, Shuai Tang, David Tao, Kurt Thomas, Gregory Thornton, Andeep Toor, Cristian Udrescu, Aayush Upadhyay, Cristina Vasconcelos, Alex Vasiloff, Andrey Voynov, Amanda Walker, Luyu Wang, Miaosen Wang, Simon Wang, Stanley Wang, Qifei Wang, Yuxiao Wang, Ágoston Weisz, Olivia Wiles, Chenxia Wu, Xingyu Federico Xu, Andrew Xue, Jianbo Yang, Luo Yu, Mete Yurtoglu, Ali Zand, Han Zhang, Jiageng Zhang, Catherine Zhao, Adilet Zhaxybay, Miao Zhou, Shengqi Zhu, Zhenkai Zhu, Dawn Bloxwich, Mahyar Bordbar, Luis C. Cobo, Eli Collins, Shengyang Dai, Tulsee Doshi, Anca Dragan, Douglas Eck, Demis Hassabis, Sissie Hsiao, Tom Hume, Koray Kavukcuoglu, Helen King, Jack Krawczyk, Yeqing Li, Kathy Meier-Hellstern, Andras Orban, Yury Pinsky, Amar Subramanya, Oriol Vinyals, Ting Yu, Yori Zwols

We introduceren Imagen 3, een latent diffusiemodel dat hoogwaardige afbeeldingen genereert op basis van tekstprompts. We beschrijven onze kwaliteits- en verantwoordelijkheidsbeoordelingen. Imagen 3 wordt verkozen boven andere state-of-the-art (SOTA) modellen ten tijde van de evaluatie. Daarnaast bespreken we kwesties rond veiligheid en representatie, evenals de methoden die we hebben gebruikt om het potentiële nadeel van onze modellen te minimaliseren.

Diversiteit Versterkt Intelligentie: Integratie van Expertise van Software Engineering Agents
Diversity Empowers Intelligence: Integrating Expertise of Software Engineering Agents

Aug 13

ByKexun Zhang, Weiran Yao, Zuxin Liu, Yihao Feng, Zhiwei Liu, Rithesh Murthy, Tian Lan, Lei Li, Renze Lou, Jiacheng Xu, Bo Pang, Yingbo Zhou, Shelby Heinecke, Silvio Savarese, Huan Wang, Caiming Xiong

Grote taalmodellen (LLM) agents hebben groot potentieel getoond in het oplossen van real-world software engineering (SWE) problemen. De meest geavanceerde open-source SWE-agent kan meer dan 27% van de echte GitHub-issues in SWE-Bench Lite oplossen. Deze geavanceerde agentframeworks vertonen echter verschillende sterktes, waarbij ze uitblinken in bepaalde taken en minder goed presteren in andere. Om de diversiteit van deze agents volledig te benutten, stellen we DEI (Diversity Empowered Intelligence) voor, een framework dat hun unieke expertise benut. DEI fungeert als een meta-module bovenop bestaande SWE-agentframeworks en beheert agentcollectieven voor verbeterde probleemoplossing. Experimentele resultaten tonen aan dat een door DEI geleid comité van agents de prestaties van de beste individuele agent met een grote marge kan overtreffen. Een groep open-source SWE-agents, met een maximaal individueel oplossingspercentage van 27,3% op SWE-Bench Lite, kan bijvoorbeeld een oplossingspercentage van 34,3% bereiken met DEI, wat een verbetering van 25% betekent en de meeste closed-source oplossingen overtreft. Onze best presterende groep blinkt uit met een oplossingspercentage van 55%, waarmee de hoogste rang op SWE-Bench Lite wordt behaald. Onze bevindingen dragen bij aan het groeiende onderzoeksveld naar collaboratieve AI-systemen en hun potentieel om complexe software engineering uitdagingen op te lossen.

OpenResearcher: Het Ontketenen van AI voor Versneld Wetenschappelijk Onderzoek
OpenResearcher: Unleashing AI for Accelerated Scientific Research

Aug 13

ByYuxiang Zheng, Shichao Sun, Lin Qiu, Dongyu Ru, Cheng Jiayang, Xuefeng Li, Jifan Lin, Binjie Wang, Yun Luo, Renjie Pan, Yang Xu, Qingkai Min, Zizhao Zhang, Yiwen Wang, Wenjie Li, Pengfei Liu

De snelle groei van wetenschappelijke literatuur brengt aanzienlijke uitdagingen met zich mee voor onderzoekers die ernaar streven op de hoogte te blijven van de nieuwste ontwikkelingen in hun vakgebied en nieuwe onderzoeksgebieden te verkennen. Wij introduceren OpenResearcher, een innovatief platform dat gebruikmaakt van technieken uit de Kunstmatige Intelligentie (AI) om het onderzoeksproces te versnellen door diverse vragen van onderzoekers te beantwoorden. OpenResearcher is gebouwd op basis van Retrieval-Augmented Generation (RAG) om Grote Taalmodellen (LLMs) te integreren met actuele, domeinspecifieke kennis. Daarnaast ontwikkelen we diverse tools voor OpenResearcher om vragen van onderzoekers te begrijpen, te zoeken in de wetenschappelijke literatuur, opgehaalde informatie te filteren, nauwkeurige en uitgebreide antwoorden te geven en deze antwoorden zelf te verfijnen. OpenResearcher kan deze tools flexibel inzetten om efficiëntie en effectiviteit in balans te brengen. Hierdoor stelt OpenResearcher onderzoekers in staat tijd te besparen en hun potentieel te vergroten om nieuwe inzichten te ontdekken en wetenschappelijke doorbraken te realiseren. Demo, video en code zijn beschikbaar op: https://github.com/GAIR-NLP/OpenResearcher.

Laaggewijze Recurrent Router voor Mixture-of-Experts
Layerwise Recurrent Router for Mixture-of-Experts

Aug 13

ByZihan Qiu, Zeyu Huang, Shuang Cheng, Yizhi Zhou, Zili Wang, Ivan Titov, Jie Fu

De schaalvergroting van grote taalmodellen (LLMs) heeft hun mogelijkheden in diverse taken revolutionair verbeterd, maar deze groei moet gepaard gaan met efficiënte computationele strategieën. De Mixture-of-Experts (MoE)-architectuur springt eruit vanwege het vermogen om de modelgrootte te schalen zonder de trainingskosten significant te verhogen. Ondanks hun voordelen vertonen huidige MoE-modellen vaak parameterinefficiëntie. Zo kan een vooraf getraind MoE-gebaseerd LLM met 52 miljard parameters vergelijkbaar presteren als een standaardmodel met 6,7 miljard parameters. Als een cruciaal onderdeel van MoE, wijzen huidige routers in verschillende lagen tokens onafhankelijk toe zonder gebruik te maken van historische routeringsinformatie, wat mogelijk leidt tot suboptimale token-expertcombinaties en het parameterinefficiëntieprobleem. Om dit probleem te verlichten, introduceren we de Layerwise Recurrent Router for Mixture-of-Experts (RMoE). RMoE maakt gebruik van een Gated Recurrent Unit (GRU) om afhankelijkheden tussen routeringsbeslissingen over opeenvolgende lagen te creëren. Een dergelijke laaggewijze recurrentie kan efficiënt parallel worden berekend voor invoertokens en introduceert verhandelbare kosten. Onze uitgebreide empirische evaluaties tonen aan dat RMoE-gebaseerde taalmodellen consistent beter presteren dan een reeks basismodellen. Bovendien integreert RMoE een nieuwe rekentrap die orthogonaal is aan bestaande methoden, waardoor naadloze compatibiliteit met andere MoE-architecturen mogelijk is. Onze analyses schrijven de winsten van RMoE toe aan de effectieve gelaagde informatie-uitwisseling, die ook de expertselectie en diversiteit verbetert. Onze code is te vinden op https://github.com/qiuzh20/RMoE.

Amuro & Char: Analyse van de relatie tussen pre-training en fine-tuning van grote taalmodellen
Amuro & Char: Analyzing the Relationship between Pre-Training and Fine-Tuning of Large Language Models

Aug 13

ByKaiser Sun, Mark Dredze

De ontwikkeling van grote taalmodelen leidt tot de vorming van een pre-train-then-align paradigma, waarbij het model doorgaans wordt voorgetraind op een grote tekstcorpus en vervolgens een afstemmingsfase ondergaat om het model af te stemmen op menselijke voorkeuren of downstream taken. In dit werk onderzoeken we de relatie tussen voorafgaande training en fine-tuning door meerdere tussenliggende voorgetrainde modelcheckpoints te fine-tunen. Onze resultaten op 18 datasets suggereren dat i) voortdurende voorafgaande training het model op een latente manier verbetert die pas na fine-tuning zichtbaar wordt; ii) met extra fine-tuning profiteren de datasets waarop het model geen capaciteit toont veel meer dan die waarop het model goed presteert tijdens de voorafgaande trainingsfase; iii) hoewel het model aanzienlijk profiteert van supervised fine-tuning, kan het eerder verworven domeinkennis vergeten en de taken die niet worden gezien tijdens fine-tuning; iv) het model vertoont een hoge gevoeligheid voor evaluatieprompts na supervised fine-tuning, maar deze gevoeligheid kan worden verminderd door meer voorafgaande training.

SlotLifter: Slot-geleide Feature Lifting voor het Leren van Object-centrische Radiance Fields
SlotLifter: Slot-guided Feature Lifting for Learning Object-centric Radiance Fields

Aug 13

ByYu Liu, Baoxiong Jia, Yixin Chen, Siyuan Huang

Het vermogen om objectgerichte abstracties te distilleren uit complexe visuele scènes vormt de basis voor generalisatie op menselijk niveau. Ondanks de aanzienlijke vooruitgang in objectgerichte leermethoden, blijft het leren van objectgerichte representaties in de fysieke 3D-wereld een cruciale uitdaging. In dit werk stellen we SlotLifter voor, een nieuw objectgericht stralingsmodel dat scène-reconstructie en -decompositie gezamenlijk aanpakt via slot-gestuurde feature lifting. Een dergelijk ontwerp verenigt objectgerichte leerrepresentaties en op afbeeldingen gebaseerde renderingmethoden, en biedt state-of-the-art prestaties in scène-decompositie en novel-view synthese op vier uitdagende synthetische en vier complexe real-world datasets, waarbij bestaande 3D objectgerichte leermethoden met een grote marge worden overtroffen. Door middel van uitgebreide ablatie-studies tonen we de effectiviteit van de ontwerpen in SlotLifter aan, wat belangrijke inzichten oplevert voor mogelijke toekomstige richtingen.

DC3DO: Diffusieclassificator voor 3D-objecten
DC3DO: Diffusion Classifier for 3D Objects

Aug 13

ByNursena Koprucu, Meher Shashwat Nigam, Shicheng Xu, Biruk Abere, Gabriele Dominici, Andrew Rodriguez, Sharvaree Vadgam, Berfin Inal, Alberto Tono

Geïnspireerd door Geoffrey Hintons nadruk op generatieve modellering - "Om vormen te herkennen, leer ze eerst te genereren" - onderzoeken we het gebruik van 3D-diffusiemodellen voor objectclassificatie. Door gebruik te maken van de dichtheidsschattingen van deze modellen, maakt onze aanpak, de Diffusion Classifier for 3D Objects (DC3DO), zero-shot classificatie van 3D-vormen mogelijk zonder aanvullende training. Gemiddeld behaalt onze methode een verbetering van 12,5 procent ten opzichte van multiview-tegenhangers, wat superieure multimodale redenering aantoont in vergelijking met discriminerende benaderingen. DC3DO maakt gebruik van een klasse-conditioneel diffusiemodel getraind op ShapeNet, en we voeren inferenties uit op puntenwolken van stoelen en auto's. Dit werk benadrukt het potentieel van generatieve modellen in 3D-objectclassificatie.

FuxiTranyu: Een meertalig groot taalmodel getraind met gebalanceerde gegevens
FuxiTranyu: A Multilingual Large Language Model Trained with Balanced Data

Aug 12

ByHaoran Sun, Renren Jin, Shaoyang Xu, Leiyu Pan, Supryadi, Menglong Cui, Jiangcun Du, Yikun Lei, Lei Yang, Ling Shi, Juesi Xiao, Shaolin Zhu, Deyi Xiong

Grote taalmodellen (LLMs) hebben hun vaardigheden bewezen in een breed scala aan taken. Veel LLMs vertonen echter aanzienlijke prestatieverschillen tussen hoog- en laag-resourcetalen. Om deze uitdaging te mitigeren, presenteren we FuxiTranyu, een open-source meertalig LLM, dat is ontworpen om te voldoen aan de behoefte van de onderzoeksgemeenschap aan gebalanceerde en hoogpresterende meertalige capaciteiten. FuxiTranyu-8B, het basismodel met 8 miljard parameters, is vanaf nul getraind op een zorgvuldig gebalanceerde meertalige dataverzameling die 600 miljard tokens bevat, afkomstig uit 43 natuurlijke talen en 16 programmeertalen. Naast het basismodel ontwikkelen we ook twee instructie-afgestemde modellen: FuxiTranyu-8B-SFT, dat is verfijnd op een diverse meertalige instructiedataset, en FuxiTranyu-8B-DPO, dat verder is verfijnd met DPO op een voorkeursdataset voor een verbeterde uitlijningscapaciteit. Uitgebreide experimenten op een breed scala aan meertalige benchmarks tonen de competitieve prestaties van FuxiTranyu aan in vergelijking met bestaande meertalige LLMs, zoals BLOOM-7B, PolyLM-13B, Llama-2-Chat-7B en Mistral-7B-Instruct. Interpretatieanalyses op zowel het neuron- als representatieniveau suggereren dat FuxiTranyu consistente meertalige representaties kan leren over verschillende talen heen. Om verder onderzoek naar meertalige LLMs en hun werkingsmechanismen te bevorderen, geven we zowel het basis- als de instructie-afgestemde FuxiTranyu-modellen vrij, samen met 58 pretrainingscheckpoints op HuggingFace en Github.

UniT: Uniforme Tactiele Representatie voor Robotleren
UniT: Unified Tactile Representation for Robot Learning

Aug 12

ByZhengtong Xu, Raghava Uppuluri, Xinwei Zhang, Cael Fitch, Philip Glen Crandall, Wan Shou, Dongyi Wang, Yu She

UniT is een nieuwe benadering voor het leren van tactiele representaties, waarbij VQVAE wordt gebruikt om een compacte latente ruimte te leren en als tactiele representatie te dienen. Het maakt gebruik van tactiele afbeeldingen die zijn verkregen van een enkel eenvoudig object om de representatie te trainen met overdraagbaarheid en generaliseerbaarheid. Deze tactiele representatie kan zonder aanpassing worden overgedragen naar verschillende downstream taken, waaronder perceptietaken en het leren van manipulatiebeleid. Onze benchmark op een in-hand 3D-pose-schattingstaak toont aan dat UniT bestaande methoden voor visuele en tactiele representatieleer overtreft. Daarnaast wordt de effectiviteit van UniT in beleidsleren aangetoond in drie real-world taken met diverse gemanipuleerde objecten en complexe robot-object-omgeving interacties. Door uitgebreide experimenten wordt aangetoond dat UniT een eenvoudig te trainen, plug-and-play, maar breed effectieve methode is voor het leren van tactiele representaties. Voor meer details verwijzen wij naar onze open-source repository https://github.com/ZhengtongXu/UniT en de projectwebsite https://zhengtongxu.github.io/unifiedtactile.github.io/.

MovieSum: Een Abstract Samenvattingsdataset voor Filmscenario's
MovieSum: An Abstractive Summarization Dataset for Movie Screenplays

Aug 12

ByRohit Saxena, Frank Keller

Het samenvatten van filmscenario's is een uitdaging, omdat het een begrip vereist van lange invoercontexten en verschillende elementen die uniek zijn voor films. Grote taalmodelen hebben aanzienlijke vooruitgang geboekt in het samenvatten van documenten, maar ze hebben vaak moeite met het verwerken van lange invoercontexten. Bovendien, hoewel televisietranscripten recentelijk aandacht hebben gekregen in studies, blijft het samenvatten van filmscenario's onderbelicht. Om onderzoek op dit gebied te stimuleren, presenteren we een nieuwe dataset, MovieSum, voor abstractieve samenvatting van filmscenario's. Deze dataset bestaat uit 2200 filmscenario's, vergezeld van hun Wikipedia-plotbeschrijvingen. We hebben de filmscenario's handmatig opgemaakt om hun structurele elementen weer te geven. Vergeleken met bestaande datasets heeft MovieSum verschillende onderscheidende kenmerken: (1) Het bevat filmscenario's, die langer zijn dan scripts van tv-afleveringen. (2) Het is twee keer zo groot als eerdere datasets van filmscenario's. (3) Het biedt metadata met IMDb-ID's om de toegang tot aanvullende externe kennis te vergemakkelijken. We laten ook de resultaten zien van recent vrijgegeven grote taalmodelen die zijn toegepast op samenvattingen van onze dataset om een gedetailleerde basislijn te bieden.

Eiwitten Ontwerpen met Grote Taalmodellen: Verbeteringen en Vergelijkende Analyses
Design Proteins Using Large Language Models: Enhancements and Comparative Analyses

Aug 12

ByKamyar Zeinalipour, Neda Jamshidi, Monica Bianchini, Marco Maggini, Marco Gori

Voorgetrainde grote taalmodellen (LLMs) hebben aanzienlijke capaciteiten getoond bij een reeks conventionele taken binnen natuurlijke taalverwerking (NLP), zoals samenvatting en entiteitsherkenning. In dit artikel onderzoeken we de toepassing van LLMs bij het genereren van hoogwaardige eiwitsequenties. Specifiek gebruiken we een reeks voorgetrainde LLMs, waaronder Mistral-7B1, Llama-2-7B2, Llama-3-8B3 en gemma-7B4, om geldige eiwitsequenties te produceren. Al deze modellen zijn publiekelijk beschikbaar. In tegenstelling tot eerder werk op dit gebied, maakt onze aanpak gebruik van een relatief kleine dataset bestaande uit 42.000 verschillende menselijke eiwitsequenties. We trainen deze modellen opnieuw om eiwitgerelateerde gegevens te verwerken, waardoor de generatie van biologisch haalbare eiwitstructuren wordt gegarandeerd. Onze bevindingen tonen aan dat zelfs met beperkte gegevens de aangepaste modellen een efficiëntie vertonen die vergelijkbaar is met gevestigde eiwitgerichte modellen zoals ProGen-varianten, ProtGPT2 en ProLLaMA, die getraind zijn op miljoenen eiwitsequenties. Om de prestaties van onze modellen te valideren en te kwantificeren, voeren we vergelijkende analyses uit met behulp van standaard metrieken zoals pLDDT, RMSD, TM-score en REU. Bovendien verbinden we ons ertoe om de getrainde versies van alle vier de modellen publiekelijk beschikbaar te stellen, wat meer transparantie en samenwerking in het veld van computationele biologie bevordert.

TacSL: Een bibliotheek voor visuotactiele sensor-simulatie en -leren
TacSL: A Library for Visuotactile Sensor Simulation and Learning

Aug 12

ByIretiayo Akinola, Jie Xu, Jan Carius, Dieter Fox, Yashraj Narang

Voor zowel mensen als robots is het gevoel van aanraking, bekend als tactiele waarneming, cruciaal voor het uitvoeren van taken die rijk zijn aan contact. Drie belangrijke uitdagingen bij robotische tactiele waarneming zijn 1) het interpreteren van sensorsignalen, 2) het genereren van sensorsignalen in nieuwe scenario's, en 3) het leren van sensor-gebaseerde beleidsregels. Voor visuotactiele sensoren is interpretatie vergemakkelijkt door hun nauwe relatie met visuele sensoren (bijv. RGB-camera's). Generatie blijft echter moeilijk, aangezien visuotactiele sensoren meestal contact, vervorming, belichting en beeldvorming omvatten, die allemaal duur zijn om te simuleren; op zijn beurt is beleidsleren uitdagend, omdat simulatie niet kan worden benut voor grootschalige gegevensverzameling. Wij presenteren TacSL (taxel), een bibliotheek voor GPU-gebaseerde visuotactiele sensorsimulatie en -leren. TacSL kan worden gebruikt om visuotactiele beelden te simuleren en contactkrachtverdelingen meer dan 200 keer sneller te extraheren dan de vorige state-of-the-art, allemaal binnen de veelgebruikte Isaac Gym-simulator. Bovendien biedt TacSL een leertoolkit met meerdere sensormodellen, contactintensieve trainingsomgevingen en online/offline algoritmen die beleidsleren voor sim-to-real toepassingen kunnen vergemakkelijken. Op algoritmisch gebied introduceren we een nieuw online reinforcement-learning algoritme genaamd asymmetrische actor-critic distillatie (\sysName), ontworpen om tactiel-gebaseerde beleidsregels effectief en efficiënt in simulatie te leren die naar de echte wereld kunnen worden overgedragen. Tot slot demonstreren we het nut van onze bibliotheek en algoritmen door de voordelen van distillatie en multimodale waarneming te evalueren voor taken die rijk zijn aan contact, en vooral door sim-to-real overdracht uit te voeren. Aanvullende video's en resultaten zijn te vinden op https://iakinola23.github.io/tacsl/.

ZePo: Zero-Shot Portretstilering met Snellere Sampling
ZePo: Zero-Shot Portrait Stylization with Faster Sampling

Aug 10

ByJin Liu, Huaibo Huang, Jie Cao, Ran He

Diffusiegebaseerde tekst-naar-beeld generatiemodellen hebben het veld van kunstmatige inhoudssynthese aanzienlijk vooruitgeholpen. Huidige methoden voor portretstilisering vereisen echter over het algemeen ofwel model fine-tuning op basis van voorbeelden, ofwel het gebruik van DDIM Inversion om afbeeldingen terug te brengen naar de ruisruimte, wat beide het beeldgeneratieproces aanzienlijk vertraagt. Om deze beperkingen te overwinnen, presenteert dit artikel een inversievrij portretstiliseringsraamwerk gebaseerd op diffusiemodellen dat de fusie van inhouds- en stijleigenschappen in slechts vier bemonsteringsstappen bereikt. We hebben waargenomen dat Latent Consistency Models die consistentiedistillatie gebruiken, effectief representatieve Consistentiekenmerken kunnen extraheren uit ruisachtige afbeeldingen. Om de Consistentiekenmerken die uit zowel inhouds- als stijlafbeeldingen zijn geëxtraheerd te combineren, introduceren we een Stijlverbeterings Aandachtcontrole techniek die zorgvuldig inhouds- en stijleigenschappen samenvoegt binnen de aandachtruimte van de doelafbeelding. Bovendien stellen we een kenmerksamenvoegingsstrategie voor om redundante kenmerken in Consistentiekenmerken samen te voegen, waardoor de rekenlast van aandachtcontrole wordt verminderd. Uitgebreide experimenten hebben de effectiviteit van ons voorgestelde raamwerk in het verbeteren van stiliseringsefficiëntie en -trouw gevalideerd. De code is beschikbaar op https://github.com/liujin112/ZePo.

Het aanpassen van op ontvlechting gebaseerde sprekeranonimisering voor verbeterde emotiebehoud
Adapting General Disentanglement-Based Speaker Anonymization for Enhanced Emotion Preservation

Aug 12

ByXiaoxiao Miao, Yuxiang Zhang, Xin Wang, Natalia Tomashenko, Donny Cheng Lock Soh, Ian Mcloughlin

Een algemeen op ontvlechting gebaseerd systeem voor sprekeranonimisering verdeelt spraak doorgaans in inhoud, spreker en prosodiekenmerken met behulp van afzonderlijke encoders. Dit artikel onderzoekt hoe een dergelijk systeem kan worden aangepast wanneer een nieuw spraakkenmerk, bijvoorbeeld emotie, in grotere mate behouden moet blijven. Hoewel bestaande systemen goed zijn in het anonimiseren van spreker-embeddings, zijn ze niet ontworpen om emotie te behouden. Twee strategieën hiervoor worden onderzocht. Ten eerste laten we zien dat het integreren van emotie-embeddings van een vooraf getrainde emotie-encoder kan helpen om emotionele signalen te behouden, hoewel deze aanpak de privacybescherming enigszins in gevaar brengt. Als alternatief stellen we een emotiecompensatiestrategie voor als een post-processing stap die wordt toegepast op geanonimiseerde spreker-embeddings. Dit verbergt de identiteit van de oorspronkelijke spreker en brengt de emotionele kenmerken terug die verloren zijn gegaan tijdens de anonimisering van de spreker-embedding. Specifiek modelleren we het emotiekenmerk met behulp van support vector machines om afzonderlijke grenzen voor elke emotie te leren. Tijdens inferentie wordt de oorspronkelijke spreker-embedding op twee manieren verwerkt: ten eerste door een emotie-indicator om de emotie te voorspellen en de juiste emotie-overeenkomende SVM te selecteren; en ten tweede door een sprekeranonimiseerder om sprekerkenmerken te verbergen. De geanonimiseerde spreker-embedding wordt vervolgens aangepast langs de corresponderende SVM-grens in de richting van een versterkte emotionele richting om de emotionele signalen te behouden. De voorgestelde strategieën worden ook verwacht nuttig te zijn voor het aanpassen van een algemeen op ontvlechting gebaseerd sprekeranonimiseringssysteem om andere doel-paralinguïstische kenmerken te behouden, met potentieel voor een reeks downstream taken.

Imagen 3
Imagen 3

Aug 13