HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

15 papers found

LongWriter: Liberando a Geração de Mais de 10.000 Palavras a partir de LLMs de Contexto Longo
LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs

Aug 13

ByYushi Bai, Jiajie Zhang, Xin Lv, Linzhi Zheng, Siqi Zhu, Lei Hou, Yuxiao Dong, Jie Tang, Juanzi Li

Os atuais modelos de linguagem de contexto longo (LLMs) podem processar entradas de até 100.000 tokens, no entanto, têm dificuldade em gerar saídas que excedam até mesmo um comprimento modesto de 2.000 palavras. Através de experimentos controlados, descobrimos que o comprimento efetivo de geração do modelo é inerentemente limitado pela amostra que ele viu durante o ajuste fino supervisionado (SFT). Em outras palavras, a limitação de sua saída se deve à escassez de exemplos de saída longos nos conjuntos de dados de SFT existentes. Para lidar com isso, introduzimos o AgentWrite, um pipeline baseado em agentes que decompõe tarefas de geração ultra longas em subtarefas, permitindo que os LLMs prontos para uso gerem saídas coerentes que excedem 20.000 palavras. Aproveitando o AgentWrite, construímos o LongWriter-6k, um conjunto de dados contendo 6.000 dados de SFT com comprimentos de saída variando de 2k a 32k palavras. Ao incorporar este conjunto de dados no treinamento do modelo, escalamos com sucesso o comprimento de saída dos modelos existentes para mais de 10.000 palavras, mantendo a qualidade da saída. Também desenvolvemos o LongBench-Write, um benchmark abrangente para avaliar as capacidades de geração ultra longas. Nosso modelo de 9 bilhões de parâmetros, ainda melhorado através de DPO, alcança um desempenho de ponta neste benchmark, superando até mesmo modelos proprietários muito maiores. Em geral, nosso trabalho demonstra que os LLMs de contexto longo existentes já possuem o potencial para uma janela de saída maior - tudo o que você precisa é de dados com saída estendida durante o alinhamento do modelo para desbloquear essa capacidade. Nosso código e modelos estão em: https://github.com/THUDM/LongWriter.

Figura 3
Imagen 3

Aug 13

ByImagen-Team-Google, Jason Baldridge, Jakob Bauer, Mukul Bhutani, Nicole Brichtova, Andrew Bunner, Kelvin Chan, Yichang Chen, Sander Dieleman, Yuqing Du, Zach Eaton-Rosen, Hongliang Fei, Nando de Freitas, Yilin Gao, Evgeny Gladchenko, Sergio Gómez Colmenarejo, Mandy Guo, Alex Haig, Will Hawkins, Hexiang Hu, Huilian Huang, Tobenna Peter Igwe, Christos Kaplanis, Siavash Khodadadeh, Yelin Kim, Ksenia Konyushkova, Karol Langner, Eric Lau, Shixin Luo, Soňa Mokrá, Henna Nandwani, Yasumasa Onoe, Aäron van den Oord, Zarana Parekh, Jordi Pont-Tuset, Hang Qi, Rui Qian, Deepak Ramachandran, Poorva Rane, Abdullah Rashwan, Ali Razavi, Robert Riachi, Hansa Srinivasan, Srivatsan Srinivasan, Robin Strudel, Benigno Uria, Oliver Wang, Su Wang, Austin Waters, Chris Wolff, Auriel Wright, Zhisheng Xiao, Hao Xiong, Keyang Xu, Marc van Zee, Junlin Zhang, Katie Zhang, Wenlei Zhou, Konrad Zolna, Ola Aboubakar, Canfer Akbulut, Oscar Akerlund, Isabela Albuquerque, Nina Anderson, Marco Andreetto, Lora Aroyo, Ben Bariach, David Barker, Sherry Ben, Dana Berman, Courtney Biles, Irina Blok, Pankil Botadra, Jenny Brennan, Karla Brown, John Buckley, Rudy Bunel, Elie Bursztein, Christina Butterfield, Ben Caine, Viral Carpenter, Norman Casagrande, Ming-Wei Chang, Solomon Chang, Shamik Chaudhuri, Tony Chen, John Choi, Dmitry Churbanau, Nathan Clement, Matan Cohen, Forrester Cole, Mikhail Dektiarev, Vincent Du, Praneet Dutta, Tom Eccles, Ndidi Elue, Ashley Feden, Shlomi Fruchter, Frankie Garcia, Roopal Garg, Weina Ge, Ahmed Ghazy, Bryant Gipson, Andrew Goodman, Dawid Górny, Sven Gowal, Khyatti Gupta, Yoni Halpern, Yena Han, Susan Hao, Jamie Hayes, Amir Hertz, Ed Hirst, Tingbo Hou, Heidi Howard, Mohamed Ibrahim, Dirichi Ike-Njoku, Joana Iljazi, Vlad Ionescu, William Isaac, Reena Jana, Gemma Jennings, Donovon Jenson, Xuhui Jia, Kerry Jones, Xiaoen Ju, Ivana Kajic, Christos Kaplanis, Burcu Karagol Ayan, Jacob Kelly, Suraj Kothawade, Christina Kouridi, Ira Ktena, Jolanda Kumakaw, Dana Kurniawan, Dmitry Lagun, Lily Lavitas, Jason Lee, Tao Li, Marco Liang, Maggie Li-Calis, Yuchi Liu, Javier Lopez Alberca, Peggy Lu, Kristian Lum, Yukun Ma, Chase Malik, John Mellor, Inbar Mosseri, Tom Murray, Aida Nematzadeh, Paul Nicholas, João Gabriel Oliveira, Guillermo Ortiz-Jimenez, Michela Paganini, Tom Le Paine, Roni Paiss, Alicia Parrish, Anne Peckham, Vikas Peswani, Igor Petrovski, Tobias Pfaff, Alex Pirozhenko, Ryan Poplin, Utsav Prabhu, Yuan Qi, Matthew Rahtz, Cyrus Rashtchian, Charvi Rastogi, Amit Raul, Ali Razavi, Sylvestre-Alvise Rebuffi, Susanna Ricco, Felix Riedel, Dirk Robinson, Pankaj Rohatgi, Bill Rosgen, Sarah Rumbley, Moonkyung Ryu, Anthony Salgado, Sahil Singla, Florian Schroff, Candice Schumann, Tanmay Shah, Brendan Shillingford, Kaushik Shivakumar, Dennis Shtatnov, Zach Singer, Evgeny Sluzhaev, Valerii Sokolov, Thibault Sottiaux, Florian Stimberg, Brad Stone, David Stutz, Yu-Chuan Su, Eric Tabellion, Shuai Tang, David Tao, Kurt Thomas, Gregory Thornton, Andeep Toor, Cristian Udrescu, Aayush Upadhyay, Cristina Vasconcelos, Alex Vasiloff, Andrey Voynov, Amanda Walker, Luyu Wang, Miaosen Wang, Simon Wang, Stanley Wang, Qifei Wang, Yuxiao Wang, Ágoston Weisz, Olivia Wiles, Chenxia Wu, Xingyu Federico Xu, Andrew Xue, Jianbo Yang, Luo Yu, Mete Yurtoglu, Ali Zand, Han Zhang, Jiageng Zhang, Catherine Zhao, Adilet Zhaxybay, Miao Zhou, Shengqi Zhu, Zhenkai Zhu, Dawn Bloxwich, Mahyar Bordbar, Luis C. Cobo, Eli Collins, Shengyang Dai, Tulsee Doshi, Anca Dragan, Douglas Eck, Demis Hassabis, Sissie Hsiao, Tom Hume, Koray Kavukcuoglu, Helen King, Jack Krawczyk, Yeqing Li, Kathy Meier-Hellstern, Andras Orban, Yury Pinsky, Amar Subramanya, Oriol Vinyals, Ting Yu, Yori Zwols

Apresentamos o Imagen 3, um modelo de difusão latente que gera imagens de alta qualidade a partir de instruções de texto. Descrevemos nossas avaliações de qualidade e responsabilidade. O Imagen 3 é preferido em relação a outros modelos de última geração no momento da avaliação. Além disso, discutimos questões relacionadas à segurança e representação, bem como os métodos que utilizamos para minimizar o potencial de danos de nossos modelos.

A Diversidade Potencializa a Inteligência: Integrando a Expertise de Agentes de Engenharia de Software
Diversity Empowers Intelligence: Integrating Expertise of Software Engineering Agents

Aug 13

ByKexun Zhang, Weiran Yao, Zuxin Liu, Yihao Feng, Zhiwei Liu, Rithesh Murthy, Tian Lan, Lei Li, Renze Lou, Jiacheng Xu, Bo Pang, Yingbo Zhou, Shelby Heinecke, Silvio Savarese, Huan Wang, Caiming Xiong

Os agentes de modelos de linguagem grandes (LLM) têm mostrado grande potencial na resolução de problemas de engenharia de software (SWE) do mundo real. O agente SWE de código aberto mais avançado pode resolver mais de 27% dos problemas reais do GitHub no SWE-Bench Lite. No entanto, esses sofisticados frameworks de agentes apresentam diferentes pontos fortes, destacando-se em certas tarefas enquanto têm desempenho inferior em outras. Para aproveitar plenamente a diversidade desses agentes, propomos o DEI (Diversidade Potencializada pela Inteligência), um framework que alavanca a experiência única deles. O DEI funciona como um meta-módulo sobre os frameworks de agentes SWE existentes, gerenciando coletivos de agentes para aprimoramento na resolução de problemas. Resultados experimentais mostram que um comitê de agentes guiado pelo DEI é capaz de superar significativamente o desempenho do melhor agente individual. Por exemplo, um grupo de agentes SWE de código aberto, com uma taxa máxima de resolução individual de 27,3% no SWE-Bench Lite, pode alcançar uma taxa de resolução de 34,3% com o DEI, representando uma melhoria de 25% e superando a maioria das soluções de código fechado. Nosso grupo com melhor desempenho se destaca com uma taxa de resolução de 55%, garantindo a classificação mais alta no SWE-Bench Lite. Nossas descobertas contribuem para o crescente corpo de pesquisas sobre sistemas de IA colaborativos e seu potencial para resolver desafios complexos de engenharia de software.

OpenResearcher: Liberando a IA para Pesquisa Científica Acelerada
OpenResearcher: Unleashing AI for Accelerated Scientific Research

Aug 13

ByYuxiang Zheng, Shichao Sun, Lin Qiu, Dongyu Ru, Cheng Jiayang, Xuefeng Li, Jifan Lin, Binjie Wang, Yun Luo, Renjie Pan, Yang Xu, Qingkai Min, Zizhao Zhang, Yiwen Wang, Wenjie Li, Pengfei Liu

O rápido crescimento da literatura científica impõe desafios significativos para pesquisadores que buscam se manter atualizados com os avanços mais recentes em suas áreas e explorar novos campos. Apresentamos o OpenResearcher, uma plataforma inovadora que utiliza técnicas de Inteligência Artificial (IA) para acelerar o processo de pesquisa ao responder a diversas perguntas de pesquisadores. O OpenResearcher é construído com base no Modelo de Geração com Recuperação (RAG) para integrar Modelos de Linguagem de Grande Escala (LLMs) com conhecimento atualizado e específico do domínio. Além disso, desenvolvemos várias ferramentas para o OpenResearcher compreender as consultas dos pesquisadores, buscar na literatura científica, filtrar as informações recuperadas, fornecer respostas precisas e abrangentes, e aprimorar essas respostas automaticamente. O OpenResearcher pode usar essas ferramentas de forma flexível para equilibrar eficiência e eficácia. Como resultado, o OpenResearcher permite que os pesquisadores economizem tempo e aumentem seu potencial para descobrir novos insights e impulsionar avanços científicos. Demonstração, vídeo e código estão disponíveis em: https://github.com/GAIR-NLP/OpenResearcher.

Roteador Recorrente Camada a Camada para Mistura de Especialistas
Layerwise Recurrent Router for Mixture-of-Experts

Aug 13

ByZihan Qiu, Zeyu Huang, Shuang Cheng, Yizhi Zhou, Zili Wang, Ivan Titov, Jie Fu

A escalabilidade de grandes modelos de linguagem (LLMs) revolucionou suas capacidades em várias tarefas, no entanto, esse crescimento deve ser acompanhado por estratégias computacionais eficientes. A arquitetura Mixture-of-Experts (MoE) destaca-se por sua capacidade de aumentar o tamanho do modelo sem aumentar significativamente os custos de treinamento. Apesar de suas vantagens, os modelos MoE atuais frequentemente exibem ineficiência de parâmetros. Por exemplo, um LLM baseado em MoE pré-treinado com 52 bilhões de parâmetros pode ter desempenho comparável a um modelo padrão com 6,7 bilhões de parâmetros. Sendo uma parte crucial do MoE, os roteadores atuais em diferentes camadas atribuem tokens de forma independente sem aproveitar informações de roteamento histórico, potencialmente resultando em combinações subótimas de token-especialista e no problema de ineficiência de parâmetros. Para mitigar esse problema, introduzimos o Roteador Recorrente Camada a Camada para Mixture-of-Experts (RMoE). O RMoE utiliza uma Unidade Recorrente com Portas (GRU) para estabelecer dependências entre decisões de roteamento em camadas consecutivas. Essa recorrência camada a camada pode ser calculada de forma eficiente e paralela para tokens de entrada e introduz custos negociáveis. Nossas extensas avaliações empíricas demonstram que os modelos de linguagem baseados em RMoE superam consistentemente uma variedade de modelos de referência. Além disso, o RMoE integra uma etapa de computação inovadora, ortogonal aos métodos existentes, permitindo compatibilidade perfeita com outras arquiteturas MoE. Nossas análises atribuem os ganhos do RMoE ao seu eficaz compartilhamento de informações entre camadas, o que também melhora a seleção e diversidade de especialistas. Nosso código está em https://github.com/qiuzh20/RMoE

Amuro & Char: Analisando a Relação entre Pré-Treinamento e Ajuste Fino de Modelos de Linguagem Grandes
Amuro & Char: Analyzing the Relationship between Pre-Training and Fine-Tuning of Large Language Models

Aug 13

ByKaiser Sun, Mark Dredze

O desenvolvimento de grandes modelos de linguagem leva à formação de um paradigma de pré-treino e ajuste, no qual o modelo é tipicamente pré-treinado em um grande corpus de texto e passa por uma etapa de ajuste para alinhar o modelo com a preferência humana ou tarefas subsequentes. Neste trabalho, investigamos a relação entre pré-treinamento e ajuste fino ajustando múltiplos pontos de verificação de modelos pré-treinados intermediários. Nossos resultados em 18 conjuntos de dados sugerem que i) o pré-treinamento contínuo melhora o modelo de uma forma latente que se revela após o ajuste fino; ii) com ajuste fino adicional, os conjuntos de dados nos quais o modelo não demonstra capacidade ganham muito mais do que aqueles nos quais o modelo se sai bem durante a etapa de pré-treinamento; iii) embora o modelo se beneficie significativamente por meio de ajuste fino supervisionado, ele pode esquecer conhecimentos de domínio previamente adquiridos e as tarefas que não são vistas durante o ajuste fino; iv) o modelo se assemelha a uma alta sensibilidade a prompts de avaliação após o ajuste fino supervisionado, mas essa sensibilidade pode ser aliviada por mais pré-treinamento.

SlotLifter: Elevação de Características Guiada por Slots para Aprendizado de Campos de Radiância Centrados em Objetos
SlotLifter: Slot-guided Feature Lifting for Learning Object-centric Radiance Fields

Aug 13

ByYu Liu, Baoxiong Jia, Yixin Chen, Siyuan Huang

A capacidade de destilar abstrações centradas em objetos a partir de cenas visuais intricadas fundamenta a generalização em nível humano. Apesar do progresso significativo em métodos de aprendizado centrados em objetos, aprender representações centradas em objetos no mundo físico 3D continua sendo um desafio crucial. Neste trabalho, propomos o SlotLifter, um novo modelo de radiância centrado em objetos que aborda a reconstrução e decomposição de cenas de forma conjunta por meio do levantamento de características guiado por slots. Tal projeto une representações de aprendizado centradas em objetos e métodos de renderização baseados em imagens, oferecendo desempenho de ponta na decomposição de cenas e síntese de novas visualizações em quatro conjuntos de dados sintéticos desafiadores e quatro conjuntos de dados do mundo real complexos, superando significativamente os métodos existentes de aprendizado centrado em objetos 3D. Através de estudos ablativos extensivos, demonstramos a eficácia dos projetos no SlotLifter, revelando insights importantes para direções futuras potenciais.

DC3DO: Classificador de Difusão para Objetos 3D
DC3DO: Diffusion Classifier for 3D Objects

Aug 13

ByNursena Koprucu, Meher Shashwat Nigam, Shicheng Xu, Biruk Abere, Gabriele Dominici, Andrew Rodriguez, Sharvaree Vadgam, Berfin Inal, Alberto Tono

Inspirados pelo destaque de Geoffrey Hinton na modelagem generativa, "Para reconhecer formas, primeiro aprenda a gerá-las", exploramos o uso de modelos de difusão 3D para classificação de objetos. Aproveitando as estimativas de densidade desses modelos, nossa abordagem, o Classificador de Difusão para Objetos 3D (DC3DO), possibilita a classificação de formas 3D sem treinamento adicional. Em média, nosso método alcança uma melhoria de 12,5 por cento em comparação com seus equivalentes de múltiplas visualizações, demonstrando um raciocínio multimodal superior em relação às abordagens discriminativas. O DC3DO emprega um modelo de difusão condicional à classe treinado no ShapeNet, e realizamos inferências em nuvens de pontos de cadeiras e carros. Este trabalho destaca o potencial de modelos generativos na classificação de objetos 3D.

UniT: Representação Tátil Unificada para Aprendizado de Robôs
UniT: Unified Tactile Representation for Robot Learning

Aug 12

ByZhengtong Xu, Raghava Uppuluri, Xinwei Zhang, Cael Fitch, Philip Glen Crandall, Wan Shou, Dongyi Wang, Yu She

UniT é uma abordagem inovadora para aprendizado de representação tátil, utilizando VQVAE para aprender um espaço latente compacto e servir como a representação tátil. Ele utiliza imagens táteis obtidas de um único objeto simples para treinar a representação com transferibilidade e generalização. Essa representação tátil pode ser transferida de forma zero-shot para várias tarefas subsequentes, incluindo tarefas de percepção e aprendizado de políticas de manipulação. Nossa avaliação em uma tarefa de estimativa de pose 3D em mãos mostra que o UniT supera os métodos existentes de aprendizado de representação visual e tátil. Além disso, a eficácia do UniT no aprendizado de políticas é demonstrada em três tarefas do mundo real envolvendo objetos manipulados diversos e interações complexas entre robôs, objetos e ambientes. Através de experimentação extensiva, o UniT é mostrado como um método simples de treinar, pronto para uso, porém amplamente eficaz para aprendizado de representação tátil. Para mais detalhes, consulte nosso repositório de código aberto em https://github.com/ZhengtongXu/UniT e o site do projeto em https://zhengtongxu.github.io/unifiedtactile.github.io/.

FuxiTranyu: Um Modelo de Linguagem Grande Multilíngue Treinado com Dados Balanceados
FuxiTranyu: A Multilingual Large Language Model Trained with Balanced Data

Aug 12

ByHaoran Sun, Renren Jin, Shaoyang Xu, Leiyu Pan, Supryadi, Menglong Cui, Jiangcun Du, Yikun Lei, Lei Yang, Ling Shi, Juesi Xiao, Shaolin Zhu, Deyi Xiong

Grandes modelos de linguagem (LLMs) têm demonstrado habilidades em uma ampla gama de tarefas. No entanto, muitos LLMs apresentam discrepâncias significativas de desempenho entre idiomas de alta e baixa recursos. Para mitigar esse desafio, apresentamos o FuxiTranyu, um LLM multilíngue de código aberto, projetado para atender à necessidade da comunidade de pesquisa por capacidades multilíngues equilibradas e de alto desempenho. O modelo base FuxiTranyu-8B, com 8 bilhões de parâmetros, é treinado do zero em um repositório de dados multilíngue meticulosamente equilibrado, contendo 600 bilhões de tokens abrangendo 43 idiomas naturais e 16 idiomas de programação. Além do modelo base, também desenvolvemos dois modelos ajustados por instrução: o FuxiTranyu-8B-SFT, ajustado finamente em um conjunto de dados de instruções multilíngues diversificado, e o FuxiTranyu-8B-DPO, refinado ainda mais com DPO em um conjunto de dados de preferências para melhorar a capacidade de alinhamento. Experimentos extensos em uma ampla gama de benchmarks multilíngues demonstram o desempenho competitivo do FuxiTranyu em comparação com LLMs multilíngues existentes, como BLOOM-7B, PolyLM-13B, Llama-2-Chat-7B e Mistral-7B-Instruct. Análises de interpretabilidade tanto no nível de neurônio quanto de representação sugerem que o FuxiTranyu é capaz de aprender representações multilíngues consistentes entre diferentes idiomas. Para promover pesquisas adicionais em LLMs multilíngues e seus mecanismos de funcionamento, disponibilizamos os modelos base e ajustados por instrução do FuxiTranyu, juntamente com 58 pontos de verificação de pré-treinamento, no HuggingFace e no Github.

MovieSum: Um Conjunto de Dados de Sumarização Abstrativa para Roteiros de Filmes
MovieSum: An Abstractive Summarization Dataset for Movie Screenplays

Aug 12

ByRohit Saxena, Frank Keller

A sumarização de roteiros de filmes é desafiadora, pois requer compreensão de contextos de entrada longos e vários elementos únicos dos filmes. Modelos de linguagem grandes têm demonstrado avanços significativos na sumarização de documentos, mas frequentemente enfrentam dificuldades ao processar contextos de entrada longos. Além disso, enquanto transcrições de televisão têm recebido atenção em estudos recentes, a sumarização de roteiros de filmes permanece pouco explorada. Para estimular a pesquisa nessa área, apresentamos um novo conjunto de dados, MovieSum, para sumarização abstrativa de roteiros de filmes. Este conjunto de dados é composto por 2200 roteiros de filmes acompanhados por seus resumos de enredo da Wikipedia. Formatamos manualmente os roteiros de filmes para representar seus elementos estruturais. Em comparação com conjuntos de dados existentes, o MovieSum possui várias características distintas: (1) Inclui roteiros de filmes, que são mais longos do que os scripts de episódios de TV. (2) É duas vezes maior do que conjuntos de dados anteriores de roteiros de filmes. (3) Fornece metadados com IDs do IMDb para facilitar o acesso a conhecimento externo adicional. Também apresentamos os resultados de modelos de linguagem grandes recentemente lançados aplicados à sumarização em nosso conjunto de dados para fornecer uma linha de base detalhada.

Projetar Proteínas Usando Modelos de Linguagem Grandes: Aprimoramentos e Análises Comparativas
Design Proteins Using Large Language Models: Enhancements and Comparative Analyses

Aug 12

ByKamyar Zeinalipour, Neda Jamshidi, Monica Bianchini, Marco Maggini, Marco Gori

Os LLMs pré-treinados têm demonstrado capacidades substanciais em uma variedade de tarefas convencionais de processamento de linguagem natural (PLN), como sumarização e reconhecimento de entidades. Neste artigo, exploramos a aplicação dos LLMs na geração de sequências de proteínas de alta qualidade. Especificamente, adotamos um conjunto de LLMs pré-treinados, incluindo Mistral-7B1, Llama-2-7B2, Llama-3-8B3 e gemma-7B4, para produzir sequências de proteínas válidas. Todos esses modelos estão disponíveis publicamente. Ao contrário de trabalhos anteriores nesse campo, nossa abordagem utiliza um conjunto de dados relativamente pequeno composto por 42.000 sequências de proteínas humanas distintas. Retreinamos esses modelos para processar dados relacionados a proteínas, garantindo a geração de estruturas de proteínas biologicamente viáveis. Nossos resultados demonstram que mesmo com dados limitados, os modelos adaptados exibem eficiência comparável a modelos estabelecidos focados em proteínas, como as variedades ProGen, ProtGPT2 e ProLLaMA, que foram treinados em milhões de sequências de proteínas. Para validar e quantificar o desempenho de nossos modelos, realizamos análises comparativas empregando métricas padrão como pLDDT, RMSD, TM-score e REU. Além disso, comprometemo-nos a disponibilizar publicamente as versões treinadas de todos os quatro modelos, promovendo maior transparência e colaboração no campo da biologia computacional.

TacSL: Uma Biblioteca para Simulação e Aprendizado de Sensores Visuotáteis
TacSL: A Library for Visuotactile Sensor Simulation and Learning

Aug 12

ByIretiayo Akinola, Jie Xu, Jan Carius, Dieter Fox, Yashraj Narang

Tanto para humanos quanto para robôs, o sentido do tato, conhecido como sensor tátil, é fundamental para realizar tarefas de manipulação ricas em contato. Três desafios-chave em sensores táteis robóticos são 1) interpretar os sinais dos sensores, 2) gerar sinais dos sensores em cenários novos e 3) aprender políticas baseadas em sensores. Para os sensores visuotáteis, a interpretação tem sido facilitada pela sua estreita relação com os sensores visuais (por exemplo, câmeras RGB). No entanto, a geração ainda é difícil, pois os sensores visuotáteis geralmente envolvem contato, deformação, iluminação e imagem, todos os quais são caros de simular; por sua vez, a aprendizagem de políticas tem sido desafiadora, pois a simulação não pode ser aproveitada para a coleta de dados em larga escala. Apresentamos TacSL (taxel), uma biblioteca para simulação e aprendizagem de sensores visuotáteis baseados em GPU. TacSL pode ser usado para simular imagens visuotáteis e extrair distribuições de força de contato mais de 200 vezes mais rápido do que o estado-da-arte anterior, tudo dentro do simulador amplamente utilizado Isaac Gym. Além disso, TacSL fornece um kit de ferramentas de aprendizagem contendo vários modelos de sensores, ambientes de treinamento intensivos em contato e algoritmos online/offline que podem facilitar a aprendizagem de políticas para aplicações de simulação para o mundo real. No lado algorítmico, introduzimos um novo algoritmo de aprendizagem por reforço online chamado distilação assimétrica ator-crítico (DACD), projetado para aprender políticas baseadas em tato de forma eficaz e eficiente na simulação que podem ser transferidas para o mundo real. Finalmente, demonstramos a utilidade de nossa biblioteca e algoritmos avaliando os benefícios da distilação e da detecção multimodal para tarefas de manipulação ricas em contato e, mais criticamente, realizando a transferência da simulação para o mundo real. Vídeos e resultados complementares estão em https://iakinola23.github.io/tacsl/.

ZePo: Estilização de Retratos sem Uso de Exemplos com Amostragem Mais Rápida
ZePo: Zero-Shot Portrait Stylization with Faster Sampling

Aug 10

ByJin Liu, Huaibo Huang, Jie Cao, Ran He

Os modelos de geração de texto para imagem baseados em difusão avançaram significativamente o campo de síntese de conteúdo artístico. No entanto, os métodos atuais de estilização de retratos geralmente exigem ajustes finos no modelo com base em exemplos ou o uso da Inversão DDIM para reverter imagens para o espaço de ruído, ambos os quais desaceleram substancialmente o processo de geração de imagens. Para superar essas limitações, este artigo apresenta um framework de estilização de retrato sem inversão baseado em modelos de difusão que realiza a fusão de características de conteúdo e estilo em meramente quatro etapas de amostragem. Observamos que os Modelos de Consistência Latente que empregam destilação de consistência podem extrair efetivamente Características de Consistência representativas de imagens ruidosas. Para mesclar as Características de Consistência extraídas de imagens de conteúdo e estilo, introduzimos uma técnica de Controle de Atenção de Aprimoramento de Estilo que mescla meticulosamente características de conteúdo e estilo dentro do espaço de atenção da imagem alvo. Além disso, propomos uma estratégia de fusão de características para amalgamar características redundantes em Características de Consistência, reduzindo assim a carga computacional do controle de atenção. Experimentos extensivos validaram a eficácia de nosso framework proposto na melhoria da eficiência e fidelidade da estilização. O código está disponível em https://github.com/liujin112/ZePo.

Adaptando a Anonimização de Orador Baseada em Desemaranhamento Geral para uma Preservação Aprimorada de Emoções
Adapting General Disentanglement-Based Speaker Anonymization for Enhanced Emotion Preservation

Aug 12

ByXiaoxiao Miao, Yuxiang Zhang, Xin Wang, Natalia Tomashenko, Donny Cheng Lock Soh, Ian Mcloughlin

Um sistema geral de anonimização de locutor baseado em desemaranhamento normalmente separa a fala em conteúdo, locutor e características de prosódia usando codificadores individuais. Este artigo explora como adaptar tal sistema quando um novo atributo da fala, por exemplo, emoção, precisa ser preservado em maior grau. Enquanto os sistemas existentes são bons em anonimizar as incrustações do locutor, eles não são projetados para preservar a emoção. Duas estratégias para isso são examinadas. Primeiramente, demonstramos que a integração de incrustações emocionais de um codificador de emoção pré-treinado pode ajudar a preservar pistas emocionais, embora essa abordagem comprometa ligeiramente a proteção da privacidade. Alternativamente, propomos uma estratégia de compensação emocional como um passo de pós-processamento aplicado às incrustações de locutor anonimizadas. Isso oculta a identidade do locutor original e reintroduz os traços emocionais perdidos durante a anonimização da incrustação do locutor. Especificamente, modelamos o atributo de emoção usando máquinas de vetores de suporte para aprender limites separados para cada emoção. Durante a inferência, a incrustação do locutor original é processada de duas maneiras: uma, por um indicador de emoção para prever a emoção e selecionar com precisão o SVM correspondente à emoção; e duas, por um anonimizador de locutor para ocultar as características do locutor. A incrustação de locutor anonimizada é então modificada ao longo do limite SVM correspondente em direção aprimorada emocional para preservar as pistas emocionais. As estratégias propostas também são esperadas para serem úteis para adaptar um sistema geral de anonimização de locutor baseado em desemaranhamento para preservar outros atributos paralinguísticos-alvo, com potencial para uma variedade de tarefas subsequentes.

Figura 3
Imagen 3

Aug 13