HuggingFace Daily Papers

Papers Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Seleccionar fecha

15 papers found

LongWriter: Liberando la Generación de Palabras de más de 10,000 Palabras a partir de LLMs de Contexto Largo
LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs

Aug 13

ByYushi Bai, Jiajie Zhang, Xin Lv, Linzhi Zheng, Siqi Zhu, Lei Hou, Yuxiao Dong, Jie Tang, Juanzi Li

Los modelos de lenguaje de contexto largo (LLMs) actuales pueden procesar entradas de hasta 100,000 tokens, pero tienen dificultades para generar salidas que superen incluso una longitud modesta de 2,000 palabras. A través de experimentos controlados, descubrimos que la longitud efectiva de generación del modelo está inherentemente limitada por la muestra que ha visto durante el ajuste fino supervisado (SFT). En otras palabras, su limitación de salida se debe a la escasez de ejemplos de salida largos en los conjuntos de datos existentes de SFT. Para abordar esto, presentamos AgentWrite, un pipeline basado en agentes que descompone tareas de generación ultra largas en subtareas, lo que permite a los LLMs listos para usar generar salidas coherentes que superan las 20,000 palabras. Aprovechando AgentWrite, creamos LongWriter-6k, un conjunto de datos que contiene 6,000 datos de SFT con longitudes de salida que van desde 2k hasta 32k palabras. Al incorporar este conjunto de datos en el entrenamiento del modelo, logramos escalar con éxito la longitud de salida de los modelos existentes a más de 10,000 palabras manteniendo la calidad de la salida. También desarrollamos LongBench-Write, un benchmark integral para evaluar las capacidades de generación ultra largas. Nuestro modelo de 9B parámetros, mejorado aún más a través de DPO, logra un rendimiento de vanguardia en este benchmark, superando incluso a modelos propietarios mucho más grandes. En general, nuestro trabajo demuestra que los LLMs de contexto largo existentes ya poseen el potencial para una ventana de salida más grande, todo lo que se necesita es datos con salida extendida durante el alineamiento del modelo para desbloquear esta capacidad. Nuestro código y modelos están en: https://github.com/THUDM/LongWriter.

Figura 3
Imagen 3

Aug 13

ByImagen-Team-Google, Jason Baldridge, Jakob Bauer, Mukul Bhutani, Nicole Brichtova, Andrew Bunner, Kelvin Chan, Yichang Chen, Sander Dieleman, Yuqing Du, Zach Eaton-Rosen, Hongliang Fei, Nando de Freitas, Yilin Gao, Evgeny Gladchenko, Sergio Gómez Colmenarejo, Mandy Guo, Alex Haig, Will Hawkins, Hexiang Hu, Huilian Huang, Tobenna Peter Igwe, Christos Kaplanis, Siavash Khodadadeh, Yelin Kim, Ksenia Konyushkova, Karol Langner, Eric Lau, Shixin Luo, Soňa Mokrá, Henna Nandwani, Yasumasa Onoe, Aäron van den Oord, Zarana Parekh, Jordi Pont-Tuset, Hang Qi, Rui Qian, Deepak Ramachandran, Poorva Rane, Abdullah Rashwan, Ali Razavi, Robert Riachi, Hansa Srinivasan, Srivatsan Srinivasan, Robin Strudel, Benigno Uria, Oliver Wang, Su Wang, Austin Waters, Chris Wolff, Auriel Wright, Zhisheng Xiao, Hao Xiong, Keyang Xu, Marc van Zee, Junlin Zhang, Katie Zhang, Wenlei Zhou, Konrad Zolna, Ola Aboubakar, Canfer Akbulut, Oscar Akerlund, Isabela Albuquerque, Nina Anderson, Marco Andreetto, Lora Aroyo, Ben Bariach, David Barker, Sherry Ben, Dana Berman, Courtney Biles, Irina Blok, Pankil Botadra, Jenny Brennan, Karla Brown, John Buckley, Rudy Bunel, Elie Bursztein, Christina Butterfield, Ben Caine, Viral Carpenter, Norman Casagrande, Ming-Wei Chang, Solomon Chang, Shamik Chaudhuri, Tony Chen, John Choi, Dmitry Churbanau, Nathan Clement, Matan Cohen, Forrester Cole, Mikhail Dektiarev, Vincent Du, Praneet Dutta, Tom Eccles, Ndidi Elue, Ashley Feden, Shlomi Fruchter, Frankie Garcia, Roopal Garg, Weina Ge, Ahmed Ghazy, Bryant Gipson, Andrew Goodman, Dawid Górny, Sven Gowal, Khyatti Gupta, Yoni Halpern, Yena Han, Susan Hao, Jamie Hayes, Amir Hertz, Ed Hirst, Tingbo Hou, Heidi Howard, Mohamed Ibrahim, Dirichi Ike-Njoku, Joana Iljazi, Vlad Ionescu, William Isaac, Reena Jana, Gemma Jennings, Donovon Jenson, Xuhui Jia, Kerry Jones, Xiaoen Ju, Ivana Kajic, Christos Kaplanis, Burcu Karagol Ayan, Jacob Kelly, Suraj Kothawade, Christina Kouridi, Ira Ktena, Jolanda Kumakaw, Dana Kurniawan, Dmitry Lagun, Lily Lavitas, Jason Lee, Tao Li, Marco Liang, Maggie Li-Calis, Yuchi Liu, Javier Lopez Alberca, Peggy Lu, Kristian Lum, Yukun Ma, Chase Malik, John Mellor, Inbar Mosseri, Tom Murray, Aida Nematzadeh, Paul Nicholas, João Gabriel Oliveira, Guillermo Ortiz-Jimenez, Michela Paganini, Tom Le Paine, Roni Paiss, Alicia Parrish, Anne Peckham, Vikas Peswani, Igor Petrovski, Tobias Pfaff, Alex Pirozhenko, Ryan Poplin, Utsav Prabhu, Yuan Qi, Matthew Rahtz, Cyrus Rashtchian, Charvi Rastogi, Amit Raul, Ali Razavi, Sylvestre-Alvise Rebuffi, Susanna Ricco, Felix Riedel, Dirk Robinson, Pankaj Rohatgi, Bill Rosgen, Sarah Rumbley, Moonkyung Ryu, Anthony Salgado, Sahil Singla, Florian Schroff, Candice Schumann, Tanmay Shah, Brendan Shillingford, Kaushik Shivakumar, Dennis Shtatnov, Zach Singer, Evgeny Sluzhaev, Valerii Sokolov, Thibault Sottiaux, Florian Stimberg, Brad Stone, David Stutz, Yu-Chuan Su, Eric Tabellion, Shuai Tang, David Tao, Kurt Thomas, Gregory Thornton, Andeep Toor, Cristian Udrescu, Aayush Upadhyay, Cristina Vasconcelos, Alex Vasiloff, Andrey Voynov, Amanda Walker, Luyu Wang, Miaosen Wang, Simon Wang, Stanley Wang, Qifei Wang, Yuxiao Wang, Ágoston Weisz, Olivia Wiles, Chenxia Wu, Xingyu Federico Xu, Andrew Xue, Jianbo Yang, Luo Yu, Mete Yurtoglu, Ali Zand, Han Zhang, Jiageng Zhang, Catherine Zhao, Adilet Zhaxybay, Miao Zhou, Shengqi Zhu, Zhenkai Zhu, Dawn Bloxwich, Mahyar Bordbar, Luis C. Cobo, Eli Collins, Shengyang Dai, Tulsee Doshi, Anca Dragan, Douglas Eck, Demis Hassabis, Sissie Hsiao, Tom Hume, Koray Kavukcuoglu, Helen King, Jack Krawczyk, Yeqing Li, Kathy Meier-Hellstern, Andras Orban, Yury Pinsky, Amar Subramanya, Oriol Vinyals, Ting Yu, Yori Zwols

Presentamos Imagen 3, un modelo de difusión latente que genera imágenes de alta calidad a partir de indicaciones de texto. Describimos nuestras evaluaciones de calidad y responsabilidad. Imagen 3 es preferido sobre otros modelos de última generación en el momento de la evaluación. Además, discutimos cuestiones relacionadas con la seguridad y la representación, así como los métodos que utilizamos para minimizar el posible daño de nuestros modelos.

La Diversidad Potencia la Inteligencia: Integración de la Expertise de Agentes de Ingeniería de Software
Diversity Empowers Intelligence: Integrating Expertise of Software Engineering Agents

Aug 13

ByKexun Zhang, Weiran Yao, Zuxin Liu, Yihao Feng, Zhiwei Liu, Rithesh Murthy, Tian Lan, Lei Li, Renze Lou, Jiacheng Xu, Bo Pang, Yingbo Zhou, Shelby Heinecke, Silvio Savarese, Huan Wang, Caiming Xiong

Los agentes de modelos de lenguaje grande (LLM) han demostrado un gran potencial en la resolución de problemas de ingeniería de software (SWE) del mundo real. El agente de SWE de código abierto más avanzado puede resolver más del 27% de problemas reales de GitHub en SWE-Bench Lite. Sin embargo, estos sofisticados marcos de agentes exhiben fortalezas variables, destacando en ciertas tareas mientras tienen un rendimiento inferior en otras. Para aprovechar al máximo la diversidad de estos agentes, proponemos DEI (Inteligencia Potenciada por la Diversidad), un marco que aprovecha su experiencia única. DEI funciona como un meta-módulo encima de los marcos de agentes de SWE existentes, gestionando colectivos de agentes para una resolución de problemas mejorada. Los resultados experimentales muestran que un comité de agentes guiado por DEI puede superar el rendimiento del mejor agente individual por un amplio margen. Por ejemplo, un grupo de agentes de SWE de código abierto, con una tasa máxima de resolución individual del 27.3% en SWE-Bench Lite, puede lograr una tasa de resolución del 34.3% con DEI, obteniendo una mejora del 25% y superando la mayoría de las soluciones de código cerrado. Nuestro grupo de mejor rendimiento destaca con una tasa de resolución del 55%, asegurando el puesto más alto en SWE-Bench Lite. Nuestros hallazgos contribuyen al creciente cuerpo de investigación sobre sistemas de IA colaborativos y su potencial para resolver desafíos complejos de ingeniería de software.

OpenResearcher: Liberando la IA para la Investigación Científica Acelerada
OpenResearcher: Unleashing AI for Accelerated Scientific Research

Aug 13

ByYuxiang Zheng, Shichao Sun, Lin Qiu, Dongyu Ru, Cheng Jiayang, Xuefeng Li, Jifan Lin, Binjie Wang, Yun Luo, Renjie Pan, Yang Xu, Qingkai Min, Zizhao Zhang, Yiwen Wang, Wenjie Li, Pengfei Liu

El rápido crecimiento de la literatura científica impone desafíos significativos para los investigadores que se esfuerzan por mantenerse actualizados con los últimos avances en sus campos y adentrarse en nuevas áreas. Presentamos OpenResearcher, una plataforma innovadora que aprovecha técnicas de Inteligencia Artificial (IA) para acelerar el proceso de investigación al responder diversas preguntas de los investigadores. OpenResearcher se basa en Retrieval-Augmented Generation (RAG) para integrar Modelos de Lenguaje Grandes (LLMs) con conocimiento actualizado y específico del dominio. Además, desarrollamos varias herramientas para que OpenResearcher comprenda las consultas de los investigadores, busque en la literatura científica, filtre la información recuperada, proporcione respuestas precisas y completas, y se auto-perfeccione. OpenResearcher puede utilizar de manera flexible estas herramientas para equilibrar la eficiencia y la efectividad. Como resultado, OpenResearcher permite a los investigadores ahorrar tiempo y aumentar su potencial para descubrir nuevas ideas y propiciar avances científicos. Una demostración, video y código están disponibles en: https://github.com/GAIR-NLP/OpenResearcher.

Enrutador Recurrente por Capas para Mezcla de Expertos
Layerwise Recurrent Router for Mixture-of-Experts

Aug 13

ByZihan Qiu, Zeyu Huang, Shuang Cheng, Yizhi Zhou, Zili Wang, Ivan Titov, Jie Fu

La escalabilidad de los modelos de lenguaje grandes (LLMs) ha revolucionado sus capacidades en diversas tareas, sin embargo, este crecimiento debe ir de la mano de estrategias computacionales eficientes. La arquitectura de Mezcla de Expertos (MoE) destaca por su capacidad de escalar el tamaño del modelo sin aumentar significativamente los costos de entrenamiento. A pesar de sus ventajas, los modelos MoE actuales a menudo muestran ineficiencia en los parámetros. Por ejemplo, un LLM basado en MoE pre-entrenado con 52 mil millones de parámetros podría tener un rendimiento comparable a un modelo estándar con 6.7 mil millones de parámetros. Siendo una parte crucial de MoE, los enrutadores actuales en diferentes capas asignan tokens de forma independiente sin aprovechar la información de enrutamiento histórica, lo que podría llevar a combinaciones subóptimas de tokens-experto y al problema de ineficiencia de parámetros. Para aliviar este problema, presentamos el Enrutador Recurrente por Capas para Mezcla de Expertos (RMoE). RMoE aprovecha una Unidad Recurrente con Compuertas (GRU) para establecer dependencias entre decisiones de enrutamiento a lo largo de capas consecutivas. Esta recurrencia por capas puede calcularse eficientemente en paralelo para tokens de entrada e introduce costos negociables. Nuestras extensas evaluaciones empíricas demuestran que los modelos de lenguaje basados en RMoE superan consistentemente a una variedad de modelos de referencia. Además, RMoE integra una etapa de cálculo novedosa, ortogonal a los métodos existentes, lo que permite una compatibilidad perfecta con otras arquitecturas de MoE. Nuestros análisis atribuyen las mejoras de RMoE a su efectivo intercambio de información entre capas, lo que también mejora la selección y diversidad de expertos. Nuestro código está disponible en https://github.com/qiuzh20/RMoE

Amuro & Char: Analyzing the Relationship between Pre-Training and Fine-Tuning of Large Language Models

Aug 13

ByKaiser Sun, Mark Dredze

The development of large language models leads to the formation of a pre-train-then-align paradigm, in which the model is typically pre-trained on a large text corpus and undergoes a tuning stage to align the model with human preference or downstream tasks. In this work, we investigate the relationship between pre-training and fine-tuning by fine-tuning multiple intermediate pre-trained model checkpoints. Our results on 18 datasets suggest that i) continual pre-training improves the model in a latent way that unveils after fine-tuning; ii) with extra fine-tuning, the datasets that the model does not demonstrate capability gain much more than those that the model performs well during the pre-training stage; iii) although model benefits significantly through supervised fine-tuning, it may forget previously known domain knowledge and the tasks that are not seen during fine-tuning; iv) the model resembles high sensitivity to evaluation prompts after supervised fine-tuning, but this sensitivity can be alleviated by more pre-training.

SlotLifter: Elevación de Características Guiada por Espacios para el Aprendizaje de Campos de Radiancia Centrados en Objetos
SlotLifter: Slot-guided Feature Lifting for Learning Object-centric Radiance Fields

Aug 13

ByYu Liu, Baoxiong Jia, Yixin Chen, Siyuan Huang

La capacidad de destilar abstracciones centradas en objetos de escenas visuales intrincadas sustenta la generalización a nivel humano. A pesar del progreso significativo en los métodos de aprendizaje centrados en objetos, aprender representaciones centradas en objetos en el mundo físico en 3D sigue siendo un desafío crucial. En este trabajo, proponemos SlotLifter, un novedoso modelo de radiación centrado en objetos que aborda la reconstrucción y descomposición de escenas de manera conjunta a través de un levantamiento de características guiado por ranuras. Este diseño une representaciones de aprendizaje centradas en objetos y métodos de renderizado basados en imágenes, ofreciendo un rendimiento de vanguardia en la descomposición de escenas y la síntesis de nuevas vistas en cuatro desafiantes conjuntos de datos sintéticos y cuatro complejos conjuntos de datos del mundo real, superando de manera significativa a los métodos existentes de aprendizaje centrado en objetos en 3D. A través de exhaustivos estudios ablativos, demostramos la eficacia de los diseños en SlotLifter, revelando ideas clave para posibles direcciones futuras.

DC3DO: Clasificador de Difusión para Objetos 3D
DC3DO: Diffusion Classifier for 3D Objects

Aug 13

ByNursena Koprucu, Meher Shashwat Nigam, Shicheng Xu, Biruk Abere, Gabriele Dominici, Andrew Rodriguez, Sharvaree Vadgam, Berfin Inal, Alberto Tono

Inspirado por el énfasis de Geoffrey Hinton en la modelización generativa, "Para reconocer formas, primero aprende a generarlas", exploramos el uso de modelos de difusión en 3D para la clasificación de objetos. Aprovechando las estimaciones de densidad de estos modelos, nuestro enfoque, el Clasificador de Difusión para Objetos en 3D (DC3DO), permite la clasificación de formas en 3D sin entrenamiento adicional. En promedio, nuestro método logra una mejora del 12.5 por ciento en comparación con sus contrapartes de múltiples vistas, demostrando un razonamiento multimodal superior sobre enfoques discriminativos. DC3DO emplea un modelo de difusión condicional a la clase entrenado en ShapeNet, y realizamos inferencias en nubes de puntos de sillas y coches. Este trabajo destaca el potencial de los modelos generativos en la clasificación de objetos en 3D.

FuxiTranyu: Un modelo de lenguaje grande multilingüe entrenado con datos equilibrados
FuxiTranyu: A Multilingual Large Language Model Trained with Balanced Data

Aug 12

ByHaoran Sun, Renren Jin, Shaoyang Xu, Leiyu Pan, Supryadi, Menglong Cui, Jiangcun Du, Yikun Lei, Lei Yang, Ling Shi, Juesi Xiao, Shaolin Zhu, Deyi Xiong

Los modelos de lenguaje grandes (LLMs) han demostrado habilidades en una amplia gama de tareas. Sin embargo, muchos LLMs muestran discrepancias significativas de rendimiento entre idiomas de alto y bajo recurso. Para mitigar este desafío, presentamos FuxiTranyu, un LLM multilingüe de código abierto, diseñado para satisfacer la necesidad de la comunidad investigadora de capacidades multilingües equilibradas y de alto rendimiento. FuxiTranyu-8B, el modelo base con 8 mil millones de parámetros, se entrena desde cero en un repositorio de datos multilingüe meticulosamente equilibrado que contiene 600 mil millones de tokens que abarcan 43 idiomas naturales y 16 lenguajes de programación. Además del modelo base, también desarrollamos dos modelos ajustados a instrucciones: FuxiTranyu-8B-SFT, que se ajusta finamente en un conjunto de datos de instrucciones multilingüe diverso, y FuxiTranyu-8B-DPO, que se perfecciona aún más con DPO en un conjunto de datos de preferencias para una capacidad de alineación mejorada. Experimentos extensos en una amplia gama de pruebas multilingües demuestran el rendimiento competitivo de FuxiTranyu frente a LLMs multilingües existentes, como BLOOM-7B, PolyLM-13B, Llama-2-Chat-7B y Mistral-7B-Instruct. Los análisis de interpretabilidad a nivel de neurona y representación sugieren que FuxiTranyu es capaz de aprender representaciones multilingües consistentes en diferentes idiomas. Para promover una mayor investigación en LLMs multilingües y sus mecanismos de funcionamiento, lanzamos tanto los modelos base como los ajustados a instrucciones de FuxiTranyu junto con 58 puntos de control de preentrenamiento en HuggingFace y Github.

UniT: Representación Táctil Unificada para el Aprendizaje de Robots
UniT: Unified Tactile Representation for Robot Learning

Aug 12

ByZhengtong Xu, Raghava Uppuluri, Xinwei Zhang, Cael Fitch, Philip Glen Crandall, Wan Shou, Dongyi Wang, Yu She

UniT es un enfoque novedoso para el aprendizaje de representaciones táctiles, utilizando VQVAE para aprender un espacio latente compacto y servir como la representación táctil. Utiliza imágenes táctiles obtenidas de un único objeto simple para entrenar la representación con transferibilidad y generalizabilidad. Esta representación táctil puede transferirse de manera "zero-shot" a varias tareas posteriores, incluyendo tareas de percepción y aprendizaje de políticas de manipulación. Nuestro análisis comparativo en una tarea de estimación de postura 3D en la mano muestra que UniT supera a los métodos existentes de aprendizaje de representaciones visuales y táctiles. Además, la efectividad de UniT en el aprendizaje de políticas se demuestra en tres tareas del mundo real que involucran objetos manipulados diversos e interacciones complejas entre robots, objetos y el entorno. A través de experimentación extensiva, se muestra que UniT es un método simple de entrenar, listo para usar, pero ampliamente efectivo para el aprendizaje de representaciones táctiles. Para más detalles, por favor consulte nuestro repositorio de código abierto en https://github.com/ZhengtongXu/UniT y el sitio web del proyecto en https://zhengtongxu.github.io/unifiedtactile.github.io/.

MovieSum: Un conjunto de datos de resumen abtractivo para guiones de películas
MovieSum: An Abstractive Summarization Dataset for Movie Screenplays

Aug 12

ByRohit Saxena, Frank Keller

La síntesis de guiones de películas es un desafío, ya que requiere comprender contextos de entrada extensos y varios elementos únicos de las películas. Los grandes modelos de lenguaje han demostrado avances significativos en la síntesis de documentos, pero a menudo tienen dificultades para procesar contextos de entrada largos. Además, mientras que las transcripciones de televisión han recibido atención en estudios recientes, la síntesis de guiones de películas sigue siendo poco explorada. Para estimular la investigación en esta área, presentamos un nuevo conjunto de datos, MovieSum, para la síntesis abtractiva de guiones de películas. Este conjunto de datos consta de 2200 guiones de películas acompañados de sus resúmenes de trama de Wikipedia. Formateamos manualmente los guiones de películas para representar sus elementos estructurales. En comparación con los conjuntos de datos existentes, MovieSum posee varias características distintivas: (1) Incluye guiones de películas, que son más largos que los guiones de episodios de televisión. (2) Es el doble de tamaño que los conjuntos de datos anteriores de guiones de películas. (3) Proporciona metadatos con identificadores de IMDb para facilitar el acceso a conocimientos externos adicionales. También mostramos los resultados de los grandes modelos de lenguaje recientemente lanzados aplicados a la síntesis en nuestro conjunto de datos para proporcionar una línea base detallada.

Diseño de Proteínas Utilizando Modelos de Lenguaje Grandes: Mejoras y Análisis Comparativos
Design Proteins Using Large Language Models: Enhancements and Comparative Analyses

Aug 12

ByKamyar Zeinalipour, Neda Jamshidi, Monica Bianchini, Marco Maggini, Marco Gori

Los LLM pre-entrenados han demostrado capacidades sustanciales en una variedad de tareas convencionales de procesamiento del lenguaje natural (NLP), como resumen y reconocimiento de entidades. En este artículo, exploramos la aplicación de LLM en la generación de secuencias de proteínas de alta calidad. Específicamente, adoptamos un conjunto de LLM pre-entrenados, incluyendo Mistral-7B1, Llama-2-7B2, Llama-3-8B3 y gemma-7B4, para producir secuencias de proteínas válidas. Todos estos modelos están disponibles públicamente. A diferencia de trabajos anteriores en este campo, nuestro enfoque utiliza un conjunto de datos relativamente pequeño que consta de 42,000 secuencias de proteínas humanas distintas. Retraining estos modelos para procesar datos relacionados con proteínas, garantizando la generación de estructuras de proteínas biológicamente factibles. Nuestros hallazgos demuestran que incluso con datos limitados, los modelos adaptados muestran una eficiencia comparable a modelos establecidos centrados en proteínas como las variedades de ProGen, ProtGPT2 y ProLLaMA, que fueron entrenados en millones de secuencias de proteínas. Para validar y cuantificar el rendimiento de nuestros modelos, realizamos análisis comparativos utilizando métricas estándar como pLDDT, RMSD, TM-score y REU. Además, nos comprometemos a hacer públicamente disponibles las versiones entrenadas de los cuatro modelos, fomentando una mayor transparencia y colaboración en el campo de la biología computacional.

TacSL: Una biblioteca para la simulación y el aprendizaje de sensores visuotáctiles
TacSL: A Library for Visuotactile Sensor Simulation and Learning

Aug 12

ByIretiayo Akinola, Jie Xu, Jan Carius, Dieter Fox, Yashraj Narang

Tanto para humanos como para robots, el sentido del tacto, conocido como percepción táctil, es fundamental para realizar tareas de manipulación ricas en contacto. Tres desafíos clave en la percepción táctil robótica son 1) interpretar las señales del sensor, 2) generar señales del sensor en escenarios novedosos, y 3) aprender políticas basadas en el sensor. Para los sensores visuotáctiles, la interpretación ha sido facilitada por su estrecha relación con los sensores visuales (por ejemplo, cámaras RGB). Sin embargo, la generación sigue siendo difícil, ya que los sensores visuotáctiles suelen implicar contacto, deformación, iluminación e imágenes, todos los cuales son costosos de simular; a su vez, el aprendizaje de políticas ha sido desafiante, ya que la simulación no se puede aprovechar para la recopilación de datos a gran escala. Presentamos TacSL (taxel), una biblioteca para la simulación y aprendizaje de sensores visuotáctiles basada en GPU. TacSL se puede utilizar para simular imágenes visuotáctiles y extraer distribuciones de fuerza de contacto más de 200 veces más rápido que el estado del arte anterior, todo dentro del simulador Isaac Gym ampliamente utilizado. Además, TacSL proporciona un conjunto de herramientas de aprendizaje que contiene múltiples modelos de sensores, entornos de entrenamiento intensivos en contacto y algoritmos en línea/fuera de línea que pueden facilitar el aprendizaje de políticas para aplicaciones de simulación a la realidad. En el lado algorítmico, presentamos un nuevo algoritmo de aprendizaje por refuerzo en línea llamado destilación asimétrica actor-critic (\sysName), diseñado para aprender políticas basadas en el tacto de manera efectiva y eficiente en simulación que puedan transferirse al mundo real. Finalmente, demostramos la utilidad de nuestra biblioteca y algoritmos evaluando los beneficios de la destilación y la percepción multimodal para tareas de manipulación ricas en contacto, y lo más crítico, realizando la transferencia de simulación a realidad. Se pueden encontrar videos y resultados complementarios en https://iakinola23.github.io/tacsl/.

ZePo: Estilización de retratos sin entrenamiento con muestreo más rápido
ZePo: Zero-Shot Portrait Stylization with Faster Sampling

Aug 10

ByJin Liu, Huaibo Huang, Jie Cao, Ran He

Los modelos de generación de texto a imagen basados en difusión han avanzado significativamente en el campo de la síntesis de contenido artístico. Sin embargo, los métodos actuales de estilización de retratos generalmente requieren o bien un ajuste fino del modelo basado en ejemplos o el empleo de la Inversión DDIM para revertir las imágenes al espacio de ruido, ambos procesos que ralentizan sustancialmente la generación de imágenes. Para superar estas limitaciones, este artículo presenta un marco de estilización de retratos sin inversión basado en modelos de difusión que logra la fusión de rasgos de contenido y estilo en tan solo cuatro pasos de muestreo. Observamos que los Modelos de Consistencia Latente que emplean destilación de consistencia pueden extraer de manera efectiva Rasgos de Consistencia representativos de imágenes ruidosas. Para combinar los Rasgos de Consistencia extraídos de imágenes de contenido y estilo, introducimos una técnica de Control de Atención de Mejora de Estilo que fusiona meticulosamente los rasgos de contenido y estilo dentro del espacio de atención de la imagen objetivo. Además, proponemos una estrategia de fusión de rasgos para amalgamar rasgos redundantes en los Rasgos de Consistencia, reduciendo así la carga computacional del control de atención. Experimentos extensos han validado la efectividad de nuestro marco propuesto en mejorar la eficiencia y fidelidad de la estilización. El código está disponible en https://github.com/liujin112/ZePo.

Adaptación de la Anonimización de Hablantes Basada en la Desentrelazamiento General para una Preservación Mejorada de las Emociones.
Adapting General Disentanglement-Based Speaker Anonymization for Enhanced Emotion Preservation

Aug 12

ByXiaoxiao Miao, Yuxiang Zhang, Xin Wang, Natalia Tomashenko, Donny Cheng Lock Soh, Ian Mcloughlin

Un sistema general de anonimización de locutores basado en el desentrelazado típicamente separa el habla en características de contenido, locutor y prosodia utilizando codificadores individuales. Este documento explora cómo adaptar dicho sistema cuando se necesita preservar en mayor medida un nuevo atributo del habla, por ejemplo, la emoción. Si bien los sistemas existentes son buenos para anonimizar las incrustaciones de locutores, no están diseñados para preservar la emoción. Se examinan dos estrategias para esto. En primer lugar, mostramos que integrar incrustaciones de emoción de un codificador de emoción preentrenado puede ayudar a preservar las señales emocionales, aunque este enfoque compromete ligeramente la protección de la privacidad. Como alternativa, proponemos una estrategia de compensación emocional como un paso de postprocesamiento aplicado a las incrustaciones de locutores anonimizados. Esto oculta la identidad del locutor original y reintroduce los rasgos emocionales perdidos durante la anonimización de las incrustaciones de locutores. Específicamente, modelamos el atributo de emoción utilizando máquinas de vectores de soporte para aprender límites separados para cada emoción. Durante la inferencia, la incrustación de locutor original se procesa de dos maneras: uno, mediante un indicador de emoción para predecir la emoción y seleccionar con precisión la SVM coincidente con la emoción; y dos, mediante un anonimizador de locutores para ocultar las características del locutor. La incrustación de locutor anonimizado se modifica luego a lo largo del límite SVM correspondiente hacia una dirección emocional mejorada para preservar las señales emocionales. Se espera que las estrategias propuestas también sean útiles para adaptar un sistema general de anonimización de locutores basado en el desentrelazado para preservar otros atributos paralingüísticos objetivo, con potencial para una variedad de tareas posteriores.

Figura 3
Imagen 3

Aug 13