Artículos de investigación en IA seleccionados diariamente con traducciones
Aunque la generación de audio comparte similitudes entre diferentes tipos de audio, como el habla, la música y los efectos de sonido, diseñar modelos para cada tipo requiere una consideración cuidadosa de objetivos y sesgos específicos que pueden diferir significativamente de los de otros tipos. Para acercarnos a una perspectiva unificada de la generación de audio, este artículo propone un marco que utiliza el mismo método de aprendizaje para la generación de habla, música y efectos de sonido. Nuestro marco introduce una representación general del audio, llamada lenguaje de audio (LOA, por sus siglas en inglés). Cualquier audio puede traducirse a LOA basándose en AudioMAE, un modelo de aprendizaje de representaciones preentrenado de manera autosupervisada. En el proceso de generación, traducimos cualquier modalidad a LOA utilizando un modelo GPT-2 y realizamos un aprendizaje de generación de audio autosupervisado con un modelo de difusión latente condicionado por LOA. El marco propuesto aporta naturalmente ventajas como capacidades de aprendizaje en contexto y la reutilización de los modelos preentrenados autosupervisados AudioMAE y de difusión latente. Los experimentos en los principales puntos de referencia de texto-a-audio, texto-a-música y texto-a-habla demuestran un rendimiento nuevo y de vanguardia o competitivo en comparación con enfoques anteriores. Nuestra demostración y código están disponibles en https://audioldm.github.io/audioldm2.
Garantizar la alineación, que se refiere a hacer que los modelos se comporten de acuerdo con las intenciones humanas [1,2], se ha convertido en una tarea crítica antes de implementar modelos de lenguaje grandes (LLMs, por sus siglas en inglés) en aplicaciones del mundo real. Por ejemplo, OpenAI dedicó seis meses a alinear iterativamente GPT-4 antes de su lanzamiento [3]. Sin embargo, un desafío importante que enfrentan los profesionales es la falta de orientación clara sobre cómo evaluar si las salidas de los LLMs están alineadas con las normas sociales, los valores y las regulaciones. Este obstáculo dificulta la iteración sistemática y la implementación de los LLMs. Para abordar este problema, este artículo presenta una encuesta exhaustiva de las dimensiones clave que son cruciales considerar al evaluar la confiabilidad de los LLMs. La encuesta cubre siete categorías principales de confiabilidad en los LLMs: fiabilidad, seguridad, equidad, resistencia al mal uso, explicabilidad y razonamiento, adherencia a las normas sociales y robustez. Cada categoría principal se divide a su vez en varias subcategorías, lo que resulta en un total de 29 subcategorías. Además, se selecciona un subconjunto de 8 subcategorías para una investigación más profunda, donde se diseñan y llevan a cabo estudios de medición en varios LLMs ampliamente utilizados. Los resultados de las mediciones indican que, en general, los modelos más alineados tienden a desempeñarse mejor en términos de confiabilidad general. Sin embargo, la efectividad de la alineación varía entre las diferentes categorías de confiabilidad consideradas. Esto resalta la importancia de realizar análisis más detallados, pruebas y mejoras continuas en la alineación de los LLMs. Al arrojar luz sobre estas dimensiones clave de la confiabilidad de los LLMs, este artículo tiene como objetivo proporcionar valiosas ideas y orientación a los profesionales en el campo. Comprender y abordar estas preocupaciones será crucial para lograr una implementación confiable y éticamente sólida de los LLMs en diversas aplicaciones.
El seguimiento y la persecución de objetos de interés es crucial para diversos casos de uso en robótica, que van desde la automatización industrial hasta la logística y el almacenamiento, pasando por la atención médica y la seguridad. En este artículo, presentamos un sistema robótico para detectar, rastrear y seguir cualquier objeto en tiempo real. Nuestro enfoque, denominado "follow anything" (FAn), es un modelo de vocabulario abierto y multimodal: no está limitado a conceptos vistos durante el entrenamiento y puede aplicarse a clases novedosas en tiempo de inferencia utilizando texto, imágenes o consultas por clic. Aprovechando descriptores visuales ricos de modelos preentrenados a gran escala (modelos base), FAn puede detectar y segmentar objetos al emparejar consultas multimodales (texto, imágenes, clics) con una secuencia de imágenes de entrada. Estos objetos detectados y segmentados se rastrean a través de los fotogramas de la imagen, teniendo en cuenta la oclusión y la reaparición de objetos. Demostramos FAn en un sistema robótico del mundo real (un vehículo aéreo micro) e informamos sobre su capacidad para seguir sin problemas los objetos de interés en un bucle de control en tiempo real. FAn puede implementarse en una computadora portátil con una tarjeta gráfica ligera (6-8 GB), logrando un rendimiento de 6-20 fotogramas por segundo. Para facilitar la adopción rápida, la implementación y la extensibilidad, hemos liberado todo nuestro código en la página web del proyecto en https://github.com/alaamaalouf/FollowAnything. También animamos al lector a ver nuestro video explicativo de 5 minutos en este enlace: https://www.youtube.com/watch?v=6Mgt3EPytrw.
Este trabajo aborda la optimización de mallas basada en gradientes, donde optimizamos iterativamente una malla de superficie 3D representándola como la isosuperficie de un campo escalar, un paradigma cada vez más común en aplicaciones como la fotogrametría, el modelado generativo y la física inversa. Las implementaciones existentes adaptan algoritmos clásicos de extracción de isosuperficies, como Marching Cubes o Dual Contouring; estas técnicas fueron diseñadas para extraer mallas a partir de campos fijos y conocidos, y en el contexto de optimización carecen de los grados de libertad necesarios para representar mallas de alta calidad que preserven características, o sufren de inestabilidades numéricas. Introducimos FlexiCubes, una representación de isosuperficie diseñada específicamente para optimizar una malla desconocida con respecto a objetivos geométricos, visuales o incluso físicos. Nuestra principal idea es incorporar parámetros adicionales cuidadosamente seleccionados en la representación, que permiten ajustes locales flexibles en la geometría y conectividad de la malla extraída. Estos parámetros se actualizan junto con el campo escalar subyacente mediante diferenciación automática al optimizar para una tarea específica. Basamos nuestro esquema de extracción en Dual Marching Cubes para mejorar las propiedades topológicas y presentamos extensiones para generar opcionalmente mallas tetraédricas y jerárquicamente adaptativas. Experimentos exhaustivos validan FlexiCubes tanto en benchmarks sintéticos como en aplicaciones del mundo real, demostrando que ofrece mejoras significativas en la calidad de la malla y la fidelidad geométrica.
Los alineamientos múltiples de secuencias (MSA, por sus siglas en inglés) de proteínas codifican información biológica rica y han sido herramientas fundamentales en métodos bioinformáticos para tareas como el diseño de proteínas y la predicción de estructuras proteicas durante décadas. Recientes avances, como AlphaFold2, que utiliza transformadores para atender directamente grandes cantidades de MSA en bruto, han reafirmado su importancia. Sin embargo, la generación de MSA es altamente intensiva en términos computacionales, y no se han puesto a disposición de la comunidad científica conjuntos de datos comparables a los utilizados para entrenar AlphaFold2, lo que ha obstaculizado el progreso en el aprendizaje automático aplicado a proteínas. Para remediar este problema, presentamos OpenProteinSet, un corpus de código abierto que contiene más de 16 millones de MSA, homólogos estructurales asociados del Protein Data Bank y predicciones de estructuras proteicas de AlphaFold2. Anteriormente hemos demostrado la utilidad de OpenProteinSet al reentrenar con éxito AlphaFold2 utilizando este conjunto. Esperamos que OpenProteinSet sea ampliamente útil como datos de entrenamiento y validación para 1) diversas tareas centradas en la estructura, función y diseño de proteínas, y 2) investigación a gran escala en aprendizaje automático multimodal.
El programa Alexa Prize ha permitido que numerosos estudiantes universitarios exploren, experimenten y muestren su talento en la creación de agentes conversacionales a través de desafíos como el SocialBot Grand Challenge y el TaskBot Challenge. A medida que los agentes conversacionales aparecen cada vez más en contextos multimodales y corporizados, es importante explorar las posibilidades de la interacción conversacional aumentada con visión por computadora y encarnación física. Este artículo describe el SimBot Challenge, un nuevo desafío en el que equipos universitarios compiten para construir asistentes robóticos que completen tareas en un entorno físico simulado. Este artículo ofrece una visión general del SimBot Challenge, que incluyó fases de desafío tanto en línea como fuera de línea. Describimos la infraestructura y el apoyo proporcionado a los equipos, incluyendo Alexa Arena, el entorno simulado y el kit de herramientas de aprendizaje automático proporcionado a los equipos para acelerar la construcción de sus modelos de visión y lenguaje. Resumimos los enfoques que los equipos participantes adoptaron para superar los desafíos de investigación y extraemos lecciones clave aprendidas. Finalmente, proporcionamos un análisis del desempeño de los SimBots competidores durante la competición.
Las ecuaciones diferenciales parciales (EDP) dependientes del tiempo son omnipresentes en la ciencia y la ingeniería. Recientemente, principalmente debido al alto costo computacional de las técnicas tradicionales de solución, los sustitutos basados en redes neuronales profundas han ganado un interés creciente. La utilidad práctica de estos solucionadores de EDP neuronales depende de su capacidad para proporcionar predicciones precisas y estables en horizontes temporales largos, lo cual es un problema notoriamente difícil. En este trabajo, presentamos un análisis a gran escala de las estrategias comunes de despliegue temporal, identificando el descuido de la información de frecuencia espacial no dominante, a menudo asociada con altas frecuencias en las soluciones de EDP, como la principal limitación que afecta el rendimiento estable y preciso del despliegue. Basándonos en estas observaciones, nos inspiramos en avances recientes en modelos de difusión para introducir PDE-Refiner; una nueva clase de modelos que permite un modelado más preciso de todos los componentes de frecuencia mediante un proceso de refinamiento de múltiples pasos. Validamos PDE-Refiner en puntos de referencia desafiantes de dinámica de fluidos compleja, demostrando despliegues estables y precisos que superan consistentemente a los modelos de vanguardia, incluyendo arquitecturas neuronales, numéricas e híbridas neuronales-numéricas. Además, demostramos que PDE-Refiner mejora significativamente la eficiencia de los datos, ya que el objetivo de eliminación de ruido induce implícitamente una nueva forma de aumento de datos espectral. Finalmente, la conexión de PDE-Refiner con los modelos de difusión permite una evaluación precisa y eficiente de la incertidumbre predictiva del modelo, lo que nos permite estimar cuándo el sustituto se vuelve impreciso.