Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos un enfoque para modelar un previo en el espacio de imagen sobre la dinámica de escenas. Nuestro previo se aprende a partir de una colección de trayectorias de movimiento extraídas de secuencias de video reales que contienen movimientos naturales y oscilantes, como árboles, flores, velas y ropa moviéndose con el viento. Dada una sola imagen, nuestro modelo entrenado utiliza un proceso de muestreo de difusión coordinado en frecuencia para predecir una representación de movimiento a largo plazo por píxel en el dominio de Fourier, a la que llamamos textura de movimiento estocástico neuronal. Esta representación puede convertirse en trayectorias de movimiento densas que abarcan un video completo. Junto con un módulo de renderizado basado en imágenes, estas trayectorias pueden utilizarse para diversas aplicaciones posteriores, como convertir imágenes estáticas en videos dinámicos que se repiten sin interrupciones, o permitir que los usuarios interactúen de manera realista con objetos en fotografías reales.
Los recientes avances en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) permiten a investigadores y desarrolladores construir agentes de lenguaje autónomos que pueden resolver automáticamente diversas tareas e interactuar con entornos, humanos y otros agentes utilizando interfaces de lenguaje natural. Consideramos a los agentes de lenguaje como una dirección prometedora hacia la inteligencia artificial general y presentamos Agents, una biblioteca de código abierto con el objetivo de hacer accesibles estos avances a una audiencia más amplia y no especializada. Agents ha sido cuidadosamente diseñada para soportar características importantes como planificación, memoria, uso de herramientas, comunicación multiagente y control simbólico detallado. Agents es fácil de usar, ya que permite a los no especialistas construir, personalizar, probar, ajustar y desplegar agentes de lenguaje autónomos de última generación sin necesidad de mucha codificación. La biblioteca también es amigable para la investigación, ya que su diseño modular la hace fácilmente extensible para los investigadores. Agents está disponible en https://github.com/aiwaves-cn/agents.
La superresolución de audio es una tarea fundamental que predice componentes de alta frecuencia para audio de baja resolución, mejorando la calidad del audio en aplicaciones digitales. Los métodos anteriores presentan limitaciones, como el alcance restringido de tipos de audio (por ejemplo, música, voz) y configuraciones específicas de ancho de banda que pueden manejar (por ejemplo, de 4 kHz a 8 kHz). En este artículo, presentamos un modelo generativo basado en difusión, AudioSR, capaz de realizar superresolución de audio robusta en diversos tipos de audio, incluyendo efectos de sonido, música y voz. Específicamente, AudioSR puede aumentar la resolución de cualquier señal de audio de entrada dentro del rango de ancho de banda de 2 kHz a 16 kHz a una señal de audio de alta resolución con un ancho de banda de 24 kHz y una tasa de muestreo de 48 kHz. Una evaluación objetiva exhaustiva en varios puntos de referencia de superresolución de audio demuestra los sólidos resultados alcanzados por el modelo propuesto. Además, nuestra evaluación subjetiva muestra que AudioSR puede funcionar como un módulo plug-and-play para mejorar la calidad de generación de una amplia gama de modelos generativos de audio, incluyendo AudioLDM, Fastspeech2 y MusicGen. Nuestro código y demostración están disponibles en https://audioldm.github.io/audiosr.
Revisar grandes volúmenes de datos textuales y resumir información clave impone una carga significativa en la gestión del tiempo de los profesionales clínicos. Aunque los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado un enorme potencial en tareas de procesamiento del lenguaje natural (PLN), su eficacia en diversas tareas de resumen clínico aún no ha sido examinada rigurosamente. En este trabajo, aplicamos métodos de adaptación de dominio en ocho LLMs, abarcando seis conjuntos de datos y cuatro tareas de resumen distintas: informes radiológicos, preguntas de pacientes, notas de evolución y diálogos médico-paciente. Nuestra evaluación cuantitativa exhaustiva revela compensaciones entre los modelos y los métodos de adaptación, además de casos en los que los avances recientes en LLMs no necesariamente conducen a mejores resultados. Además, en un estudio de lectura clínica con seis médicos, demostramos que los resúmenes generados por el LLM mejor adaptado son preferibles a los resúmenes humanos en términos de completitud y corrección. Nuestro análisis cualitativo posterior describe desafíos comunes enfrentados tanto por los LLMs como por los expertos humanos. Por último, correlacionamos métricas cuantitativas tradicionales de PLN con las puntuaciones del estudio de lectura para mejorar nuestra comprensión de cómo estas métricas se alinean con las preferencias de los médicos. Nuestra investigación marca la primera evidencia de que los LLMs superan a los expertos humanos en la tarea de resumen de textos clínicos en múltiples tareas. Esto sugiere que la integración de LLMs en los flujos de trabajo clínicos podría aliviar la carga documental, permitiendo a los profesionales clínicos centrarse más en la atención personalizada al paciente y otros aspectos humanos irremplazables de la medicina.
El matteo de video tiene amplias aplicaciones, desde agregar efectos interesantes a películas capturadas de manera casual hasta asistir a profesionales de producción de video. El matteo con efectos asociados como sombras y reflejos también ha atraído una creciente actividad de investigación, y se han propuesto métodos como Omnimatte para separar objetos dinámicos de interés en primer plano en sus propias capas. Sin embargo, trabajos anteriores representan los fondos de video como capas de imágenes 2D, lo que limita su capacidad para expresar escenas más complejas, dificultando así su aplicación a videos del mundo real. En este artículo, proponemos un nuevo método de matteo de video, OmnimatteRF, que combina capas dinámicas 2D en primer plano y un modelo de fondo 3D. Las capas 2D preservan los detalles de los sujetos, mientras que el fondo 3D reconstruye de manera robusta las escenas en videos del mundo real. Experimentos extensos demuestran que nuestro método reconstruye escenas con mejor calidad en diversos videos.
El aprendizaje en contexto (ICL, por sus siglas en inglés), es decir, mostrar a los modelos de lenguaje grandes (LLMs) solo unas pocas demostraciones específicas de la tarea, ha generado mejoras en tareas posteriores sin necesidad de ajustes específicos. Sin embargo, los LLMs son sensibles a la elección de los prompts, por lo que una pregunta crucial de investigación es cómo seleccionar buenas demostraciones para el ICL. Una estrategia efectiva es aprovechar la similitud semántica entre las demostraciones de ICL y las entradas de prueba utilizando un recuperador de texto, aunque esto es subóptimo ya que no considera el conocimiento existente del LLM sobre esa tarea. A partir de trabajos previos (Min et al., 2022), ya sabemos que las etiquetas asociadas con las demostraciones sesgan las predicciones del modelo. Esto nos lleva a nuestra hipótesis: considerar el conocimiento existente del LLM sobre la tarea, especialmente en relación con el espacio de etiquetas de salida, podría ayudar a una mejor estrategia de selección de demostraciones. A través de experimentación extensa en tres tareas de clasificación de texto, encontramos que es beneficioso no solo elegir demostraciones de ICL semánticamente similares, sino también aquellas que ayudan a resolver la ambigüedad inherente de las etiquetas alrededor del ejemplo de prueba. Curiosamente, descubrimos que incluir demostraciones que el LLM clasificó incorrectamente previamente y que también se encuentran en el límite de decisión del ejemplo de prueba, aporta la mayor mejora en el rendimiento.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado un rendimiento impresionante en tareas de Procesamiento del Lenguaje Natural (NLP), como Respuesta a Preguntas, Resumen y Clasificación. El uso de LLMs como evaluadores, capaces de clasificar o puntuar la salida de otros modelos (generalmente LLMs), ha ganado popularidad debido a las limitaciones de las técnicas de evaluación actuales, incluyendo la falta de benchmarks adecuados, métricas, costos y acceso a anotadores humanos. Aunque los LLMs pueden manejar aproximadamente 100 idiomas, la mayoría de los idiomas más allá de los 20 principales carecen de una evaluación sistemática en diversas tareas, métricas y benchmarks. Esto crea una necesidad urgente de escalar la evaluación multilingüe para garantizar una comprensión precisa del rendimiento de los LLMs en diversos idiomas. Los evaluadores basados en LLMs parecen ser la solución perfecta a este problema, ya que no requieren anotadores humanos, referencias creadas por humanos o benchmarks, y teóricamente pueden usarse para evaluar cualquier idioma cubierto por el LLM. En este artículo, investigamos si los evaluadores basados en LLMs pueden ayudar a escalar la evaluación multilingüe. Específicamente, calibramos la evaluación basada en LLMs con 20k juicios humanos de cinco métricas en tres tareas de generación de texto en ocho idiomas. Nuestros hallazgos indican que los evaluadores basados en LLMs pueden mostrar un sesgo hacia puntuaciones más altas y deben usarse con precaución, siempre calibrados con un conjunto de datos de juicios de hablantes nativos, particularmente en idiomas de bajos recursos y con escrituras no latinas.