Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos el campo de deformación de contenido CoDeF como un nuevo tipo de representación de video, que consiste en un campo de contenido canónico que agrega los contenidos estáticos de todo el video y un campo de deformación temporal que registra las transformaciones desde la imagen canónica (es decir, renderizada a partir del campo de contenido canónico) hasta cada fotograma individual a lo largo del eje temporal. Dado un video objetivo, estos dos campos se optimizan conjuntamente para reconstruirlo mediante una canalización de renderizado cuidadosamente diseñada. Introducimos deliberadamente algunas regularizaciones en el proceso de optimización, incentivando que el campo de contenido canónico herede semánticas (por ejemplo, la forma del objeto) del video. Con este diseño, CoDeF admite de manera natural la elevación de algoritmos de imagen para el procesamiento de videos, en el sentido de que se puede aplicar un algoritmo de imagen a la imagen canónica y propagar sin esfuerzo los resultados a todo el video con la ayuda del campo de deformación temporal. Experimentalmente demostramos que CoDeF es capaz de elevar la traducción de imagen a imagen a la traducción de video a video, y elevar la detección de puntos clave al seguimiento de puntos clave sin ningún entrenamiento. Más importante aún, gracias a nuestra estrategia de elevación que despliega los algoritmos en una sola imagen, logramos una consistencia inter-fotograma superior en los videos procesados en comparación con los enfoques existentes de traducción de video a video, e incluso logramos rastrear objetos no rígidos como el agua y el smog. La página del proyecto se puede encontrar en https://qiuyu96.github.io/CoDeF/.
Los recientes avances en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) como GPT-4 y PaLM-2 han aportado avances significativos en la resolución de problemas de razonamiento matemático. En particular, la última versión de GPT-4 de OpenAI, conocida como GPT-4 Code Interpreter, muestra un rendimiento notable en conjuntos de datos matemáticos desafiantes. En este artículo, exploramos el efecto del código en la mejora de la capacidad de razonamiento de los LLMs mediante la introducción de diferentes restricciones en la Frecuencia de Uso de Código de GPT-4 Code Interpreter. Descubrimos que su éxito se debe en gran medida a sus potentes habilidades para generar y ejecutar código, evaluar la salida de la ejecución del código y corregir su solución cuando recibe salidas irrazonables. Basándonos en esta idea, proponemos un método novedoso y efectivo de *prompting*, la autoverificación explícita basada en código (CSV, por sus siglas en inglés), para potenciar aún más el potencial de razonamiento matemático de GPT-4 Code Interpreter. Este método emplea un *prompt* de cero disparos en GPT-4 Code Interpreter para animarlo a usar código para autoverificar sus respuestas. En los casos en que el estado de verificación se registra como "Falso", el modelo corregirá automáticamente su solución, de manera análoga a nuestro enfoque de rectificar errores durante un examen de matemáticas. Además, reconocemos que los estados del resultado de la verificación indican la confianza de una solución, lo que puede mejorar la efectividad de la votación por mayoría. Con GPT-4 Code Interpreter y CSV, logramos una precisión impresionante de cero disparos en el conjunto de datos MATH (del 53.9% al 84.3%).
En este artículo, investigamos la capacidad de aprendizaje en contexto de modelos de lenguaje de codificador-decodificador aumentados con recuperación. Primero realizamos un análisis exhaustivo del modelo ATLAS, el estado del arte, e identificamos sus limitaciones en el aprendizaje en contexto, principalmente debido a una falta de correspondencia entre el preentrenamiento y las pruebas, así como a una longitud de contexto restringida. Para abordar estos problemas, proponemos RAVEN, un modelo que combina el modelado de lenguaje enmascarado aumentado con recuperación y el modelado de lenguaje con prefijos. Además, introducimos el Aprendizaje de Fusión en Contexto para mejorar el rendimiento en pocos ejemplos, permitiendo que el modelo aproveche más ejemplos en contexto sin requerir entrenamiento adicional o modificaciones del modelo. A través de experimentos extensos, demostramos que RAVEN supera significativamente a ATLAS y logra resultados comparables a los modelos de lenguaje más avanzados en ciertos escenarios, a pesar de tener sustancialmente menos parámetros. Nuestro trabajo subraya el potencial de los modelos de lenguaje de codificador-decodificador aumentados con recuperación para el aprendizaje en contexto y fomenta una mayor investigación en esta dirección.
La capacidad de aprender del contexto con conceptos novedosos y ofrecer respuestas adecuadas es esencial en las conversaciones humanas. A pesar de que los modelos de lenguaje multimodal de gran escala (MLLMs) y los modelos de lenguaje de gran escala (LLMs) actuales están entrenados en conjuntos de datos de gran magnitud, reconocer imágenes no vistas o comprender conceptos novedosos de manera libre de entrenamiento sigue siendo un desafío. El aprendizaje en contexto (ICL, por sus siglas en inglés) explora el aprendizaje de pocos ejemplos sin entrenamiento, donde se fomenta que los modelos "aprendan a aprender" a partir de tareas limitadas y generalicen a tareas no vistas. En este trabajo, proponemos el aprendizaje de contexto enlazado (LCL, por sus siglas en inglés), que enfatiza el "razonamiento de causa y efecto" para potenciar las capacidades de aprendizaje de los MLLMs. LCL va más allá del ICL tradicional al fortalecer explícitamente la relación causal entre el conjunto de soporte y el conjunto de consulta. Al proporcionar demostraciones con enlaces causales, LCL guía al modelo para discernir no solo la analogía, sino también las asociaciones causales subyacentes entre los puntos de datos, lo que permite a los MLLMs reconocer imágenes no vistas y comprender conceptos novedosos de manera más efectiva. Para facilitar la evaluación de este enfoque novedoso, presentamos el conjunto de datos ISEKAI, que consta exclusivamente de pares de imagen-etiqueta generados no vistos diseñados para el aprendizaje de contexto enlazado. Experimentos extensos muestran que nuestro LCL-MLLM exhibe fuertes capacidades de aprendizaje de contexto enlazado para conceptos novedosos en comparación con los MLLMs convencionales. El código y los datos se publicarán en https://github.com/isekai-portal/Link-Context-Learning.
Este artículo aborda el desafío de crear avatares neurales reluminosos y animables a partir de videos de vistas escasas (o incluso monoculares) de humanos dinámicos bajo iluminación desconocida. En comparación con los entornos de estudio, este escenario es más práctico y accesible, pero plantea un problema mal definido extremadamente desafiante. Los métodos anteriores de reconstrucción neural de humanos son capaces de reconstruir avatares animables a partir de vistas escasas utilizando Campos de Distancia con Signo (SDF) deformados, pero no pueden recuperar parámetros de material para la reluminación. Si bien los métodos basados en renderizado inverso diferenciable han tenido éxito en la recuperación de materiales de objetos estáticos, no es sencillo extenderlos a humanos dinámicos, ya que es computacionalmente intensivo calcular la intersección píxel-superficie y la visibilidad de la luz en SDFs deformados para el renderizado inverso. Para resolver este desafío, proponemos un algoritmo de Consulta Jerárquica de Distancia (HDQ) para aproximar las distancias en el espacio mundial bajo poses humanas arbitrarias. Específicamente, estimamos distancias gruesas basadas en un modelo humano paramétrico y calculamos distancias finas aprovechando la invariancia de deformación local de los SDF. Basándonos en el algoritmo HDQ, utilizamos el trazado de esferas para estimar eficientemente la intersección de la superficie y la visibilidad de la luz. Esto nos permite desarrollar el primer sistema para recuperar avatares neurales animables y reluminosos a partir de entradas de vistas escasas (o monoculares). Los experimentos demuestran que nuestro enfoque es capaz de producir resultados superiores en comparación con los métodos más avanzados. Nuestro código será liberado para garantizar la reproducibilidad.
Trabajos recientes en aprendizaje por refuerzo profundo (DRL, por sus siglas en inglés) han señalado que la información algorítmica sobre políticas efectivas puede extraerse de datos offline que carecen de información explícita sobre las acciones ejecutadas. Por ejemplo, videos de humanos o robots pueden transmitir mucha información implícita sobre secuencias de acciones que generan recompensas, pero una máquina de DRL que desee beneficiarse de observar dichos videos primero debe aprender por sí misma a identificar y reconocer estados/acciones/recompensas relevantes. Sin depender de anotaciones de referencia, nuestro nuevo método, llamado Identificador de Estados Profundos (Deep State Identifier), aprende a predecir retornos a partir de episodios codificados como videos. Luego, utiliza un tipo de análisis de sensibilidad basado en máscaras para extraer/identificar estados críticos importantes. Experimentos extensivos demuestran el potencial de nuestro método para comprender y mejorar el comportamiento de los agentes. El código fuente y los conjuntos de datos generados están disponibles en https://github.com/AI-Initiative-KAUST/VideoRLCS.
La inyección de texto para el reconocimiento automático del habla (ASR, por sus siglas en inglés), en la que se utilizan datos de solo texto no emparejados para complementar los datos de audio-texto emparejados, ha mostrado mejoras prometedoras en la tasa de error de palabras. Este estudio examina el uso de la inyección de texto para tareas auxiliares, que son las tareas no relacionadas con ASR que a menudo realiza un modelo de extremo a extremo (E2E). En este trabajo, utilizamos el entrenamiento conjunto de extremo a extremo y del modelo de lenguaje interno (JEIT, por sus siglas en inglés) como nuestro algoritmo de inyección de texto para entrenar un modelo de ASR que realiza dos tareas auxiliares. La primera es la capitalización, que es una tarea de desnormalización. La segunda es la predicción de turnos de conversación, que intenta identificar si un usuario ha completado su turno en una interacción con un asistente digital. Mostramos resultados que demuestran que nuestro método de inyección de texto mejora el rendimiento de la capitalización para datos de cola larga y aumenta la recuperación en la detección de turnos de conversación.