Artículos de investigación en IA seleccionados diariamente con traducciones
En la era de los modelos de lenguaje a gran escala, los puntos de referencia como el Massive Multitask Language Understanding (MMLU) han sido fundamentales para impulsar los límites de lo que la IA puede lograr en la comprensión y el razonamiento del lenguaje en diversos dominios. Sin embargo, a medida que los modelos continúan mejorando, su rendimiento en estos puntos de referencia ha comenzado a estancarse, lo que dificulta cada vez más discernir las diferencias en las capacidades de los modelos. Este artículo presenta MMLU-Pro, un conjunto de datos mejorado diseñado para extender el punto de referencia MMLU, principalmente basado en conocimientos, mediante la integración de preguntas más desafiantes centradas en el razonamiento y la expansión del conjunto de opciones de cuatro a diez. Además, MMLU-Pro elimina las preguntas triviales y ruidosas presentes en MMLU. Nuestros resultados experimentales muestran que MMLU-Pro no solo eleva el desafío, causando una caída significativa en la precisión del 16% al 33% en comparación con MMLU, sino que también demuestra una mayor estabilidad bajo diferentes indicaciones. Con 24 estilos de indicaciones probados, la sensibilidad de las puntuaciones de los modelos a las variaciones de las indicaciones disminuyó del 4-5% en MMLU a solo el 2% en MMLU-Pro. Además, encontramos que los modelos que utilizan el razonamiento en cadena de pensamiento (Chain of Thought, CoT) lograron un mejor rendimiento en MMLU-Pro en comparación con las respuestas directas, lo que contrasta marcadamente con los hallazgos en el MMLU original, lo que indica que MMLU-Pro incluye preguntas de razonamiento más complejas. Nuestras evaluaciones confirman que MMLU-Pro es un punto de referencia más discriminativo para rastrear mejor el progreso en el campo.
Los modelos de lenguaje están alineados para emular la voz colectiva de muchos, lo que resulta en salidas que no se ajustan a nadie en particular. Es posible dirigir a los LLMs lejos de resultados genéricos mediante ajuste fino supervisado o RLHF, pero esto requiere conjuntos de datos prohibitivamente grandes para nuevas tareas ad-hoc. Argumentamos que, en cambio, es posible alinear un LLM a un entorno específico aprovechando un número muy pequeño (<10) de demostraciones como retroalimentación. Nuestro método, Optimización de Tareas Iteradas mediante Demostraciones (DITTO), alinea directamente las salidas del modelo de lenguaje a los comportamientos demostrados por un usuario. Derivado utilizando ideas del aprendizaje por imitación en línea, DITTO genera de manera económica datos de comparación en línea tratando las demostraciones de los usuarios como preferidas sobre la salida del LLM y sus puntos de control intermedios. Evaluamos la capacidad de DITTO para aprender alineación de estilo y tareas a nivel detallado en dominios como artículos de noticias, correos electrónicos y publicaciones de blogs. Además, realizamos un estudio de usuarios solicitando una variedad de demostraciones a los participantes (N=16). En nuestros puntos de referencia y el estudio de usuarios, encontramos que las tasas de victoria de DITTO superan al prompting de pocos ejemplos, al ajuste fino supervisado y a otros métodos de autojuego en un promedio de 19 puntos porcentuales. Al utilizar demostraciones como retroalimentación directamente, DITTO ofrece un método novedoso para la personalización efectiva de LLMs.
Este trabajo aborda el desafío de la estimación de profundidad en videos, la cual no solo requiere precisión por fotograma, sino, más importante aún, consistencia entre fotogramas. En lugar de desarrollar directamente un estimador de profundidad desde cero, reformulamos la tarea de predicción como un problema de generación condicional. Esto nos permite aprovechar el conocimiento previo incorporado en los modelos existentes de generación de videos, reduciendo así la dificultad de aprendizaje y mejorando la generalización. Concretamente, estudiamos cómo adaptar el modelo público Stable Video Diffusion (SVD) para predecir profundidad confiable a partir de videos de entrada utilizando una mezcla de conjuntos de datos de profundidad de imágenes y videos. Confirmamos empíricamente que una estrategia de entrenamiento procedural —optimizando primero las capas espaciales de SVD y luego optimizando las capas temporales mientras se mantienen congeladas las capas espaciales— produce los mejores resultados en términos de precisión espacial y consistencia temporal. Además, examinamos la estrategia de ventana deslizante para la inferencia en videos de longitud arbitraria. Nuestras observaciones indican un equilibrio entre eficiencia y rendimiento, donde un solapamiento de un fotograma ya produce resultados favorables. Los resultados experimentales extensivos demuestran la superioridad de nuestro enfoque, denominado ChronoDepth, sobre las alternativas existentes, particularmente en términos de la consistencia temporal de la profundidad estimada. Adicionalmente, destacamos los beneficios de una profundidad de video más consistente en dos aplicaciones prácticas: generación de videos condicionados por profundidad y síntesis de nuevas vistas. Nuestra página del proyecto está disponible en https://jhaoshao.github.io/ChronoDepth/{este enlace}.
La acumulación cultural impulsa el progreso abierto y diverso en capacidades a lo largo de la historia humana. Construye un cuerpo de conocimiento y habilidades en expansión al combinar la exploración individual con la transmisión intergeneracional de información. A pesar de su éxito generalizado entre los humanos, la capacidad de los agentes de aprendizaje artificial para acumular cultura sigue siendo poco explorada. En particular, los enfoques de aprendizaje por refuerzo suelen buscar mejoras únicamente durante una sola vida. Los algoritmos generacionales que existen no logran capturar la naturaleza abierta y emergente de la acumulación cultural, que permite a los individuos equilibrar innovación e imitación. Basándonos en la capacidad previamente demostrada de los agentes de aprendizaje por refuerzo para realizar aprendizaje social, encontramos que las configuraciones de entrenamiento que equilibran esto con el aprendizaje independiente dan lugar a la acumulación cultural. Estos agentes acumuladores superan a aquellos entrenados para una sola vida con la misma experiencia acumulada. Exploramos esta acumulación construyendo dos modelos bajo dos nociones distintas de generación: generaciones episódicas, en las que la acumulación ocurre mediante aprendizaje en contexto, y generaciones en tiempo de entrenamiento, en las que la acumulación ocurre mediante aprendizaje en pesos. La acumulación cultural en contexto y en pesos puede interpretarse como análoga a la acumulación de conocimiento y habilidades, respectivamente. Hasta donde sabemos, este trabajo es el primero en presentar modelos generales que logran una acumulación cultural emergente en el aprendizaje por refuerzo, abriendo nuevas vías hacia sistemas de aprendizaje más abiertos, así como presentando nuevas oportunidades para modelar la cultura humana.
Los optimizadores aprendidos (LOs, por sus siglas en inglés) pueden reducir significativamente el tiempo de entrenamiento en tiempo real de las redes neuronales, disminuyendo sustancialmente los costos de entrenamiento. Sin embargo, a menudo sufren de una mala meta-generalización, especialmente cuando se entrenan redes más grandes que las vistas durante el meta-entrenamiento. Para abordar esto, utilizamos la recientemente propuesta Parametrización de Actualización Máxima (muP, por sus siglas en inglés), que permite la generalización en cero disparos de los hiperparámetros del optimizador desde modelos más pequeños a modelos más grandes. Extendemos la teoría de muP a los optimizadores aprendidos, tratando el problema de meta-entrenamiento como la búsqueda del optimizador aprendido bajo muP. Nuestra evaluación muestra que los LOs meta-entrenados con muP mejoran sustancialmente la meta-generalización en comparación con los LOs entrenados bajo la parametrización estándar (SP, por sus siglas en inglés). Notablemente, cuando se aplican a modelos de gran anchura, nuestro mejor muLO, entrenado durante 103 horas de GPU, iguala o supera el rendimiento de VeLO, el optimizador aprendido disponible públicamente más grande, meta-entrenado con 4000 meses-TPU de cómputo. Además, los muLOs demuestran una mejor generalización que sus contrapartes SP en redes más profundas y en horizontes de entrenamiento mucho más largos (25 veces más largos) que los vistos durante el meta-entrenamiento.
La generación de videos ha experimentado un progreso notable en los últimos años, especialmente desde la aparición de los modelos de difusión de video. Muchos modelos de generación de video pueden producir videos sintéticos plausibles, como Stable Video Diffusion (SVD). Sin embargo, la mayoría de los modelos de video solo pueden generar videos con una tasa de cuadros baja debido a la limitada memoria de las GPU y a la dificultad de modelar un gran conjunto de cuadros. Los videos de entrenamiento siempre se muestrean uniformemente a un intervalo especificado para la compresión temporal. Métodos anteriores aumentan la tasa de cuadros entrenando un modelo de interpolación de video en el espacio de píxeles como una etapa de posprocesamiento o entrenando un modelo de interpolación en el espacio latente para un modelo de video base específico. En este artículo, proponemos un método de interpolación de video sin entrenamiento para modelos generativos de difusión de video, que es generalizable a diferentes modelos de manera plug-and-play. Investigamos la no linealidad en el espacio de características de los modelos de difusión de video y transformamos un modelo de video en un modelo de difusión de video autocascado, incorporando los módulos de corrección de estados ocultos diseñados. La arquitectura autocascada y el módulo de corrección se proponen para mantener la consistencia temporal entre los cuadros clave y los cuadros interpolados. Se realizan evaluaciones exhaustivas en múltiples modelos de video populares para demostrar la efectividad del método propuesto, especialmente que nuestro método sin entrenamiento es incluso comparable a los modelos de interpolación entrenados respaldados por grandes recursos computacionales y conjuntos de datos a gran escala.