Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se preentrenan habitualmente con miles de millones de tokens, solo para reiniciar el proceso una vez que nuevos datos están disponibles. Una solución mucho más eficiente es preentrenar continuamente estos modelos, ahorrando un cálculo significativo en comparación con el reentrenamiento. Sin embargo, el cambio de distribución inducido por los nuevos datos generalmente resulta en un rendimiento degradado en los datos anteriores o en una mala adaptación a los nuevos datos. En este trabajo, demostramos que una combinación simple y escalable de recalentamiento de la tasa de aprendizaje (LR), reducción gradual de la LR y repetición de datos anteriores es suficiente para igualar el rendimiento de un reentrenamiento completo desde cero con todos los datos disponibles, medido por la pérdida final y los puntos de referencia de evaluación del modelo de lenguaje (LM). Específicamente, mostramos esto para un cambio de distribución débil pero realista entre dos conjuntos de datos de preentrenamiento de LLM comúnmente utilizados (Inglés→Inglés) y un cambio de distribución más fuerte (Inglés→Alemán) en un modelo de 405 millones de parámetros con grandes volúmenes de datos (cientos de miles de millones de tokens). Seleccionando el cambio débil pero realista para experimentos a mayor escala, también encontramos que nuestras estrategias de aprendizaje continuo igualan el punto de referencia de reentrenamiento para un LLM de 10 mil millones de parámetros. Nuestros resultados demuestran que los LLMs pueden actualizarse exitosamente mediante estrategias de aprendizaje continuo simples y escalables, igualando el punto de referencia de reentrenamiento utilizando solo una fracción del cálculo. Finalmente, inspirados por trabajos anteriores, proponemos alternativas al programa de tasa de aprendizaje coseno que ayudan a evitar el olvido inducido por el recalentamiento de la LR y que no están limitadas a un presupuesto fijo de tokens.
Este trabajo presenta Gemma, una familia de modelos abiertos ligeros y de vanguardia, desarrollados a partir de la investigación y tecnología utilizadas para crear los modelos Gemini. Los modelos Gemma demuestran un rendimiento sólido en benchmarks académicos para comprensión del lenguaje, razonamiento y seguridad. Lanzamos dos tamaños de modelos (2 mil millones y 7 mil millones de parámetros) y proporcionamos puntos de control tanto preentrenados como ajustados. Gemma supera a modelos abiertos de tamaño similar en 11 de 18 tareas basadas en texto, y presentamos evaluaciones exhaustivas de los aspectos de seguridad y responsabilidad de los modelos, junto con una descripción detallada del desarrollo del modelo. Creemos que la liberación responsable de modelos de lenguaje grandes (LLM) es fundamental para mejorar la seguridad de los modelos de frontera y para impulsar la próxima ola de innovaciones en LLM.
Proponemos VLOGGER, un método para la generación de videos humanos impulsados por audio a partir de una única imagen de entrada de una persona, que se basa en el éxito de los recientes modelos generativos de difusión. Nuestro método consta de 1) un modelo estocástico de difusión de humano-a-movimiento-3D, y 2) una arquitectura novedosa basada en difusión que amplía los modelos de texto-a-imagen con controles tanto espaciales como temporales. Esto permite la generación de videos de alta calidad de longitud variable, fácilmente controlables mediante representaciones de alto nivel de rostros y cuerpos humanos. A diferencia de trabajos anteriores, nuestro método no requiere entrenamiento para cada persona, no depende de la detección y recorte de rostros, genera la imagen completa (no solo el rostro o los labios) y considera un amplio espectro de escenarios (por ejemplo, torso visible o identidades diversas de sujetos) que son críticos para sintetizar correctamente humanos que se comunican. También creamos MENTOR, un nuevo y diverso conjunto de datos con anotaciones de poses 3D y expresiones, un orden de magnitud más grande que los anteriores (800,000 identidades) y con gestos dinámicos, en el cual entrenamos y evaluamos nuestras principales contribuciones técnicas. VLOGGER supera a los métodos más avanzados en tres benchmarks públicos, considerando la calidad de la imagen, la preservación de la identidad y la consistencia temporal, además de generar gestos de la parte superior del cuerpo. Analizamos el rendimiento de VLOGGER con respecto a múltiples métricas de diversidad, mostrando que nuestras elecciones arquitectónicas y el uso de MENTOR benefician el entrenamiento de un modelo justo y no sesgado a gran escala. Finalmente, mostramos aplicaciones en edición de video y personalización.
Los seres humanos aprenden habilidades sociales tanto a través de la imitación como de la interacción social. Este proceso de aprendizaje social ha sido poco estudiado por las investigaciones existentes sobre la creación de agentes de lenguaje. Motivados por esta brecha, proponemos un método de aprendizaje interactivo, SOTOPIA-pi, que mejora la inteligencia social de los agentes de lenguaje. Este método aprovecha la clonación de comportamientos y el entrenamiento de autorrefuerzo en datos de interacción social filtrados según las evaluaciones de modelos de lenguaje de gran escala (LLM, por sus siglas en inglés). Demostramos que nuestro método de entrenamiento permite que un LLM de 7B alcance la capacidad de completar objetivos sociales de un modelo experto (un agente basado en GPT-4), al mismo tiempo que mejora la seguridad de los agentes de lenguaje y mantiene su capacidad general de respuesta en el benchmark MMLU. También descubrimos que este paradigma de entrenamiento revela algunas dificultades en la evaluación basada en LLM de la inteligencia social: los evaluadores basados en LLM sobrestiman las capacidades de los agentes de lenguaje entrenados específicamente para la interacción social.
Los modelos fundacionales son tecnologías poderosas: cómo se lanzan públicamente influye directamente en su impacto social. En este documento de posición, nos enfocamos en los modelos fundacionales abiertos, definidos aquí como aquellos con pesos de modelo ampliamente disponibles (por ejemplo, Llama 2, Stable Diffusion XL). Identificamos cinco propiedades distintivas (por ejemplo, mayor personalización, monitoreo deficiente) de los modelos fundacionales abiertos que conducen tanto a sus beneficios como a sus riesgos. Los modelos fundacionales abiertos presentan beneficios significativos, con algunas advertencias, que abarcan la innovación, la competencia, la distribución del poder de toma de decisiones y la transparencia. Para comprender sus riesgos de uso indebido, diseñamos un marco de evaluación de riesgos para analizar su riesgo marginal. A través de varios vectores de uso indebido (por ejemplo, ciberataques, armas biológicas), encontramos que la investigación actual es insuficiente para caracterizar efectivamente el riesgo marginal de los modelos fundacionales abiertos en comparación con las tecnologías preexistentes. El marco ayuda a explicar por qué el riesgo marginal es bajo en algunos casos, aclara desacuerdos sobre los riesgos de uso indebido al revelar que trabajos anteriores se han centrado en diferentes subconjuntos del marco con diferentes suposiciones, y articula una forma de avanzar hacia un debate más constructivo. En general, nuestro trabajo ayuda a respaldar una evaluación más fundamentada del impacto social de los modelos fundacionales abiertos al delinear qué investigación es necesaria para validar empíricamente sus beneficios y riesgos teóricos.
Enfrentando los desafíos de la escasez de datos y la síntesis avanzada de movimientos en el modelado de interacciones humano-escena, presentamos el conjunto de datos TRUMANS junto con un novedoso método de síntesis de movimientos HSI. TRUMANS se erige como el conjunto de datos HSI capturado por movimiento más completo disponible actualmente, abarcando más de 15 horas de interacciones humanas en 100 escenas interiores. Captura de manera detallada los movimientos humanos de cuerpo completo y la dinámica a nivel de partes de los objetos, centrándose en el realismo del contacto. Este conjunto de datos se amplía aún más transformando entornos físicos en modelos virtuales exactos y aplicando amplias aumentaciones a la apariencia y el movimiento tanto de humanos como de objetos, manteniendo la fidelidad de la interacción. Utilizando TRUMANS, diseñamos un modelo autorregresivo basado en difusión que genera eficientemente secuencias HSI de cualquier longitud, teniendo en cuenta tanto el contexto de la escena como las acciones previstas. En los experimentos, nuestro enfoque muestra una notable generalización zero-shot en una variedad de conjuntos de datos de escenas 3D (por ejemplo, PROX, Replica, ScanNet, ScanNet++), produciendo movimientos que imitan de cerca las secuencias originales capturadas por movimiento, según lo confirman los experimentos cuantitativos y los estudios con humanos.
Las leyes de escalado son guías útiles para desarrollar modelos de lenguaje, pero aún existen brechas entre los estudios actuales de escalado y cómo los modelos de lenguaje son finalmente entrenados y evaluados. Por ejemplo, el escalado suele estudiarse en el régimen de entrenamiento óptimo en términos de cómputo (es decir, el régimen "óptimo de Chinchilla"); sin embargo, en la práctica, los modelos a menudo se sobreentrenan para reducir los costos de inferencia. Además, las leyes de escalado principalmente predicen la pérdida en la predicción del siguiente token, pero al final los modelos se comparan en función del rendimiento en tareas posteriores. En este artículo, abordamos ambas limitaciones. Para ello, creamos un banco de pruebas de 104 modelos con parámetros que van desde 0.011B hasta 6.9B, entrenados con diferentes cantidades de tokens en tres distribuciones de datos. Primero, investigamos el escalado en el régimen de sobreentrenamiento. Ajustamos leyes de escalado que extrapolan tanto en el número de parámetros del modelo como en la proporción de tokens de entrenamiento respecto a los parámetros. Esto nos permite predecir la pérdida de validación de una ejecución con 1.4B parámetros y 900B tokens (es decir, 32 veces sobreentrenada) y una ejecución con 6.9B parámetros y 138B tokens, cada una a partir de experimentos que requieren 300 veces menos cómputo. En segundo lugar, relacionamos la perplejidad de un modelo de lenguaje con su rendimiento en tareas posteriores mediante una ley de potencia. Usamos esta ley para predecir el error promedio top-1 en tareas posteriores para los dos modelos mencionados anteriormente, utilizando experimentos que requieren 20 veces menos cómputo. Nuestros experimentos están disponibles en https://github.com/mlfoundations/scaling.
A pesar de los recientes avances en la generación de imagen a video, una mejor controlabilidad y la animación local han sido menos exploradas. La mayoría de los métodos existentes de imagen a video no son localmente conscientes y tienden a mover toda la escena. Sin embargo, los artistas humanos pueden necesitar controlar el movimiento de diferentes objetos o regiones. Además, los métodos actuales de I2V requieren que los usuarios no solo describan el movimiento objetivo, sino que también proporcionen descripciones detalladas redundantes del contenido de los fotogramas. Estos dos problemas dificultan la utilización práctica de las herramientas actuales de I2V. En este artículo, proponemos un marco práctico, denominado Follow-Your-Click, para lograr la animación de imágenes con un simple clic del usuario (para especificar qué mover) y una breve indicación de movimiento (para especificar cómo mover). Técnicamente, proponemos la estrategia de enmascaramiento del primer fotograma, que mejora significativamente la calidad de la generación de video, y un módulo aumentado de movimiento equipado con un conjunto de datos de indicaciones de movimiento breves para mejorar la capacidad de nuestro modelo de seguir indicaciones breves. Para controlar aún más la velocidad del movimiento, proponemos un control de magnitud de movimiento basado en flujo para controlar con mayor precisión la velocidad del movimiento objetivo. Nuestro marco tiene un control del usuario más simple pero preciso y un mejor rendimiento de generación que los métodos anteriores. Experimentos extensos comparados con 7 líneas base, incluyendo tanto herramientas comerciales como métodos de investigación en 8 métricas, sugieren la superioridad de nuestro enfoque. Página del proyecto: https://follow-your-click.github.io/
Las representaciones neuronales implícitas (INRs, por sus siglas en inglés) han logrado recientemente un gran éxito en la representación y compresión de imágenes, ofreciendo una alta calidad visual y velocidades de renderizado rápidas de 10 a 1000 FPS, siempre que se disponga de suficientes recursos de GPU. Sin embargo, este requisito a menudo dificulta su uso en dispositivos de gama baja con memoria limitada. En respuesta, proponemos un paradigma innovador de representación y compresión de imágenes mediante el uso de 2D Gaussian Splatting, denominado GaussianImage. Primero introducimos gaussianas 2D para representar la imagen, donde cada gaussiana tiene 8 parámetros que incluyen posición, covarianza y color. Posteriormente, presentamos un novedoso algoritmo de renderizado basado en la suma acumulativa. Notablemente, nuestro método, con un uso de memoria GPU al menos 3 veces menor y un tiempo de ajuste 5 veces más rápido, no solo rivaliza con las INRs (por ejemplo, WIRE, I-NGP) en rendimiento de representación, sino que también ofrece una velocidad de renderizado más rápida de 1500 a 2000 FPS, independientemente del tamaño de los parámetros. Además, integramos una técnica existente de cuantización vectorial para construir un códec de imágenes. Los resultados experimentales demuestran que nuestro códec alcanza un rendimiento de tasa-distorsión comparable al de las INRs basadas en compresión, como COIN y COIN++, mientras facilita velocidades de decodificación de aproximadamente 1000 FPS. Adicionalmente, una prueba de concepto preliminar muestra que nuestro códec supera a COIN y COIN++ en rendimiento cuando se utiliza codificación parcial de bits de retorno.