Artículos de investigación en IA seleccionados diariamente con traducciones
La comunidad BigCode, una colaboración científico-abierta que trabaja en el desarrollo responsable de Modelos de Lenguaje de Gran Escala para Código (Code LLMs), presenta StarCoder y StarCoderBase: modelos de 15.500 millones de parámetros con una longitud de contexto de 8K, capacidades de relleno e inferencia rápida en lotes grandes habilitada por atención multi-consulta. StarCoderBase se entrenó con 1 billón de tokens provenientes de The Stack, una gran colección de repositorios de GitHub con licencias permisivas, herramientas de inspección y un proceso de exclusión voluntaria. Ajustamos StarCoderBase con 35.000 millones de tokens de Python, dando como resultado la creación de StarCoder. Realizamos la evaluación más completa hasta la fecha de los Code LLMs y demostramos que StarCoderBase supera a todos los Code LLMs abiertos que admiten múltiples lenguajes de programación y coincide o supera al modelo code-cushman-001 de OpenAI. Además, StarCoder supera a todos los modelos ajustados en Python, puede ser guiado para alcanzar un 40\% de pass@1 en HumanEval, y aún mantiene su rendimiento en otros lenguajes de programación. Damos varios pasos importantes hacia un lanzamiento seguro de modelos de acceso abierto, incluyendo una canalización mejorada de redacción de información personal identificable (PII) y una novedosa herramienta de trazabilidad de atribución, y ponemos los modelos StarCoder a disposición del público bajo una versión más viable comercialmente de la licencia Open Responsible AI Model.
En este estudio, iniciamos una exploración sobre la comprensión de videos mediante la introducción de VideoChat, un sistema de comprensión de videos centrado en chat de extremo a extremo. Este sistema integra modelos fundamentales de video y modelos de lenguaje grande a través de una interfaz neuronal aprendible, destacándose en el razonamiento espacio-temporal, la localización de eventos y la inferencia de relaciones causales. Para ajustar este sistema de manera instructiva, proponemos un conjunto de datos de instrucciones centrado en videos, compuesto por miles de videos emparejados con descripciones detalladas y conversaciones. Este conjunto de datos enfatiza el razonamiento espacio-temporal y las relaciones causales, proporcionando un recurso valioso para entrenar sistemas de comprensión de videos centrados en chat. Experimentos cualitativos preliminares revelan el potencial de nuestro sistema en una amplia gama de aplicaciones de video y establecen un estándar para futuras investigaciones. Accede a nuestro código y datos en https://github.com/OpenGVLab/Ask-Anything.
La IA generativa (AIGC, también conocida como contenido generado por IA) ha logrado avances notables en los últimos años, entre los cuales la generación de contenido guiada por texto es la más práctica, ya que permite la interacción entre las instrucciones humanas y el AIGC. Gracias al desarrollo de las tecnologías de texto a imagen y modelado 3D (como NeRF), el campo de texto a 3D ha emergido como un área de investigación nueva pero altamente activa. Nuestro trabajo realiza la primera encuesta exhaustiva sobre texto a 3D para ayudar a los lectores interesados en esta dirección a ponerse al día rápidamente con su rápido desarrollo. En primer lugar, presentamos las representaciones de datos 3D, incluyendo tanto datos euclidianos como no euclidianos. Sobre esa base, introducimos diversas tecnologías fundamentales y resumimos cómo los trabajos recientes combinan esas tecnologías para lograr resultados satisfactorios en texto a 3D. Además, resumimos cómo la tecnología de texto a 3D se utiliza en diversas aplicaciones, incluyendo la generación de avatares, la generación de texturas, la transformación de formas y la generación de escenas.
Representar el rendimiento humano con alta fidelidad es un componente esencial en diversas aplicaciones, como la producción cinematográfica, los videojuegos o las videoconferencias. Para cerrar la brecha hacia la calidad de nivel de producción, presentamos HumanRF, una representación neural dinámica 4D de escenas que captura la apariencia de cuerpo completo en movimiento a partir de entradas de video multicámara, y permite la reproducción desde puntos de vista nuevos y no vistos. Nuestra novedosa representación actúa como una codificación de video dinámica que captura detalles finos con altas tasas de compresión al factorizar el espacio-tiempo en una descomposición matricial-vectorial temporal. Esto nos permite obtener reconstrucciones temporalmente coherentes de actores humanos en secuencias largas, mientras representamos detalles de alta resolución incluso en el contexto de movimientos desafiantes. Mientras que la mayoría de las investigaciones se centran en sintetizar a resoluciones de 4MP o menos, abordamos el desafío de operar a 12MP. Para ello, presentamos ActorsHQ, un nuevo conjunto de datos multicámara que proporciona imágenes de 12MP capturadas por 160 cámaras para 16 secuencias con reconstrucciones de mallas de alta fidelidad por fotograma. Demostramos los desafíos que surgen al utilizar datos de tan alta resolución y mostramos que nuestro recién introducido HumanRF aprovecha eficazmente estos datos, dando un paso significativo hacia la síntesis de nuevas vistas de calidad de nivel de producción.
La creación de modelos 3D animables es un desafío debido a la necesidad de escaneos 3D, registros laboriosos y rigging manual, lo cual es difícil de escalar a categorías arbitrarias. Recientemente, el renderizado diferenciable ofrece una vía para obtener modelos 3D de alta calidad a partir de videos monoculares, pero estos están limitados a categorías rígidas o instancias únicas. Presentamos RAC, que construye modelos 3D de categorías a partir de videos monoculares mientras desentrelaza las variaciones entre instancias y el movimiento a lo largo del tiempo. Se introducen tres ideas clave para resolver este problema: (1) especializar un esqueleto para instancias mediante optimización, (2) un método de regularización del espacio latente que fomenta una estructura compartida en una categoría mientras mantiene los detalles de la instancia, y (3) el uso de modelos 3D de fondo para separar objetos del fondo. Demostramos que se pueden aprender modelos 3D de humanos, gatos y perros a partir de 50-100 videos de internet.
Presentamos Percepción Multimodal Integrada (IMP, por sus siglas en inglés), un enfoque simple y escalable para el entrenamiento y modelado multimodal de múltiples tareas. IMP integra entradas multimodales, incluyendo imágenes, video, texto y audio, en un único codificador Transformer con componentes específicos de modalidad mínimos. IMP utiliza un diseño novedoso que combina Descenso de Gradiente Alternante (AGD) y Mezcla de Expertos (MoE) para un escalado eficiente del modelo y las tareas. Realizamos estudios empíricos exhaustivos sobre IMP y revelamos las siguientes conclusiones clave: 1) realizar actualizaciones de descenso de gradiente alternando entre diversas modalidades heterogéneas, funciones de pérdida y tareas, mientras se varían las resoluciones de entrada, mejora eficientemente la comprensión multimodal. 2) la esparsificación del modelo con MoE en un único codificador agnóstico a la modalidad mejora sustancialmente el rendimiento, superando a los modelos densos que utilizan codificadores específicos por modalidad o capas de fusión adicionales, y mitiga en gran medida los conflictos entre modalidades. IMP logra un rendimiento competitivo en una amplia gama de tareas posteriores, incluyendo clasificación de imágenes, clasificación de videos, y recuperación de imagen-texto y video-texto. Más notablemente, entrenamos un IMP-MoE-L enfocado en tareas de video que alcanza un nuevo estado del arte en clasificación de video zero-shot. Nuestro modelo logra un 77.0% en Kinetics-400, un 76.8% en Kinetics-600 y un 76.8% en Kinetics-700 en precisión de clasificación zero-shot, mejorando el estado del arte anterior en +5%, +6.7% y +5.8%, respectivamente, mientras utiliza solo el 15% de su costo computacional total de entrenamiento.
Proponemos un enfoque novedoso para desarrollar sistemas de recomendación a gran escala que preservan la privacidad, utilizando modelos de lenguaje de gran escala (LLM) con privacidad diferencial (DP), lo que supera ciertos desafíos y limitaciones en el entrenamiento DP de estos sistemas complejos. Nuestro método es particularmente adecuado para el área emergente de sistemas de recomendación basados en LLM, pero puede emplearse fácilmente para cualquier sistema de recomendación que procese representaciones de entradas en lenguaje natural. Nuestro enfoque implica utilizar métodos de entrenamiento DP para ajustar un LLM preentrenado públicamente en una tarea de generación de consultas. El modelo resultante puede generar consultas sintéticas privadas representativas de las consultas originales, las cuales pueden compartirse libremente para cualquier procedimiento de entrenamiento de recomendación no privado sin incurrir en costos adicionales de privacidad. Evaluamos nuestro método en su capacidad para entrenar de manera segura modelos de recuperación profunda efectivos, y observamos mejoras significativas en su calidad de recuperación sin comprometer las garantías de privacidad a nivel de consulta en comparación con métodos donde los modelos de recuperación se entrenan directamente con DP.
Para habilitar robots de propósito general, necesitaremos que el robot opere objetos articulados diariamente como lo hacen los humanos. La manipulación robótica actual ha dependido en gran medida del uso de una pinza paralela, lo que restringe al robot a un conjunto limitado de objetos. Por otro lado, operar con una mano robótica multifuncional permitirá una mejor aproximación al comportamiento humano y posibilitará que el robot opere sobre diversos objetos articulados. Con este fin, proponemos un nuevo punto de referencia llamado DexArt, que implica manipulación diestra con objetos articulados en un simulador físico. En nuestro punto de referencia, definimos múltiples tareas de manipulación complejas, y la mano robótica deberá manipular diversos objetos articulados dentro de cada tarea. Nuestro enfoque principal es evaluar la generalización de la política aprendida en objetos articulados no vistos. Esto es muy desafiante dado los altos grados de libertad tanto de las manos como de los objetos. Utilizamos Aprendizaje por Refuerzo con aprendizaje de representación 3D para lograr la generalización. A través de estudios extensos, proporcionamos nuevas perspectivas sobre cómo el aprendizaje de representación 3D afecta la toma de decisiones en RL con entradas de nubes de puntos 3D. Más detalles se pueden encontrar en https://www.chenbao.tech/dexart/.
En este artículo, analizamos el rendimiento de un modelo transformador multitarea de extremo a extremo en la tarea de recomendaciones conversacionales, cuyo objetivo es proporcionar recomendaciones basadas en las preferencias explícitas de un usuario expresadas en un diálogo. Mientras que trabajos previos en esta área adoptan enfoques multicomponente complejos, donde las tareas de gestión del diálogo y recomendación de entidades son manejadas por componentes separados, demostramos que un modelo transformador unificado, basado en el modelo transformador de texto a texto T5, puede desempeñarse de manera competitiva tanto en la recomendación de elementos relevantes como en la generación de diálogos conversacionales. Ajustamos nuestro modelo en el conjunto de datos de recomendación de películas conversacionales ReDIAL y creamos tareas de entrenamiento adicionales derivadas de MovieLens (como la predicción de atributos de películas y películas relacionadas basadas en una película de entrada), en un entorno de aprendizaje multitarea. Mediante una serie de estudios de sondeo, demostramos que el conocimiento aprendido en las tareas adicionales se transfiere al entorno conversacional, donde cada tarea conduce a un aumento del 9% al 52% en su puntuación de sondeo relacionada.