Artículos de investigación en IA seleccionados diariamente con traducciones
El software es una de las herramientas más poderosas que tenemos los humanos a nuestra disposición; permite a un programador hábil interactuar con el mundo de formas complejas y profundas. Al mismo tiempo, gracias a los avances en modelos de lenguaje grandes (LLMs, por sus siglas en inglés), también ha habido un rápido desarrollo en agentes de IA que interactúan y provocan cambios en sus entornos circundantes. En este artículo, presentamos OpenDevin, una plataforma para el desarrollo de agentes de IA potentes y flexibles que interactúan con el mundo de manera similar a la de un desarrollador humano: escribiendo código, interactuando con una línea de comandos y navegando por la web. Describimos cómo la plataforma permite la implementación de nuevos agentes, la interacción segura con entornos aislados para la ejecución de código, la coordinación entre múltiples agentes y la incorporación de benchmarks de evaluación. Basándonos en los benchmarks actualmente incorporados, realizamos una evaluación de agentes en 15 tareas desafiantes, que incluyen ingeniería de software (por ejemplo, SWE-Bench) y navegación web (por ejemplo, WebArena), entre otros. Publicado bajo la licencia MIT permisiva, OpenDevin es un proyecto comunitario que abarca la academia y la industria, con más de 1.3K contribuciones de más de 160 colaboradores y seguirá mejorando en el futuro.
Los modelos de lenguaje visual (VLMs) han progresado rápidamente, impulsados por el éxito de los grandes modelos de lenguaje (LLMs). Mientras las arquitecturas de los modelos y las infraestructuras de entrenamiento avanzan rápidamente, la curación de datos sigue siendo poco explorada. Cuando la cantidad y calidad de los datos se convierten en un cuello de botella, los trabajos existentes o bien obtienen más datos sin procesar directamente de Internet, sin garantía de calidad de los datos, o destilan de modelos comerciales de caja negra (por ejemplo, GPT-4V / Gemini), lo que limita el rendimiento por el límite superior de ese modelo. En este trabajo, presentamos un enfoque novedoso que incluye un paso de autoaumento y un paso de aumento especializado para mejorar de forma iterativa la calidad de los datos y el rendimiento del modelo. En el paso de autoaumento, un VLM recaptura sus propios datos de preentrenamiento para mejorar la calidad de los datos, y luego se vuelve a entrenar desde cero utilizando este conjunto de datos refinado para mejorar el rendimiento del modelo. Este proceso puede repetirse varias veces. Una vez que la autoaumentación se satura, empleamos varios VLMs especializados ajustados a partir del VLM autoaumentado con conocimientos específicos de dominio, para incorporar aún más conocimiento especializado en el VLM generalista a través de la recaptura y el reentrenamiento orientados a la tarea. Con el entrenamiento combinado de autoaumento y aumento especializado, presentamos VILA^2 (VILA-augmented-VILA), una familia de VLMs que mejora consistentemente la precisión en una amplia gama de tareas en comparación con el estado del arte anterior, y logra nuevos resultados de vanguardia en la tabla de clasificación de MMMU entre los modelos de código abierto.
La animación de imágenes humanas implica generar videos a partir de una foto de un personaje, permitiendo el control del usuario y desbloqueando el potencial para la producción de videos y películas. Si bien los enfoques recientes ofrecen resultados impresionantes utilizando datos de entrenamiento de alta calidad, la inaccesibilidad de estos conjuntos de datos dificulta la evaluación justa y transparente. Además, estos enfoques priorizan el movimiento humano en 2D y pasan por alto la importancia de los movimientos de cámara en los videos, lo que resulta en un control limitado y una generación de video inestable. Para desmitificar los datos de entrenamiento, presentamos HumanVid, el primer conjunto de datos de alta calidad a gran escala diseñado para la animación de imágenes humanas, que combina datos del mundo real elaborados y datos sintéticos. Para los datos del mundo real, recopilamos una vasta colección de videos del mundo real libres de derechos de autor de Internet. A través de una estrategia de filtrado basada en reglas cuidadosamente diseñada, garantizamos la inclusión de videos de alta calidad, lo que resulta en una colección de 20,000 videos centrados en humanos en resolución 1080P. La anotación del movimiento humano y de la cámara se logra utilizando un estimador de postura en 2D y un método basado en SLAM. Para los datos sintéticos, reunimos 2,300 activos de avatar 3D libres de derechos de autor para aumentar los activos 3D disponibles existentes. Especialmente, introducimos un método de generación de trayectoria de cámara basado en reglas, lo que permite que el proceso sintético incorpore una anotación de movimiento de cámara diversa y precisa, que rara vez se encuentra en datos del mundo real. Para verificar la efectividad de HumanVid, establecemos un modelo base llamado CamAnimate, abreviatura de Animación Humana Controlable por Cámara, que considera tanto el movimiento humano como el de la cámara como condiciones. A través de experimentación extensiva, demostramos que un entrenamiento de línea base tan simple en nuestro HumanVid logra un rendimiento de vanguardia en el control tanto de la postura humana como de los movimientos de cámara, estableciendo un nuevo punto de referencia. El código y los datos estarán disponibles públicamente en https://github.com/zhenzhiwang/HumanVid/.
A pesar de las avanzadas capacidades de inteligencia de los grandes modelos de lenguaje (LLMs) en diversas aplicaciones, todavía enfrentan demandas significativas de computación y almacenamiento. La Destilación de Conocimiento (KD) ha surgido como una estrategia efectiva para mejorar el rendimiento de un LLM más pequeño (es decir, el modelo estudiante) transfiriendo conocimiento de un LLM de alto rendimiento (es decir, el modelo profesor). Las técnicas predominantes en la destilación de LLM generalmente utilizan una API de modelo de caja negra para generar conjuntos de datos preentrenados y alineados de alta calidad, o utilizan destilación de caja blanca modificando la función de pérdida para transferir mejor el conocimiento del LLM profesor. Sin embargo, estos métodos ignoran las diferencias de conocimiento entre los LLM estudiante y profesor a través de dominios. Esto resulta en un enfoque excesivo en dominios con brechas de rendimiento mínimas y una atención insuficiente en dominios con brechas grandes, reduciendo el rendimiento general. En este documento, presentamos un nuevo marco de destilación de LLM llamado DDK, que ajusta dinámicamente la composición del conjunto de datos de destilación de manera suave según las diferencias de rendimiento de dominio entre los modelos profesor y estudiante, haciendo que el proceso de destilación sea más estable y efectivo. Evaluaciones extensas muestran que DDK mejora significativamente el rendimiento de los modelos estudiantes, superando tanto a líneas base continuamente preentrenadas como a los métodos de destilación de conocimiento existentes por un amplio margen.
El rápido avance de los modelos de lenguaje (LMs) requiere una alineación sólida con diversos valores de usuario. Sin embargo, los enfoques actuales de optimización de preferencias a menudo no logran capturar la pluralidad de opiniones de los usuarios, en lugar de ello refuerzan los puntos de vista mayoritarios y marginan las perspectivas minoritarias. Presentamos PERSONA, un banco de pruebas reproducible diseñado para evaluar y mejorar la alineación pluralista de LMs. Generamos de forma procedural perfiles de usuario diversos a partir de datos del censo de EE. UU., lo que resulta en 1,586 personas sintéticas con atributos demográficos e idiosincráticos variados. Luego generamos un conjunto de datos de evaluación a gran escala que contiene 3,868 indicaciones y 317,200 pares de retroalimentación obtenidos de nuestras personas sintéticas. Aprovechando este conjunto de datos, evaluamos sistemáticamente las capacidades de los LM para interpretar roles de diversos usuarios, verificados por jueces humanos, y el establecimiento tanto de un punto de referencia, PERSONA Bench, para enfoques de alineación pluralista, como de un extenso conjunto de datos para crear nuevos y futuros puntos de referencia. El conjunto de datos completo y los puntos de referencia están disponibles aquí: https://www.synthlabs.ai/research/persona.
La capacidad más fundamental de los métodos de IA modernos como los Modelos de Lenguaje Extensos (MLE) es la habilidad de predecir el siguiente token en una larga secuencia de tokens, conocida como "modelado de secuencias". Aunque el modelo Transformers es el enfoque dominante actual para el modelado de secuencias, su costo computacional cuadrático con respecto a la longitud de la secuencia es una desventaja significativa. Los modelos de espacio de estados (MEE) ofrecen una alternativa prometedora debido a su eficiencia de decodificación lineal y alta capacidad de paralelización durante el entrenamiento. Sin embargo, los MEE existentes a menudo se basan en diseños de recurrencia lineal aparentemente ad hoc. En este trabajo, exploramos el diseño de MEE a través del prisma del aprendizaje en línea, conceptualizando los MEE como meta-módulos para problemas específicos de aprendizaje en línea. Este enfoque vincula el diseño de MEE a la formulación de objetivos precisos de aprendizaje en línea, con reglas de transición de estado derivadas de la optimización de estos objetivos. Basándonos en esta idea, introducimos una novedosa arquitectura profunda de MEE basada en la actualización implícita para optimizar un objetivo de regresión en línea. Nuestros resultados experimentales muestran que nuestros modelos superan a los MEE de última generación, incluido el modelo Mamba, en pruebas estándar de modelado de secuencias y tareas de modelado de lenguaje.
Presentamos Stable Video 4D (SV4D), un modelo de difusión de video latente para generación consistente de contenido 3D dinámico en video de múltiples cuadros y múltiples vistas. A diferencia de métodos anteriores que dependen de modelos generativos entrenados por separado para la generación de video y síntesis de vistas novedosas, diseñamos un modelo de difusión unificado para generar videos de vistas novedosas de objetos 3D dinámicos. Específicamente, dado un video de referencia monocular, SV4D genera vistas novedosas para cada cuadro de video que son temporalmente consistentes. Luego utilizamos los videos de vistas novedosas generados para optimizar una representación implícita 4D (NeRF dinámico) de manera eficiente, sin necesidad de la optimización basada en SDS utilizada en la mayoría de trabajos previos. Para entrenar nuestro modelo unificado de generación de videos de vistas novedosas, creamos un conjunto de datos de objetos 3D dinámicos a partir del conjunto de datos existente de Objaverse. Resultados experimentales extensos en múltiples conjuntos de datos y estudios de usuarios demuestran el rendimiento de vanguardia de SV4D en la síntesis de videos de vistas novedosas y generación 4D en comparación con trabajos previos.
¿Podemos dotar a los robots visuomotores de capacidades de generalización para operar en diversos escenarios de mundo abierto? En este documento, proponemos Maniwhere, un marco generalizable diseñado para el aprendizaje por refuerzo visual, que permite que las políticas de los robots entrenados se generalicen a través de una combinación de múltiples tipos de perturbaciones visuales. Específicamente, introducimos un enfoque de aprendizaje de representación de múltiples vistas fusionado con un módulo de Red Transformadora Espacial (STN) para capturar información semántica compartida y correspondencias entre diferentes puntos de vista. Además, empleamos un enfoque de randomización y aumento basado en currículum para estabilizar el proceso de entrenamiento de RL y fortalecer la capacidad de generalización visual. Para demostrar la efectividad de Maniwhere, diseñamos meticulosamente 8 tareas que abarcan objetos articulados, tareas de manipulación bimanual y manual diestro, demostrando las sólidas capacidades de generalización visual y transferencia sim2real de Maniwhere en 3 plataformas de hardware. Nuestros experimentos muestran que Maniwhere supera significativamente a los métodos de vanguardia existentes. Se proporcionan videos en https://gemcollector.github.io/maniwhere/.
Diferentes usuarios encuentran deseables diferentes imágenes generadas para el mismo estímulo. Esto da lugar a la generación de imágenes personalizadas que implica la creación de imágenes alineadas con las preferencias visuales de un individuo. Sin embargo, los modelos generativos actuales son impersonales, ya que están ajustados para producir resultados que atraen a una audiencia amplia. Utilizarlos para generar imágenes alineadas con usuarios individuales depende de la ingeniería de estímulos manuales iterativos por parte del usuario, lo cual es ineficiente y no deseable. Proponemos personalizar el proceso de generación de imágenes capturando primero las preferencias genéricas del usuario en un proceso único al invitarlos a comentar sobre una pequeña selección de imágenes, explicando por qué les gustan o no les gustan cada una. Basándonos en estos comentarios, inferimos los atributos visuales estructurados que le gustan y no le gustan a un usuario, es decir, sus preferencias visuales, utilizando un gran modelo de lenguaje. Estos atributos se utilizan para guiar a un modelo de texto a imagen hacia la producción de imágenes ajustadas hacia las preferencias visuales del usuario individual. A través de una serie de estudios de usuarios y evaluaciones guiadas por un gran modelo de lenguaje, demostramos que el método propuesto resulta en generaciones que están bien alineadas con las preferencias visuales de usuarios individuales.
Los formatos de baja precisión, como float8, se han introducido en hardware acelerado de aprendizaje automático para mejorar la eficiencia computacional en el entrenamiento e inferencia de grandes modelos de lenguaje. Sin embargo, la adopción por parte de la comunidad de ML se ha visto ralentizada por las técnicas complejas, a veces frágiles, necesarias para igualar la precisión de entrenamiento de mayor precisión. En este trabajo, presentamos Scalify, un paradigma de propagación de escala de extremo a extremo para grafos computacionales, generalizando y formalizando los métodos de escalado de tensores existentes. Los resultados experimentales muestran que Scalify admite la multiplicación de matrices float8 listo para usar y la representación de gradientes, así como el almacenamiento de estado del optimizador float16. Nuestra implementación de Scalify en JAX está disponible como código abierto en https://github.com/graphcore-research/jax-scalify
Muchas tareas desafiantes, como la gestión de sistemas de tráfico, redes eléctricas o cadenas de suministro, implican procesos de toma de decisiones complejos que deben equilibrar múltiples objetivos conflictivos y coordinar las acciones de varios tomadores de decisiones independientes (DMs). Una perspectiva para formalizar y abordar tales tareas es el aprendizaje por refuerzo multiobjetivo multiagente (MOMARL). MOMARL amplía el aprendizaje por refuerzo (RL) a problemas con múltiples agentes, cada uno necesitando considerar múltiples objetivos en su proceso de aprendizaje. En la investigación de aprendizaje por refuerzo, los puntos de referencia son cruciales para facilitar el progreso, la evaluación y la reproducibilidad. La importancia de los puntos de referencia se subraya por la existencia de numerosos marcos de referencia desarrollados para varios paradigmas de RL, incluido RL de un solo agente (por ejemplo, Gymnasium), RL multiagente (por ejemplo, PettingZoo) y RL de un solo agente multiobjetivo (por ejemplo, MO-Gymnasium). Para apoyar el avance del campo de MOMARL, presentamos MOMAland, la primera colección de entornos estandarizados para el aprendizaje por refuerzo multiobjetivo multiagente. MOMAland aborda la necesidad de una evaluación integral en este campo emergente, ofreciendo más de 10 entornos diversos que varían en el número de agentes, representaciones de estado, estructuras de recompensa y consideraciones de utilidad. Para proporcionar líneas base sólidas para futuras investigaciones, MOMAland también incluye algoritmos capaces de aprender políticas en tales entornos.
Un dramático aumento de imágenes generadas por difusión ha marcado los últimos años, planteando desafíos únicos a las tecnologías actuales de detección. Si bien la tarea de identificar estas imágenes se clasifica como una clasificación binaria, una categoría aparentemente sencilla, la carga computacional es significativa al emplear la técnica de "reconstrucción y comparación". Este enfoque, conocido como DIRE (Error de Reconstrucción por Difusión), no solo identifica imágenes generadas por difusión, sino que también detecta aquellas producidas por GANs, resaltando la amplia aplicabilidad de la técnica. Para abordar los desafíos computacionales y mejorar la eficiencia, proponemos destilar el conocimiento incrustado en los modelos de difusión para desarrollar modelos rápidos de detección de deepfakes. Nuestro enfoque, dirigido a crear un detector de deepfakes sintetizados por difusión pequeño, rápido, económico y ligero, mantiene un rendimiento sólido mientras reduce significativamente las demandas operativas. Manteniendo el rendimiento, nuestros resultados experimentales indican una velocidad de inferencia 3.2 veces más rápida que el marco DIRE existente. Este avance no solo mejora la practicidad de implementar estos sistemas en entornos del mundo real, sino que también allana el camino para futuros esfuerzos de investigación que buscan aprovechar el conocimiento de los modelos de difusión.
Las industrias de conducción autónoma suelen emplear artistas profesionales para construir exquisitos autos en 3D. Sin embargo, resulta costoso crear activos digitales a gran escala. Dado que ya existen numerosos conjuntos de datos disponibles que contienen una gran cantidad de imágenes de autos, nos enfocamos en reconstruir modelos de autos en 3D de alta calidad a partir de estos conjuntos de datos. No obstante, estos conjuntos de datos solo contienen un lado de los autos en la escena en movimiento hacia adelante. Intentamos utilizar los modelos generativos existentes para proporcionar más información de supervisión, pero tienen dificultades para generalizar bien en autos, ya que están entrenados en conjuntos de datos sintéticos que no son específicos de autos. Además, la textura reconstruida de los autos en 3D se desalinea debido a un gran error en la estimación de la pose de la cámara al tratar con imágenes en entornos naturales. Estas limitaciones hacen que sea desafiante para los métodos previos reconstruir autos en 3D completos. Para abordar estos problemas, proponemos un método novedoso, llamado DreamCar, que puede reconstruir autos en 3D de alta calidad dados unas pocas imágenes e incluso una sola imagen. Para generalizar el modelo generativo, recopilamos un conjunto de datos de autos, llamado Car360, con más de 5,600 vehículos. Con este conjunto de datos, hacemos que el modelo generativo sea más robusto para autos. Utilizamos este prior generativo específico para el auto para guiar su reconstrucción a través de Muestreo de Destilación de Puntuación. Para complementar aún más la información de supervisión, utilizamos la simetría geométrica y de apariencia de los autos. Finalmente, proponemos un método de optimización de pose que corrige las poses para abordar la desalineación de texturas. Experimentos extensos demuestran que nuestro método supera significativamente a los métodos existentes en la reconstrucción de autos en 3D de alta calidad. https://xiaobiaodu.github.io/dreamcar-project/ {Nuestro código está disponible.}