Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos de difusión a gran escala recientes generan imágenes de alta calidad pero tienen dificultades para aprender nuevos estilos artísticos personalizados, lo que limita la creación de plantillas de estilo únicas. El ajuste fino con imágenes de referencia es el enfoque más prometedor, pero a menudo utiliza de manera ciega objetivos y distribuciones de niveles de ruido utilizados para el preentrenamiento, lo que conduce a un alineamiento de estilo subóptimo. Proponemos el muestreador de relación señal a ruido (SNR) amigable con el estilo, que desplaza agresivamente la distribución de SNR hacia niveles de ruido más altos durante el ajuste fino para centrarse en niveles de ruido donde emergen las características estilísticas. Esto permite a los modelos capturar mejor estilos únicos y generar imágenes con un mayor alineamiento de estilo. Nuestro método permite a los modelos de difusión aprender y compartir nuevas "plantillas de estilo", mejorando la creación de contenido personalizado. Demostramos la capacidad de generar estilos como pinturas acuarelas personales, dibujos animados minimalistas, renderizaciones en 3D, imágenes de varios paneles y memes con texto, ampliando así el alcance de la generación impulsada por el estilo.
La post-entrenamiento del modelo de lenguaje se aplica para refinar comportamientos y desbloquear nuevas habilidades en una amplia gama de modelos de lenguaje recientes, pero las recetas abiertas para aplicar estas técnicas se quedan atrás de las propietarias. Los datos de entrenamiento subyacentes y las recetas para la post-entrenamiento son simultáneamente las piezas más importantes del rompecabezas y la porción con menos transparencia. Para cerrar esta brecha, presentamos TÜLU 3, una familia de modelos post-entrenados de vanguardia totalmente abiertos, junto con sus datos, código y recetas de entrenamiento, sirviendo como una guía integral para las técnicas modernas de post-entrenamiento. TÜLU 3, que se basa en los modelos base de Llama 3.1, logra resultados que superan a las versiones instructivas de Llama 3.1, Qwen 2.5, Mistral e incluso modelos cerrados como GPT-4o-mini y Claude 3.5-Haiku. Los algoritmos de entrenamiento para nuestros modelos incluyen ajuste fino supervisado (SFT), Optimización Directa de Preferencias (DPO) y un método novedoso que llamamos Aprendizaje por Refuerzo con Recompensas Verificables (RLVR). Con TÜLU 3, presentamos un esquema de evaluación multi-tarea para recetas de post-entrenamiento con evaluaciones de desarrollo y no vistas, implementaciones de referencia estándar y una descontaminación sustancial de conjuntos de datos abiertos existentes en dichas pruebas. Concluimos con un análisis y discusión de métodos de entrenamiento que no mejoraron el rendimiento de manera confiable. Además de los pesos del modelo TÜLU 3 y la demostración, publicamos la receta completa, que incluye conjuntos de datos para diversas habilidades básicas, un conjunto de herramientas robusto para curación y evaluación de datos, el código de entrenamiento y la infraestructura, y, lo más importante, un informe detallado para reproducir y adaptar aún más el enfoque de TÜLU 3 a más dominios.
En este documento, presentamos OminiControl, un marco altamente versátil y eficiente en parámetros que integra condiciones de imagen en modelos pre-entrenados de Transformadores de Difusión (DiT). En su núcleo, OminiControl aprovecha un mecanismo de reutilización de parámetros, permitiendo que el DiT codifique las condiciones de imagen utilizando a sí mismo como una columna vertebral poderosa y las procese con sus flexibles procesadores de atención multi-modales. A diferencia de los métodos existentes, que dependen en gran medida de módulos de codificador adicionales con arquitecturas complejas, OminiControl (1) incorpora de manera efectiva y eficiente condiciones de imagen inyectadas con solo ~0.1% de parámetros adicionales, y (2) aborda una amplia gama de tareas de condicionamiento de imagen de manera unificada, incluida la generación impulsada por el sujeto y condiciones alineadas espacialmente como bordes, profundidad y más. Notablemente, estas capacidades se logran entrenando en imágenes generadas por el propio DiT, lo cual es particularmente beneficioso para la generación impulsada por el sujeto. Evaluaciones exhaustivas demuestran que OminiControl supera a los modelos existentes basados en UNet y adaptados a DiT tanto en generación condicional impulsada por el sujeto como alineada espacialmente. Además, publicamos nuestro conjunto de datos de entrenamiento, Subjects200K, una colección diversa de más de 200,000 imágenes consistentes en identidad, junto con un eficiente proceso de síntesis de datos para avanzar en la investigación en generación consistente en sujetos.
El envejecimiento facial es un proceso complejo, altamente dependiente de múltiples factores como el género, la etnia, el estilo de vida, etc., lo que lo hace extremadamente desafiante aprender un envejecimiento global previo para predecir el envejecimiento de manera precisa para cualquier individuo. Las técnicas existentes a menudo producen resultados de envejecimiento realistas y plausibles, pero las imágenes rejuvenecidas a menudo no se asemejan a la apariencia de la persona en la edad objetivo y, por lo tanto, necesitan personalización. En muchas aplicaciones prácticas de envejecimiento virtual, por ejemplo en efectos visuales en películas y programas de televisión, suele estar disponible un conjunto de fotos personales del usuario que representan el envejecimiento en un pequeño intervalo de tiempo (20 a 40 años). Sin embargo, los intentos ingenuos de personalizar técnicas de envejecimiento global en colecciones de fotos personales a menudo fracasan. Por lo tanto, proponemos MyTimeMachine (MyTM), que combina un envejecimiento global previo con una colección de fotos personales (usando tan solo 50 imágenes) para aprender una transformación de edad personalizada. Introducimos una Red Adaptadora novedosa que combina características de envejecimiento personalizadas con características de envejecimiento global y genera una imagen rejuvenecida con StyleGAN2. También presentamos tres funciones de pérdida para personalizar la Red Adaptadora con pérdida de envejecimiento personalizada, regularización de extrapolación y regularización adaptativa de w-norma. Nuestro enfoque también puede extenderse a videos, logrando efectos de envejecimiento de alta calidad, que conservan la identidad y son temporalmente consistentes, asemejándose a las apariencias reales en las edades objetivo, demostrando su superioridad sobre los enfoques de vanguardia.
Los Modelos de Lenguaje Grandes son propensos al uso fuera de tema, donde los usuarios pueden incitar a estos modelos a realizar tareas más allá de su alcance previsto. Las actuales salvaguardias, que a menudo se basan en ejemplos seleccionados o clasificadores personalizados, sufren de altas tasas de falsos positivos, limitada adaptabilidad y la impracticabilidad de requerir datos del mundo real que no están disponibles en preproducción. En este documento, presentamos una metodología flexible y sin datos para el desarrollo de salvaguardias que aborda estos desafíos. Al definir exhaustivamente el espacio del problema cualitativamente y pasar esto a un Modelo de Lenguaje Grande para generar diversas indicaciones, construimos un conjunto de datos sintético para evaluar y entrenar salvaguardias fuera de tema que superan a los enfoques heurísticos. Además, al enmarcar la tarea como clasificar si la indicación del usuario es relevante con respecto a la indicación del sistema, nuestras salvaguardias generalizan eficazmente a otras categorías de uso indebido, incluidas las indicaciones de desbloqueo y dañinas. Por último, contribuimos aún más al campo al hacer de código abierto tanto el conjunto de datos sintéticos como los modelos de salvaguardia fuera de tema, proporcionando recursos valiosos para el desarrollo de salvaguardias en entornos de preproducción y apoyando la investigación y desarrollo futuro en seguridad de Modelos de Lenguaje Grandes.
Los Modelos de Lenguaje Grandes (LLMs) y los Modelos de Lenguaje de Visión (VLMs) poseen un amplio conocimiento y exhiben habilidades de razonamiento prometedoras; sin embargo, todavía tienen dificultades para desempeñarse bien en entornos complejos y dinámicos. Las tareas del mundo real requieren manejar interacciones intrincadas, razonamiento espacial avanzado, planificación a largo plazo y exploración continua de nuevas estrategias, áreas en las que carecemos de metodologías efectivas para evaluar de manera integral estas capacidades. Para abordar esta brecha, presentamos BALROG, un nuevo punto de referencia diseñado para evaluar las capacidades agentes de LLMs y VLMs a través de un conjunto diverso de juegos desafiantes. Nuestro punto de referencia incorpora una variedad de entornos de aprendizaje por refuerzo existentes con diferentes niveles de dificultad, incluidas tareas que pueden ser resueltas por humanos no expertos en segundos hasta otras extremadamente desafiantes que pueden llevar años dominar (por ejemplo, el Entorno de Aprendizaje NetHack). Diseñamos métricas detalladas para medir el rendimiento y realizamos una evaluación exhaustiva de varios LLMs y VLMs populares de código abierto y cerrado. Nuestros hallazgos indican que si bien los modelos actuales logran un éxito parcial en los juegos más fáciles, tienen dificultades significativas con las tareas más desafiantes. Específicamente, observamos deficiencias graves en la toma de decisiones basada en visión, ya que los modelos tienen un peor rendimiento cuando se les proporcionan representaciones visuales de los entornos. Publicamos BALROG como un punto de referencia abierto y fácil de usar para facilitar la investigación y el desarrollo futuro en la comunidad agente.
Los recientes avances en los Modelos Multimodales Grandes (LMMs) han llevado a avances significativos tanto en el ámbito académico como en la industria. Una pregunta que surge es cómo podemos, como humanos, entender las representaciones neuronales internas de estos modelos. Este artículo da un paso inicial hacia abordar esta pregunta al presentar un marco versátil para identificar e interpretar la semántica dentro de los LMMs. Específicamente, 1) primero aplicamos un Autoencoder Espaciado (SAE) para desentrañar las representaciones en características comprensibles para los humanos. 2) Luego presentamos un marco de interpretación automática para interpretar las características semánticas abiertas aprendidas en el SAE por los propios LMMs. Empleamos este marco para analizar el modelo LLaVA-NeXT-8B utilizando el modelo LLaVA-OV-72B, demostrando que estas características pueden dirigir efectivamente el comportamiento del modelo. Nuestros resultados contribuyen a una comprensión más profunda de por qué los LMMs sobresalen en tareas específicas, incluidas las pruebas de EQ, e iluminan la naturaleza de sus errores junto con estrategias potenciales para su rectificación. Estos hallazgos ofrecen nuevas perspectivas sobre los mecanismos internos de los LMMs y sugieren paralelismos con los procesos cognitivos del cerebro humano.
El avance de los Modelos de Lenguaje de Visión Amplia (LVLMs, por sus siglas en inglés) ha mejorado significativamente la comprensión multimodal, sin embargo, persisten desafíos en tareas de razonamiento de video debido a la escasez de conjuntos de datos a gran escala y de alta calidad. Los conjuntos de datos existentes de preguntas y respuestas de video (VideoQA) a menudo dependen de anotaciones manuales costosas con una granularidad insuficiente o de métodos de construcción automática con un análisis redundante de fotograma por fotograma, lo que limita su escalabilidad y efectividad para el razonamiento complejo. Para abordar estos desafíos, presentamos VideoEspresso, un nuevo conjunto de datos que incluye pares de VideoQA que conservan detalles espaciales esenciales y coherencia temporal, junto con anotaciones multimodales de pasos de razonamiento intermedios. Nuestro proceso de construcción emplea un método consciente de la semántica para reducir la redundancia, seguido por la generación de pares de preguntas y respuestas utilizando GPT-4o. Además, desarrollamos anotaciones de Cadena de Pensamiento (CoT) de video para enriquecer los procesos de razonamiento, guiando a GPT-4o en la extracción de relaciones lógicas de los pares de preguntas y respuestas y del contenido del video. Para aprovechar el potencial de los pares de VideoQA de alta calidad, proponemos un marco de Colaboración de LVLMs Híbridos, que incluye un Selector de Fotogramas y un LVLM de razonamiento afinado por instrucciones en dos etapas. Este marco selecciona de forma adaptativa fotogramas clave y realiza razonamiento CoT utilizando evidencia multimodal. Evaluado en nuestro banco de pruebas propuesto con 14 tareas frente a 9 LVLMs populares, nuestro método supera a las líneas de base existentes en la mayoría de las tareas, demostrando capacidades superiores de razonamiento de video. Nuestro código y conjunto de datos se publicarán en: https://github.com/hshjerry/VideoEspresso
La tokenización eficiente de videos sigue siendo un desafío en el entrenamiento de modelos de visión que pueden procesar videos largos. Una dirección prometedora es desarrollar un tokenizador que pueda codificar clips de video largos, ya que permitiría al tokenizador aprovechar mejor la coherencia temporal de los videos para la tokenización. Sin embargo, entrenar tokenizadores existentes en videos largos a menudo conlleva un gran costo de entrenamiento, ya que se entrenan para reconstruir todos los fotogramas a la vez. En este documento, presentamos CoordTok, un tokenizador de video que aprende un mapeo de representaciones basadas en coordenadas a los parches correspondientes de los videos de entrada, inspirado en los avances recientes en modelos generativos 3D. En particular, CoordTok codifica un video en representaciones triplano factorizadas y reconstruye parches que corresponden a coordenadas (x, y, t) muestreadas aleatoriamente. Esto permite entrenar modelos de tokenizador grandes directamente en videos largos sin requerir recursos de entrenamiento excesivos. Nuestros experimentos muestran que CoordTok puede reducir drásticamente el número de tokens para codificar clips de video largos. Por ejemplo, CoordTok puede codificar un video de 128 fotogramas con una resolución de 128x128 en 1280 tokens, mientras que los baselines necesitan 6144 o 8192 tokens para lograr una calidad de reconstrucción similar. Además, demostramos que esta tokenización eficiente de video permite el entrenamiento eficiente en memoria de un transformador de difusión que puede generar 128 fotogramas a la vez.
El campo de la síntesis de vistas novedosas ha avanzado significativamente gracias al desarrollo de métodos de campo de radiación. Sin embargo, la mayoría de las técnicas de campo de radiación son mucho mejores en la interpolación de vistas novedosas que en la extrapolarización de vistas novedosas, donde las vistas novedosas sintetizadas están mucho más allá de las vistas de entrenamiento observadas. Diseñamos ViewExtrapolator, un enfoque de síntesis de vistas novedosas que aprovecha los conocimientos previos generativos de la Difusión de Video Estable (SVD) para una extrapolarización realista de vistas novedosas. Al rediseñar el proceso de eliminación de ruido de SVD, ViewExtrapolator perfecciona las vistas propensas a artefactos renderizadas por campos de radiación, mejorando en gran medida la claridad y realismo de las vistas novedosas sintetizadas. ViewExtrapolator es un extrapolarizador de vistas novedosas genérico que puede funcionar con diferentes tipos de renderizado 3D, como vistas renderizadas a partir de nubes de puntos cuando solo está disponible una vista única o un video monocular. Además, ViewExtrapolator no requiere ajustes finos de SVD, lo que lo hace tanto eficiente en datos como en computación. Experimentos extensos demuestran la superioridad de ViewExtrapolator en la extrapolarización de vistas novedosas. Página del proyecto: https://kunhao-liu.github.io/ViewExtrapolator/.
Los modelos de difusión texto-a-video (T2V) recientes han demostrado impresionantes capacidades de generación en diversos dominios. Sin embargo, estos modelos a menudo generan videos con desalineaciones respecto a las indicaciones de texto, especialmente cuando las indicaciones describen escenas complejas con múltiples objetos y atributos. Para abordar esto, presentamos VideoRepair, un novedoso marco de refinamiento de video independiente del modelo y sin necesidad de entrenamiento, que identifica automáticamente desalineaciones detalladas entre texto y video, y genera retroalimentación espacial y textual explícita, permitiendo que un modelo de difusión T2V realice refinamientos localizados y específicos. VideoRepair consta de cuatro etapas: En (1) evaluación de video, detectamos desalineaciones generando preguntas de evaluación detalladas y respondiéndolas con MLLM. En (2) planificación de refinamiento, identificamos objetos generados con precisión y luego creamos indicaciones localizadas para refinar otras áreas en el video. Luego, en (3) descomposición de regiones, segmentamos el área generada correctamente utilizando un módulo de anclaje combinado. Regeneramos el video ajustando las regiones desalineadas mientras preservamos las regiones correctas en (4) refinamiento localizado. En dos populares bancos de pruebas de generación de video (EvalCrafter y T2V-CompBench), VideoRepair supera sustancialmente a los puntos de referencia recientes en diversas métricas de alineación texto-video. Proporcionamos un análisis exhaustivo de los componentes de VideoRepair y ejemplos cualitativos.
La manipulación móvil 'en entornos naturales' tiene como objetivo desplegar robots en diversos entornos del mundo real, lo que requiere que el robot (1) tenga habilidades que se generalicen a través de configuraciones de objetos; (2) sea capaz de ejecutar tareas a largo plazo en entornos diversos; y (3) realice manipulaciones complejas más allá de recoger y colocar objetos. Los robots cuadrúpedos con manipuladores prometen extender el espacio de trabajo y permitir una locomoción robusta, pero los resultados existentes no investigan tal capacidad. Este artículo propone WildLMa con tres componentes para abordar estos problemas: (1) adaptación de un controlador de bajo nivel aprendido para teleoperación de cuerpo completo habilitada para RV y capacidad de atravesar terrenos; (2) WildLMa-Skill: una biblioteca de habilidades visuomotoras generalizables adquiridas mediante aprendizaje por imitación o heurísticas y (3) WildLMa-Planner: una interfaz de habilidades aprendidas que permiten a los planificadores de LLM coordinar habilidades para tareas a largo plazo. Demostramos la importancia de los datos de entrenamiento de alta calidad al lograr una tasa de éxito de agarre más alta que las líneas base de RL existentes utilizando solo decenas de demostraciones. WildLMa aprovecha CLIP para el aprendizaje por imitación condicionado por lenguaje que generaliza empíricamente a objetos no vistos en las demostraciones de entrenamiento. Además de una extensa evaluación cuantitativa, demostramos cualitativamente aplicaciones prácticas de robots, como limpiar la basura en pasillos universitarios o terrenos al aire libre, operar objetos articulados y reorganizar elementos en una estantería.
La segmentación de nubes es un desafío crítico en la interpretación de imágenes de teledetección, ya que su precisión impacta directamente en la efectividad del procesamiento y análisis de datos subsiguientes. Recientemente, los modelos de base visual (VFM) han demostrado poderosas capacidades de generalización en diversas tareas visuales. En este artículo, presentamos un enfoque adaptativo eficiente en parámetros, denominado Cloud-Adapter, diseñado para mejorar la precisión y robustez de la segmentación de nubes. Nuestro método aprovecha un VFM preentrenado en datos de dominio general, que permanece congelado, eliminando la necesidad de entrenamiento adicional. Cloud-Adapter incorpora un módulo de percepción espacial ligero que inicialmente utiliza una red neuronal convolucional (ConvNet) para extraer representaciones espaciales densas. Estas características a múltiples escalas se agregan y sirven como entradas contextuales a un módulo adaptativo, que modula las capas del transformador congeladas dentro del VFM. Los resultados experimentales demuestran que el enfoque Cloud-Adapter, utilizando solo el 0.6% de los parámetros entrenables de la columna vertebral congelada, logra ganancias de rendimiento sustanciales. Cloud-Adapter alcanza consistentemente un rendimiento de vanguardia (SOTA) en una amplia variedad de conjuntos de datos de segmentación de nubes de múltiples fuentes satelitales, series de sensores, niveles de procesamiento de datos, escenarios de cobertura terrestre y granularidades de anotación. Hemos publicado el código fuente y los modelos preentrenados en https://github.com/XavierJiezou/Cloud-Adapter para apoyar investigaciones futuras.
En los últimos años, la investigación en el área de la interacción humano-robot se ha centrado en desarrollar robots capaces de comprender instrucciones humanas complejas y llevar a cabo tareas en entornos dinámicos y diversos. Estos sistemas tienen una amplia gama de aplicaciones, desde asistencia personal hasta robótica industrial, destacando la importancia de que los robots interactúen de manera flexible, natural y segura con los humanos. Este artículo presenta una arquitectura avanzada para la planificación de acciones robóticas que integra la comunicación, percepción y planificación con Modelos de Lenguaje Amplio (LLMs). Nuestro sistema está diseñado para traducir comandos expresados en lenguaje natural en acciones ejecutables por el robot, incorporando información ambiental y actualizando planes dinámicamente en función de la retroalimentación en tiempo real. El Módulo de Planificación es el núcleo del sistema donde los LLMs integrados en un marco ReAct modificado se utilizan para interpretar y llevar a cabo los comandos del usuario. Al aprovechar su extenso conocimiento pre-entrenado, los LLMs pueden procesar eficazmente las solicitudes de los usuarios sin necesidad de introducir nuevos conocimientos sobre el entorno cambiante. El marco ReAct modificado mejora aún más el espacio de ejecución al proporcionar percepción ambiental en tiempo real y los resultados de las acciones físicas. Al combinar representaciones de mapas semánticos robustos y dinámicos como grafos con componentes de control y explicaciones de fallos, esta arquitectura mejora la adaptabilidad del robot, la ejecución de tareas y la colaboración fluida con los usuarios humanos en entornos compartidos y dinámicos. A través de la integración de bucles de retroalimentación continua con el entorno, el sistema puede ajustar dinámicamente el plan para adaptarse a cambios inesperados, optimizando la capacidad del robot para llevar a cabo tareas. Utilizando un conjunto de datos de experiencias anteriores, es posible proporcionar una retroalimentación detallada sobre el fallo. Actualizando el contexto de los LLMs en la próxima iteración con sugerencias sobre cómo superar el problema.