Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

TÜLU 3: Avanzando en los Límites en el Post-Entrenamiento de Modelos de Lenguaje Abiertos
TÜLU 3: Pushing Frontiers in Open Language Model Post-Training

Nov 22

ByNathan Lambert, Jacob Morrison, Valentina Pyatkin, Shengyi Huang, Hamish Ivison, Faeze Brahman, Lester James V. Miranda, Alisa Liu, Nouha Dziri, Shane Lyu, Yuling Gu, Saumya Malik, Victoria Graf, Jena D. Hwang, Jiangjiang Yang, Ronan Le Bras, Oyvind Tafjord, Chris Wilhelm, Luca Soldaini, Noah A. Smith, Yizhong Wang, Pradeep Dasigi, Hannaneh Hajishirzi

La post-entrenamiento del modelo de lenguaje se aplica para refinar comportamientos y desbloquear nuevas habilidades en una amplia gama de modelos de lenguaje recientes, pero las recetas abiertas para aplicar estas técnicas se quedan atrás de las propietarias. Los datos de entrenamiento subyacentes y las recetas para la post-entrenamiento son simultáneamente las piezas más importantes del rompecabezas y la porción con menos transparencia. Para cerrar esta brecha, presentamos TÜLU 3, una familia de modelos post-entrenados de vanguardia totalmente abiertos, junto con sus datos, código y recetas de entrenamiento, sirviendo como una guía integral para las técnicas modernas de post-entrenamiento. TÜLU 3, que se basa en los modelos base de Llama 3.1, logra resultados que superan a las versiones instructivas de Llama 3.1, Qwen 2.5, Mistral e incluso modelos cerrados como GPT-4o-mini y Claude 3.5-Haiku. Los algoritmos de entrenamiento para nuestros modelos incluyen ajuste fino supervisado (SFT), Optimización Directa de Preferencias (DPO) y un método novedoso que llamamos Aprendizaje por Refuerzo con Recompensas Verificables (RLVR). Con TÜLU 3, presentamos un esquema de evaluación multi-tarea para recetas de post-entrenamiento con evaluaciones de desarrollo y no vistas, implementaciones de referencia estándar y una descontaminación sustancial de conjuntos de datos abiertos existentes en dichas pruebas. Concluimos con un análisis y discusión de métodos de entrenamiento que no mejoraron el rendimiento de manera confiable. Además de los pesos del modelo TÜLU 3 y la demostración, publicamos la receta completa, que incluye conjuntos de datos para diversas habilidades básicas, un conjunto de herramientas robusto para curación y evaluación de datos, el código de entrenamiento y la infraestructura, y, lo más importante, un informe detallado para reproducir y adaptar aún más el enfoque de TÜLU 3 a más dominios.

OminiControl: Control Mínimo y Universal para el Transformador de Difusión
OminiControl: Minimal and Universal Control for Diffusion Transformer

Nov 22

ByZhenxiong Tan, Songhua Liu, Xingyi Yang, Qiaochu Xue, Xinchao Wang

En este documento, presentamos OminiControl, un marco altamente versátil y eficiente en parámetros que integra condiciones de imagen en modelos pre-entrenados de Transformadores de Difusión (DiT). En su núcleo, OminiControl aprovecha un mecanismo de reutilización de parámetros, permitiendo que el DiT codifique las condiciones de imagen utilizando a sí mismo como una columna vertebral poderosa y las procese con sus flexibles procesadores de atención multi-modales. A diferencia de los métodos existentes, que dependen en gran medida de módulos de codificador adicionales con arquitecturas complejas, OminiControl (1) incorpora de manera efectiva y eficiente condiciones de imagen inyectadas con solo ~0.1% de parámetros adicionales, y (2) aborda una amplia gama de tareas de condicionamiento de imagen de manera unificada, incluida la generación impulsada por el sujeto y condiciones alineadas espacialmente como bordes, profundidad y más. Notablemente, estas capacidades se logran entrenando en imágenes generadas por el propio DiT, lo cual es particularmente beneficioso para la generación impulsada por el sujeto. Evaluaciones exhaustivas demuestran que OminiControl supera a los modelos existentes basados en UNet y adaptados a DiT tanto en generación condicional impulsada por el sujeto como alineada espacialmente. Además, publicamos nuestro conjunto de datos de entrenamiento, Subjects200K, una colección diversa de más de 200,000 imágenes consistentes en identidad, junto con un eficiente proceso de síntesis de datos para avanzar en la investigación en generación consistente en sujetos.

Modelo de Texto a Imagen a Gran Escala con Relleno es un Generador de Imágenes Dirigido por Sujeto de Cero Disparos
Large-Scale Text-to-Image Model with Inpainting is a Zero-Shot Subject-Driven Image Generator

Nov 23

ByChaehun Shin, Jooyoung Choi, Heeseung Kim, Sungroh Yoon

La generación de imágenes impulsada por el sujeto tiene como objetivo producir imágenes de un nuevo sujeto dentro de un contexto deseado capturando con precisión tanto las características visuales del sujeto como el contenido semántico de una indicación de texto. Los métodos tradicionales dependen de un ajuste fino intensivo en tiempo y recursos para la alineación del sujeto, mientras que los enfoques recientes de cero disparo aprovechan la indicación de imágenes sobre la marcha, a menudo sacrificando la alineación del sujeto. En este documento, presentamos Diptych Prompting, un enfoque novedoso de cero disparo que reinterpretación como una tarea de relleno con alineación precisa del sujeto aprovechando la propiedad emergente de generación de dipticos en modelos de generación de texto a imagen a gran escala. Diptych Prompting coloca un diptico incompleto con la imagen de referencia en el panel izquierdo y realiza un relleno condicionado por texto en el panel derecho. Además, evitamos la fuga de contenido no deseado eliminando el fondo en la imagen de referencia y mejoramos los detalles finos en el sujeto generado al mejorar los pesos de atención entre los paneles durante el relleno. Los resultados experimentales confirman que nuestro enfoque supera significativamente a los métodos de indicación de imagen de cero disparo, lo que resulta en imágenes que son visualmente preferidas por los usuarios. Además, nuestro método no solo respalda la generación impulsada por el sujeto, sino también la generación de imágenes estilizadas y la edición de imágenes impulsada por el sujeto, demostrando versatilidad en diversas aplicaciones de generación de imágenes. Página del proyecto: https://diptychprompting.github.io/

Muestreador de SNR compatible con el estilo para Generación Dirigida por Estilo
Style-Friendly SNR Sampler for Style-Driven Generation

Nov 22

ByJooyoung Choi, Chaehun Shin, Yeongtak Oh, Heeseung Kim, Sungroh Yoon

Los modelos de difusión a gran escala recientes generan imágenes de alta calidad pero tienen dificultades para aprender nuevos estilos artísticos personalizados, lo que limita la creación de plantillas de estilo únicas. El ajuste fino con imágenes de referencia es el enfoque más prometedor, pero a menudo utiliza de manera ciega objetivos y distribuciones de niveles de ruido utilizados para el preentrenamiento, lo que conduce a un alineamiento de estilo subóptimo. Proponemos el muestreador de relación señal a ruido (SNR) amigable con el estilo, que desplaza agresivamente la distribución de SNR hacia niveles de ruido más altos durante el ajuste fino para centrarse en niveles de ruido donde emergen las características estilísticas. Esto permite a los modelos capturar mejor estilos únicos y generar imágenes con un mayor alineamiento de estilo. Nuestro método permite a los modelos de difusión aprender y compartir nuevas "plantillas de estilo", mejorando la creación de contenido personalizado. Demostramos la capacidad de generar estilos como pinturas acuarelas personales, dibujos animados minimalistas, renderizaciones en 3D, imágenes de varios paneles y memes con texto, ampliando así el alcance de la generación impulsada por el estilo.

Una Metodología Flexible para el Desarrollo de Barreras de Protección de Modelos de Lenguaje Grandes aplicada a la Detección de Temas Fuera de Contexto.
A Flexible Large Language Models Guardrail Development Methodology Applied to Off-Topic Prompt Detection

Nov 20

ByGabriel Chua, Shing Yee Chan, Shaun Khoo

Los Modelos de Lenguaje Grandes son propensos al uso fuera de tema, donde los usuarios pueden incitar a estos modelos a realizar tareas más allá de su alcance previsto. Las actuales salvaguardias, que a menudo se basan en ejemplos seleccionados o clasificadores personalizados, sufren de altas tasas de falsos positivos, limitada adaptabilidad y la impracticabilidad de requerir datos del mundo real que no están disponibles en preproducción. En este documento, presentamos una metodología flexible y sin datos para el desarrollo de salvaguardias que aborda estos desafíos. Al definir exhaustivamente el espacio del problema cualitativamente y pasar esto a un Modelo de Lenguaje Grande para generar diversas indicaciones, construimos un conjunto de datos sintético para evaluar y entrenar salvaguardias fuera de tema que superan a los enfoques heurísticos. Además, al enmarcar la tarea como clasificar si la indicación del usuario es relevante con respecto a la indicación del sistema, nuestras salvaguardias generalizan eficazmente a otras categorías de uso indebido, incluidas las indicaciones de desbloqueo y dañinas. Por último, contribuimos aún más al campo al hacer de código abierto tanto el conjunto de datos sintéticos como los modelos de salvaguardia fuera de tema, proporcionando recursos valiosos para el desarrollo de salvaguardias en entornos de preproducción y apoyando la investigación y desarrollo futuro en seguridad de Modelos de Lenguaje Grandes.

Mi Máquina del Tiempo: Transformación Personalizada de Edad Facial
MyTimeMachine: Personalized Facial Age Transformation

Nov 21

ByLuchao Qi, Jiaye Wu, Bang Gong, Annie N. Wang, David W. Jacobs, Roni Sengupta

El envejecimiento facial es un proceso complejo, altamente dependiente de múltiples factores como el género, la etnia, el estilo de vida, etc., lo que lo hace extremadamente desafiante aprender un envejecimiento global previo para predecir el envejecimiento de manera precisa para cualquier individuo. Las técnicas existentes a menudo producen resultados de envejecimiento realistas y plausibles, pero las imágenes rejuvenecidas a menudo no se asemejan a la apariencia de la persona en la edad objetivo y, por lo tanto, necesitan personalización. En muchas aplicaciones prácticas de envejecimiento virtual, por ejemplo en efectos visuales en películas y programas de televisión, suele estar disponible un conjunto de fotos personales del usuario que representan el envejecimiento en un pequeño intervalo de tiempo (20 a 40 años). Sin embargo, los intentos ingenuos de personalizar técnicas de envejecimiento global en colecciones de fotos personales a menudo fracasan. Por lo tanto, proponemos MyTimeMachine (MyTM), que combina un envejecimiento global previo con una colección de fotos personales (usando tan solo 50 imágenes) para aprender una transformación de edad personalizada. Introducimos una Red Adaptadora novedosa que combina características de envejecimiento personalizadas con características de envejecimiento global y genera una imagen rejuvenecida con StyleGAN2. También presentamos tres funciones de pérdida para personalizar la Red Adaptadora con pérdida de envejecimiento personalizada, regularización de extrapolación y regularización adaptativa de w-norma. Nuestro enfoque también puede extenderse a videos, logrando efectos de envejecimiento de alta calidad, que conservan la identidad y son temporalmente consistentes, asemejándose a las apariencias reales en las edades objetivo, demostrando su superioridad sobre los enfoques de vanguardia.

BALROG: Evaluación comparativa del razonamiento agente de LLM y VLM en juegos
BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games

Nov 20

ByDavide Paglieri, Bartłomiej Cupiał, Samuel Coward, Ulyana Piterbarg, Maciej Wolczyk, Akbir Khan, Eduardo Pignatelli, Łukasz Kuciński, Lerrel Pinto, Rob Fergus, Jakob Nicolaus Foerster, Jack Parker-Holder, Tim Rocktäschel

Los Modelos de Lenguaje Grandes (LLMs) y los Modelos de Lenguaje de Visión (VLMs) poseen un amplio conocimiento y exhiben habilidades de razonamiento prometedoras; sin embargo, todavía tienen dificultades para desempeñarse bien en entornos complejos y dinámicos. Las tareas del mundo real requieren manejar interacciones intrincadas, razonamiento espacial avanzado, planificación a largo plazo y exploración continua de nuevas estrategias, áreas en las que carecemos de metodologías efectivas para evaluar de manera integral estas capacidades. Para abordar esta brecha, presentamos BALROG, un nuevo punto de referencia diseñado para evaluar las capacidades agentes de LLMs y VLMs a través de un conjunto diverso de juegos desafiantes. Nuestro punto de referencia incorpora una variedad de entornos de aprendizaje por refuerzo existentes con diferentes niveles de dificultad, incluidas tareas que pueden ser resueltas por humanos no expertos en segundos hasta otras extremadamente desafiantes que pueden llevar años dominar (por ejemplo, el Entorno de Aprendizaje NetHack). Diseñamos métricas detalladas para medir el rendimiento y realizamos una evaluación exhaustiva de varios LLMs y VLMs populares de código abierto y cerrado. Nuestros hallazgos indican que si bien los modelos actuales logran un éxito parcial en los juegos más fáciles, tienen dificultades significativas con las tareas más desafiantes. Específicamente, observamos deficiencias graves en la toma de decisiones basada en visión, ya que los modelos tienen un peor rendimiento cuando se les proporcionan representaciones visuales de los entornos. Publicamos BALROG como un punto de referencia abierto y fácil de usar para facilitar la investigación y el desarrollo futuro en la comunidad agente.

Los modelos multimodales grandes pueden interpretar características en modelos multimodales grandes.
Large Multi-modal Models Can Interpret Features in Large Multi-modal Models

Nov 22

ByKaichen Zhang, Yifei Shen, Bo Li, Ziwei Liu

Los recientes avances en los Modelos Multimodales Grandes (LMMs) han llevado a avances significativos tanto en el ámbito académico como en la industria. Una pregunta que surge es cómo podemos, como humanos, entender las representaciones neuronales internas de estos modelos. Este artículo da un paso inicial hacia abordar esta pregunta al presentar un marco versátil para identificar e interpretar la semántica dentro de los LMMs. Específicamente, 1) primero aplicamos un Autoencoder Espaciado (SAE) para desentrañar las representaciones en características comprensibles para los humanos. 2) Luego presentamos un marco de interpretación automática para interpretar las características semánticas abiertas aprendidas en el SAE por los propios LMMs. Empleamos este marco para analizar el modelo LLaVA-NeXT-8B utilizando el modelo LLaVA-OV-72B, demostrando que estas características pueden dirigir efectivamente el comportamiento del modelo. Nuestros resultados contribuyen a una comprensión más profunda de por qué los LMMs sobresalen en tareas específicas, incluidas las pruebas de EQ, e iluminan la naturaleza de sus errores junto con estrategias potenciales para su rectificación. Estos hallazgos ofrecen nuevas perspectivas sobre los mecanismos internos de los LMMs y sugieren paralelismos con los procesos cognitivos del cerebro humano.

VideoEspresso: Un conjunto de datos a gran escala de cadena de pensamiento para razonamiento de video detallado a través de la selección de marcos centrales.
VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection

Nov 22

BySonghao Han, Wei Huang, Hairong Shi, Le Zhuo, Xiu Su, Shifeng Zhang, Xu Zhou, Xiaojuan Qi, Yue Liao, Si Liu

El avance de los Modelos de Lenguaje de Visión Amplia (LVLMs, por sus siglas en inglés) ha mejorado significativamente la comprensión multimodal, sin embargo, persisten desafíos en tareas de razonamiento de video debido a la escasez de conjuntos de datos a gran escala y de alta calidad. Los conjuntos de datos existentes de preguntas y respuestas de video (VideoQA) a menudo dependen de anotaciones manuales costosas con una granularidad insuficiente o de métodos de construcción automática con un análisis redundante de fotograma por fotograma, lo que limita su escalabilidad y efectividad para el razonamiento complejo. Para abordar estos desafíos, presentamos VideoEspresso, un nuevo conjunto de datos que incluye pares de VideoQA que conservan detalles espaciales esenciales y coherencia temporal, junto con anotaciones multimodales de pasos de razonamiento intermedios. Nuestro proceso de construcción emplea un método consciente de la semántica para reducir la redundancia, seguido por la generación de pares de preguntas y respuestas utilizando GPT-4o. Además, desarrollamos anotaciones de Cadena de Pensamiento (CoT) de video para enriquecer los procesos de razonamiento, guiando a GPT-4o en la extracción de relaciones lógicas de los pares de preguntas y respuestas y del contenido del video. Para aprovechar el potencial de los pares de VideoQA de alta calidad, proponemos un marco de Colaboración de LVLMs Híbridos, que incluye un Selector de Fotogramas y un LVLM de razonamiento afinado por instrucciones en dos etapas. Este marco selecciona de forma adaptativa fotogramas clave y realiza razonamiento CoT utilizando evidencia multimodal. Evaluado en nuestro banco de pruebas propuesto con 14 tareas frente a 9 LVLMs populares, nuestro método supera a las líneas de base existentes en la mayoría de las tareas, demostrando capacidades superiores de razonamiento de video. Nuestro código y conjunto de datos se publicarán en: https://github.com/hshjerry/VideoEspresso

Tokenización eficiente de videos largos a través de la Reconstrucción de Parches basada en Coordenadas.
Efficient Long Video Tokenization via Coordinated-based Patch Reconstruction

Nov 22

ByHuiwon Jang, Sihyun Yu, Jinwoo Shin, Pieter Abbeel, Younggyo Seo

La tokenización eficiente de videos sigue siendo un desafío en el entrenamiento de modelos de visión que pueden procesar videos largos. Una dirección prometedora es desarrollar un tokenizador que pueda codificar clips de video largos, ya que permitiría al tokenizador aprovechar mejor la coherencia temporal de los videos para la tokenización. Sin embargo, entrenar tokenizadores existentes en videos largos a menudo conlleva un gran costo de entrenamiento, ya que se entrenan para reconstruir todos los fotogramas a la vez. En este documento, presentamos CoordTok, un tokenizador de video que aprende un mapeo de representaciones basadas en coordenadas a los parches correspondientes de los videos de entrada, inspirado en los avances recientes en modelos generativos 3D. En particular, CoordTok codifica un video en representaciones triplano factorizadas y reconstruye parches que corresponden a coordenadas (x, y, t) muestreadas aleatoriamente. Esto permite entrenar modelos de tokenizador grandes directamente en videos largos sin requerir recursos de entrenamiento excesivos. Nuestros experimentos muestran que CoordTok puede reducir drásticamente el número de tokens para codificar clips de video largos. Por ejemplo, CoordTok puede codificar un video de 128 fotogramas con una resolución de 128x128 en 1280 tokens, mientras que los baselines necesitan 6144 o 8192 tokens para lograr una calidad de reconstrucción similar. Además, demostramos que esta tokenización eficiente de video permite el entrenamiento eficiente en memoria de un transformador de difusión que puede generar 128 fotogramas a la vez.

Extrapolación de Vistas Noveles con Priors de Difusión de Video
Novel View Extrapolation with Video Diffusion Priors

Nov 21

ByKunhao Liu, Ling Shao, Shijian Lu

El campo de la síntesis de vistas novedosas ha avanzado significativamente gracias al desarrollo de métodos de campo de radiación. Sin embargo, la mayoría de las técnicas de campo de radiación son mucho mejores en la interpolación de vistas novedosas que en la extrapolarización de vistas novedosas, donde las vistas novedosas sintetizadas están mucho más allá de las vistas de entrenamiento observadas. Diseñamos ViewExtrapolator, un enfoque de síntesis de vistas novedosas que aprovecha los conocimientos previos generativos de la Difusión de Video Estable (SVD) para una extrapolarización realista de vistas novedosas. Al rediseñar el proceso de eliminación de ruido de SVD, ViewExtrapolator perfecciona las vistas propensas a artefactos renderizadas por campos de radiación, mejorando en gran medida la claridad y realismo de las vistas novedosas sintetizadas. ViewExtrapolator es un extrapolarizador de vistas novedosas genérico que puede funcionar con diferentes tipos de renderizado 3D, como vistas renderizadas a partir de nubes de puntos cuando solo está disponible una vista única o un video monocular. Además, ViewExtrapolator no requiere ajustes finos de SVD, lo que lo hace tanto eficiente en datos como en computación. Experimentos extensos demuestran la superioridad de ViewExtrapolator en la extrapolarización de vistas novedosas. Página del proyecto: https://kunhao-liu.github.io/ViewExtrapolator/.

VideoRepair: Mejorando la Generación de Texto a Video a través de la Evaluación de Desalineación y Refinamiento Localizado
VideoRepair: Improving Text-to-Video Generation via Misalignment Evaluation and Localized Refinement

Nov 22

ByDaeun Lee, Jaehong Yoon, Jaemin Cho, Mohit Bansal

Los modelos de difusión texto-a-video (T2V) recientes han demostrado impresionantes capacidades de generación en diversos dominios. Sin embargo, estos modelos a menudo generan videos con desalineaciones respecto a las indicaciones de texto, especialmente cuando las indicaciones describen escenas complejas con múltiples objetos y atributos. Para abordar esto, presentamos VideoRepair, un novedoso marco de refinamiento de video independiente del modelo y sin necesidad de entrenamiento, que identifica automáticamente desalineaciones detalladas entre texto y video, y genera retroalimentación espacial y textual explícita, permitiendo que un modelo de difusión T2V realice refinamientos localizados y específicos. VideoRepair consta de cuatro etapas: En (1) evaluación de video, detectamos desalineaciones generando preguntas de evaluación detalladas y respondiéndolas con MLLM. En (2) planificación de refinamiento, identificamos objetos generados con precisión y luego creamos indicaciones localizadas para refinar otras áreas en el video. Luego, en (3) descomposición de regiones, segmentamos el área generada correctamente utilizando un módulo de anclaje combinado. Regeneramos el video ajustando las regiones desalineadas mientras preservamos las regiones correctas en (4) refinamiento localizado. En dos populares bancos de pruebas de generación de video (EvalCrafter y T2V-CompBench), VideoRepair supera sustancialmente a los puntos de referencia recientes en diversas métricas de alineación texto-video. Proporcionamos un análisis exhaustivo de los componentes de VideoRepair y ejemplos cualitativos.

WildLMa: Manipulación Loco-Manipulativa a Largo Plazo en Entornos Naturales
WildLMa: Long Horizon Loco-Manipulation in the Wild

Nov 22

ByRi-Zhao Qiu, Yuchen Song, Xuanbin Peng, Sai Aneesh Suryadevara, Ge Yang, Minghuan Liu, Mazeyu Ji, Chengzhe Jia, Ruihan Yang, Xueyan Zou, Xiaolong Wang

La manipulación móvil 'en entornos naturales' tiene como objetivo desplegar robots en diversos entornos del mundo real, lo que requiere que el robot (1) tenga habilidades que se generalicen a través de configuraciones de objetos; (2) sea capaz de ejecutar tareas a largo plazo en entornos diversos; y (3) realice manipulaciones complejas más allá de recoger y colocar objetos. Los robots cuadrúpedos con manipuladores prometen extender el espacio de trabajo y permitir una locomoción robusta, pero los resultados existentes no investigan tal capacidad. Este artículo propone WildLMa con tres componentes para abordar estos problemas: (1) adaptación de un controlador de bajo nivel aprendido para teleoperación de cuerpo completo habilitada para RV y capacidad de atravesar terrenos; (2) WildLMa-Skill: una biblioteca de habilidades visuomotoras generalizables adquiridas mediante aprendizaje por imitación o heurísticas y (3) WildLMa-Planner: una interfaz de habilidades aprendidas que permiten a los planificadores de LLM coordinar habilidades para tareas a largo plazo. Demostramos la importancia de los datos de entrenamiento de alta calidad al lograr una tasa de éxito de agarre más alta que las líneas base de RL existentes utilizando solo decenas de demostraciones. WildLMa aprovecha CLIP para el aprendizaje por imitación condicionado por lenguaje que generaliza empíricamente a objetos no vistos en las demostraciones de entrenamiento. Además de una extensa evaluación cuantitativa, demostramos cualitativamente aplicaciones prácticas de robots, como limpiar la basura en pasillos universitarios o terrenos al aire libre, operar objetos articulados y reorganizar elementos en una estantería.

Adaptación de Modelos de Base de Visión para una Segmentación en la Nube Robusta en Imágenes de Teledetección
Adapting Vision Foundation Models for Robust Cloud Segmentation in Remote Sensing Images

Nov 20

ByXuechao Zou, Shun Zhang, Kai Li, Shiying Wang, Junliang Xing, Lei Jin, Congyan Lang, Pin Tao

La segmentación de nubes es un desafío crítico en la interpretación de imágenes de teledetección, ya que su precisión impacta directamente en la efectividad del procesamiento y análisis de datos subsiguientes. Recientemente, los modelos de base visual (VFM) han demostrado poderosas capacidades de generalización en diversas tareas visuales. En este artículo, presentamos un enfoque adaptativo eficiente en parámetros, denominado Cloud-Adapter, diseñado para mejorar la precisión y robustez de la segmentación de nubes. Nuestro método aprovecha un VFM preentrenado en datos de dominio general, que permanece congelado, eliminando la necesidad de entrenamiento adicional. Cloud-Adapter incorpora un módulo de percepción espacial ligero que inicialmente utiliza una red neuronal convolucional (ConvNet) para extraer representaciones espaciales densas. Estas características a múltiples escalas se agregan y sirven como entradas contextuales a un módulo adaptativo, que modula las capas del transformador congeladas dentro del VFM. Los resultados experimentales demuestran que el enfoque Cloud-Adapter, utilizando solo el 0.6% de los parámetros entrenables de la columna vertebral congelada, logra ganancias de rendimiento sustanciales. Cloud-Adapter alcanza consistentemente un rendimiento de vanguardia (SOTA) en una amplia variedad de conjuntos de datos de segmentación de nubes de múltiples fuentes satelitales, series de sensores, niveles de procesamiento de datos, escenarios de cobertura terrestre y granularidades de anotación. Hemos publicado el código fuente y los modelos preentrenados en https://github.com/XavierJiezou/Cloud-Adapter para apoyar investigaciones futuras.

Uno para gobernarlos a todos: lenguaje natural para unir comunicación, percepción y acción.
One to rule them all: natural language to bind communication, perception and action

Nov 22

BySimone Colombani, Dimitri Ognibene, Giuseppe Boccignone

En los últimos años, la investigación en el área de la interacción humano-robot se ha centrado en desarrollar robots capaces de comprender instrucciones humanas complejas y llevar a cabo tareas en entornos dinámicos y diversos. Estos sistemas tienen una amplia gama de aplicaciones, desde asistencia personal hasta robótica industrial, destacando la importancia de que los robots interactúen de manera flexible, natural y segura con los humanos. Este artículo presenta una arquitectura avanzada para la planificación de acciones robóticas que integra la comunicación, percepción y planificación con Modelos de Lenguaje Amplio (LLMs). Nuestro sistema está diseñado para traducir comandos expresados en lenguaje natural en acciones ejecutables por el robot, incorporando información ambiental y actualizando planes dinámicamente en función de la retroalimentación en tiempo real. El Módulo de Planificación es el núcleo del sistema donde los LLMs integrados en un marco ReAct modificado se utilizan para interpretar y llevar a cabo los comandos del usuario. Al aprovechar su extenso conocimiento pre-entrenado, los LLMs pueden procesar eficazmente las solicitudes de los usuarios sin necesidad de introducir nuevos conocimientos sobre el entorno cambiante. El marco ReAct modificado mejora aún más el espacio de ejecución al proporcionar percepción ambiental en tiempo real y los resultados de las acciones físicas. Al combinar representaciones de mapas semánticos robustos y dinámicos como grafos con componentes de control y explicaciones de fallos, esta arquitectura mejora la adaptabilidad del robot, la ejecución de tareas y la colaboración fluida con los usuarios humanos en entornos compartidos y dinámicos. A través de la integración de bucles de retroalimentación continua con el entorno, el sistema puede ajustar dinámicamente el plan para adaptarse a cambios inesperados, optimizando la capacidad del robot para llevar a cabo tareas. Utilizando un conjunto de datos de experiencias anteriores, es posible proporcionar una retroalimentación detallada sobre el fallo. Actualizando el contexto de los LLMs en la próxima iteración con sugerencias sobre cómo superar el problema.

Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

TÜLU 3: Avanzando en los Límites en el Post-Entrenamiento de Modelos de Lenguaje Abiertos
TÜLU 3: Pushing Frontiers in Open Language Model Post-Training

Nov 22

OminiControl: Control Mínimo y Universal para el Transformador de Difusión
OminiControl: Minimal and Universal Control for Diffusion Transformer

Nov 22

ByZhenxiong Tan, Songhua Liu, Xingyi Yang, Qiaochu Xue, Xinchao Wang

Modelo de Texto a Imagen a Gran Escala con Relleno es un Generador de Imágenes Dirigido por Sujeto de Cero Disparos
Large-Scale Text-to-Image Model with Inpainting is a Zero-Shot Subject-Driven Image Generator

Nov 23

ByChaehun Shin, Jooyoung Choi, Heeseung Kim, Sungroh Yoon

Muestreador de SNR compatible con el estilo para Generación Dirigida por Estilo
Style-Friendly SNR Sampler for Style-Driven Generation

Nov 22

ByJooyoung Choi, Chaehun Shin, Yeongtak Oh, Heeseung Kim, Sungroh Yoon

Una Metodología Flexible para el Desarrollo de Barreras de Protección de Modelos de Lenguaje Grandes aplicada a la Detección de Temas Fuera de Contexto.
A Flexible Large Language Models Guardrail Development Methodology Applied to Off-Topic Prompt Detection

Nov 20

ByGabriel Chua, Shing Yee Chan, Shaun Khoo

Mi Máquina del Tiempo: Transformación Personalizada de Edad Facial
MyTimeMachine: Personalized Facial Age Transformation

Nov 21

ByLuchao Qi, Jiaye Wu, Bang Gong, Annie N. Wang, David W. Jacobs, Roni Sengupta

BALROG: Evaluación comparativa del razonamiento agente de LLM y VLM en juegos
BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games

Nov 20

Los modelos multimodales grandes pueden interpretar características en modelos multimodales grandes.
Large Multi-modal Models Can Interpret Features in Large Multi-modal Models

Nov 22

ByKaichen Zhang, Yifei Shen, Bo Li, Ziwei Liu

VideoEspresso: Un conjunto de datos a gran escala de cadena de pensamiento para razonamiento de video detallado a través de la selección de marcos centrales.
VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection

Nov 22

BySonghao Han, Wei Huang, Hairong Shi, Le Zhuo, Xiu Su, Shifeng Zhang, Xu Zhou, Xiaojuan Qi, Yue Liao, Si Liu

Tokenización eficiente de videos largos a través de la Reconstrucción de Parches basada en Coordenadas.
Efficient Long Video Tokenization via Coordinated-based Patch Reconstruction

Nov 22

ByHuiwon Jang, Sihyun Yu, Jinwoo Shin, Pieter Abbeel, Younggyo Seo

Extrapolación de Vistas Noveles con Priors de Difusión de Video
Novel View Extrapolation with Video Diffusion Priors

Nov 21

ByKunhao Liu, Ling Shao, Shijian Lu

VideoRepair: Mejorando la Generación de Texto a Video a través de la Evaluación de Desalineación y Refinamiento Localizado
VideoRepair: Improving Text-to-Video Generation via Misalignment Evaluation and Localized Refinement

Nov 22

ByDaeun Lee, Jaehong Yoon, Jaemin Cho, Mohit Bansal

WildLMa: Manipulación Loco-Manipulativa a Largo Plazo en Entornos Naturales
WildLMa: Long Horizon Loco-Manipulation in the Wild

Nov 22

ByRi-Zhao Qiu, Yuchen Song, Xuanbin Peng, Sai Aneesh Suryadevara, Ge Yang, Minghuan Liu, Mazeyu Ji, Chengzhe Jia, Ruihan Yang, Xueyan Zou, Xiaolong Wang

Adaptación de Modelos de Base de Visión para una Segmentación en la Nube Robusta en Imágenes de Teledetección
Adapting Vision Foundation Models for Robust Cloud Segmentation in Remote Sensing Images

Nov 20

ByXuechao Zou, Shun Zhang, Kai Li, Shiying Wang, Junliang Xing, Lei Jin, Congyan Lang, Pin Tao

Uno para gobernarlos a todos: lenguaje natural para unir comunicación, percepción y acción.
One to rule them all: natural language to bind communication, perception and action

Nov 22

BySimone Colombani, Dimitri Ognibene, Giuseppe Boccignone