Artículos de investigación en IA seleccionados diariamente con traducciones
Los codificadores visuales suelen generar un gran número de tokens visuales, proporcionando representaciones ricas en información pero aumentando significativamente las demandas computacionales. Esto plantea la pregunta de si todos los tokens generados son igualmente valiosos o si algunos de ellos pueden descartarse para reducir los costos computacionales sin comprometer la calidad. En este artículo, presentamos un nuevo método para determinar la utilidad de las características basado en la idea de que las características menos valiosas pueden reconstruirse a partir de las más valiosas. Implementamos este concepto integrando un autoencoder con un mecanismo de selección Gumbel-Softmax, que permite identificar y retener solo los tokens visuales más informativos. Para validar nuestro enfoque, comparamos el rendimiento del modelo LLaVA-NeXT, utilizando características seleccionadas por nuestro método con características seleccionadas aleatoriamente. Descubrimos que en tareas basadas en OCR, más del 50% del contexto visual puede eliminarse con una pérdida mínima de rendimiento, mientras que descartar aleatoriamente la misma proporción de características afecta significativamente las capacidades del modelo. Además, en tareas de dominio general, incluso retener aleatoriamente solo el 30% de los tokens logra un rendimiento comparable al uso del conjunto completo de tokens visuales. Nuestros resultados destacan una dirección prometedora hacia una poda multimodal adaptativa y eficiente que facilita una inferencia escalable y de bajo costo sin comprometer el rendimiento.
Los problemas científicos multimodales (MSPs, por sus siglas en inglés) involucran cuestiones complejas que requieren la integración de múltiples modalidades, como texto y diagramas, lo que representa un desafío significativo en la inteligencia artificial. Si bien se ha avanzado en la resolución de problemas científicos tradicionales, los MSPs aún enfrentan dos problemas principales: el desafío del razonamiento integral multimodal en la resolución de problemas científicos y la falta de capacidades reflexivas y de reconsideración. Para abordar estos problemas, presentamos un marco de Multi-Agentes basado en la Personalidad de los Siete Grandes y la guía socrática (MAPS, por sus siglas en inglés). Este marco emplea siete agentes distintos que aprovechan mecanismos de retroalimentación y el método socrático para guiar la resolución de MSPs. Para abordar el primer problema, proponemos una estrategia de resolución progresiva de cuatro agentes, donde cada agente se enfoca en una etapa específica del proceso de resolución de problemas. Para el segundo problema, introducimos un agente Crítico, inspirado en el cuestionamiento socrático, que fomenta el pensamiento crítico y estimula el aprendizaje autónomo. Realizamos experimentos exhaustivos en los conjuntos de datos EMMA, Olimpiada y MathVista, obteniendo resultados prometedores que superan al modelo SOTA actual en un 15.84% en todas las tareas. Además, los experimentos analíticos adicionales también verifican el progreso del modelo, así como su capacidad de generalización.
El procesamiento eficiente de contextos largos ha sido una búsqueda constante en el Procesamiento del Lenguaje Natural. Con el creciente número de documentos extensos, diálogos y otros datos textuales, es importante desarrollar Modelos de Lenguaje de Contexto Largo (LCLMs, por sus siglas en inglés) que puedan procesar y analizar entradas extensas de manera efectiva y eficiente. En este artículo, presentamos una revisión exhaustiva de los avances recientes en el modelado de contextos largos para modelos de lenguaje grandes. Nuestra revisión se estructura en torno a tres aspectos clave: cómo obtener LCLMs efectivos y eficientes, cómo entrenar e implementar LCLMs de manera eficiente, y cómo evaluar y analizar LCLMs de manera integral. Para el primer aspecto, discutimos estrategias de datos, diseños arquitectónicos y enfoques de flujo de trabajo orientados al procesamiento de contextos largos. Para el segundo aspecto, proporcionamos un examen detallado de la infraestructura requerida para el entrenamiento e inferencia de LCLMs. Para el tercer aspecto, presentamos paradigmas de evaluación para la comprensión de contextos largos y la generación de textos extensos, así como el análisis conductual y la interpretabilidad de los mecanismos de los LCLMs. Más allá de estos tres aspectos clave, exploramos a fondo los diversos escenarios de aplicación donde se han implementado los LCLMs existentes y delineamos direcciones prometedoras para el desarrollo futuro. Esta revisión proporciona una actualización de la literatura sobre LCLMs, que esperamos sirva como un recurso valioso tanto para investigadores como para ingenieros. Un repositorio de GitHub asociado que recopila los últimos artículos y repositorios está disponible en: https://github.com/LCLM-Horizon/A-Comprehensive-Survey-For-Long-Context-Language-Modeling{\color[RGB]{175,36,67}{LCLM-Horizon}}.
El formato básico de respuesta a preguntas en los modelos de lenguaje de gran escala implica introducir un prompt y recibir una respuesta, donde la calidad del prompt impacta directamente en la efectividad de la respuesta. La Optimización Automática de Prompts (APO, por sus siglas en inglés) busca liberarse de los sesgos cognitivos de los prompts diseñados manualmente y explorar un espacio de diseño más amplio para los prompts. Sin embargo, los métodos existentes de APO enfrentan problemas clave como la flexibilidad limitada de plantillas fijas y la búsqueda ineficiente en los espacios de prompts. Para abordar esto, proponemos un marco de Multi-Agente que Incorpora Guía Socrática (MARS), el cual utiliza tecnología de fusión multi-agente para la planificación automática, con optimización y evaluación continua y gradual. Específicamente, MARS consta de siete agentes, cada uno con funcionalidades distintas, que utilizan autónomamente el Planificador para diseñar una ruta de optimización que garantiza flexibilidad. Además, emplea un patrón de diálogo socrático Maestro-Crítico-Estudiante para optimizar iterativamente los prompts mientras realiza una búsqueda efectiva. Realizamos extensos experimentos en diversos conjuntos de datos para validar la efectividad de nuestro método, y llevamos a cabo experimentos analíticos adicionales para evaluar el avance del modelo, así como su interpretabilidad.
Diseñar sistemas efectivos de agentes múltiples encarnados es crucial para resolver tareas complejas del mundo real en diversos dominios. Debido a la complejidad de los sistemas de agentes múltiples encarnados, los métodos existentes no logran generar automáticamente datos de entrenamiento seguros y eficientes para dichos sistemas. Con este fin, proponemos el concepto de restricciones composicionales para sistemas de agentes múltiples encarnados, abordando los desafíos que surgen de la colaboración entre agentes encarnados. Diseñamos varias interfaces adaptadas a diferentes tipos de restricciones, permitiendo una interacción fluida con el mundo físico. Aprovechando las restricciones composicionales y las interfaces específicamente diseñadas, desarrollamos un marco automatizado de recopilación de datos para sistemas de agentes múltiples encarnados e introducimos el primer punto de referencia para la manipulación de agentes múltiples encarnados, RoboFactory. Basándonos en el punto de referencia de RoboFactory, adaptamos y evaluamos el método de aprendizaje por imitación y analizamos su rendimiento en tareas de agentes con diferentes niveles de dificultad. Además, exploramos las arquitecturas y estrategias de entrenamiento para el aprendizaje por imitación de agentes múltiples, con el objetivo de construir sistemas de agentes múltiples encarnados seguros y eficientes.
Dado que las tareas de escritura creativa no tienen respuestas correctas únicas, los modelos de lenguaje de gran escala (LLMs) entrenados para realizar estas tareas deberían ser capaces de generar salidas válidas y diversas. Sin embargo, el post-entrenamiento de los LLMs a menudo se centra en mejorar la calidad de la generación, pero descuida facilitar la diversidad de las salidas. Por lo tanto, en la generación de escritura creativa, investigamos enfoques de post-entrenamiento para promover tanto la diversidad como la calidad de las salidas. Nuestra idea central es incluir la desviación —el grado de diferencia entre una muestra de entrenamiento y todas las demás muestras con el mismo prompt— en el objetivo de entrenamiento para facilitar el aprendizaje a partir de instancias raras y de alta calidad. Al adoptar nuestro enfoque en la optimización de preferencias directas (DPO) y la optimización de preferencias basada en la razón de probabilidades (ORPO), demostramos que podemos promover la diversidad de las salidas de los modelos entrenados mientras disminuimos mínimamente la calidad. Nuestro mejor modelo con 8B parámetros logró una diversidad comparable a la de un conjunto de datos creado por humanos, manteniendo una calidad de salida similar a los mejores modelos ajustados por instrucciones que examinamos, GPT-4o y DeepSeek-R1. Validamos adicionalmente nuestros enfoques con una evaluación humana, una ablación y una comparación con un enfoque de diversificación existente, DivPO.
Los modelos de generación visual autorregresivos suelen depender de tokenizadores para comprimir imágenes en tokens que pueden predecirse secuencialmente. Existe un dilema fundamental en la representación de tokens: los tokens discretos permiten un modelado directo con la función de pérdida de entropía cruzada estándar, pero sufren de pérdida de información e inestabilidad en el entrenamiento del tokenizador; los tokens continuos preservan mejor los detalles visuales, pero requieren un modelado complejo de distribuciones, lo que complica el pipeline de generación. En este artículo, proponemos TokenBridge, que cierra esta brecha al mantener la fuerte capacidad de representación de los tokens continuos mientras preserva la simplicidad de modelado de los tokens discretos. Para lograrlo, desacoplamos la discretización del proceso de entrenamiento del tokenizador mediante una cuantización post-entrenamiento que obtiene directamente tokens discretos a partir de representaciones continuas. Específicamente, introducimos una estrategia de cuantización por dimensión que discretiza de manera independiente cada dimensión de características, junto con un mecanismo de predicción autorregresivo ligero que modela eficientemente el gran espacio de tokens resultante. Experimentos extensivos muestran que nuestro enfoque logra una calidad de reconstrucción y generación comparable a los métodos continuos mientras utiliza predicción categórica estándar. Este trabajo demuestra que unir los paradigmas discreto y continuo puede aprovechar efectivamente las fortalezas de ambos enfoques, proporcionando una dirección prometedora para la generación visual de alta calidad con un modelado autorregresivo simple. Página del proyecto: https://yuqingwang1029.github.io/TokenBridge.
Los avatares realistas 3D de cuerpo completo con capacidad de habla tienen un gran potencial en la realidad aumentada (AR), con aplicaciones que van desde transmisiones en vivo de comercio electrónico hasta comunicación holográfica. A pesar de los avances en la técnica de 3D Gaussian Splatting (3DGS) para la creación de avatares realistas, los métodos existentes enfrentan dificultades para controlar de manera precisa las expresiones faciales y los movimientos corporales en tareas de habla de cuerpo completo. Además, a menudo carecen de detalles suficientes y no pueden ejecutarse en tiempo real en dispositivos móviles. Presentamos TaoAvatar, un avatar de cuerpo completo basado en 3DGS, de alta fidelidad y ligero, impulsado por diversas señales. Nuestro enfoque comienza con la creación de una plantilla paramétrica personalizada de un humano vestido que vincula los Gaussianos para representar las apariencias. Luego, preentrenamos una red basada en StyleUnet para manejar deformaciones no rígidas dependientes de la postura, que pueden capturar detalles de apariencia de alta frecuencia pero que son demasiado intensivas en recursos para dispositivos móviles. Para superar esto, "horneamos" las deformaciones no rígidas en una red ligera basada en MLP utilizando una técnica de destilación y desarrollamos formas de mezcla para compensar los detalles. Experimentos extensos muestran que TaoAvatar logra una calidad de renderizado de vanguardia mientras se ejecuta en tiempo real en diversos dispositivos, manteniendo 90 FPS en dispositivos estéreo de alta definición como el Apple Vision Pro.
Los avances recientes demostrados por DeepSeek-R1 han mostrado que las habilidades de razonamiento complejo en modelos de lenguaje de gran escala (LLMs), incluyendo comportamientos sofisticados como la autoverificación y la autocorrección, pueden lograrse mediante el aprendizaje por refuerzo (RL) con recompensas verificables, lo que mejora significativamente el rendimiento del modelo en tareas desafiantes como AIME. Motivados por estos hallazgos, nuestro estudio investiga si capacidades de razonamiento similares pueden integrarse exitosamente en modelos de visión y lenguaje de gran escala (LVLMs) y evalúa su impacto en tareas desafiantes de razonamiento multimodal. Consideramos un enfoque que aprovecha iterativamente el ajuste fino supervisado (SFT) en datos de entrenamiento livianos y el aprendizaje por refuerzo (RL) para mejorar aún más la generalización del modelo. Inicialmente, las capacidades de razonamiento se destilaron de los modelos R1 de texto puro generando pasos de razonamiento utilizando descripciones de alta calidad de las imágenes obtenidas de diversos conjuntos de datos visuales. Posteriormente, el entrenamiento iterativo con RL mejoró aún más las habilidades de razonamiento, con cada iteración del modelo mejorado por RL generando conjuntos de datos SFT refinados para la siguiente ronda. Este proceso iterativo dio lugar a OpenVLThinker, un LVLM que exhibe un rendimiento de razonamiento consistentemente mejorado en puntos de referencia desafiantes como MathVista, MathVerse y MathVision, demostrando el potencial de nuestra estrategia para un razonamiento robusto en visión y lenguaje. El código, el modelo y los datos se encuentran disponibles en https://github.com/yihedeng9/OpenVLThinker.
A pesar de los avances significativos en la generación de texto a video, lograr un control preciso y flexible sobre los atributos espacio-temporales de grano fino sigue siendo un desafío importante sin resolver en la investigación de generación de videos. Para abordar estas limitaciones, presentamos VCtrl (también denominado PP-VCtrl), un marco novedoso diseñado para permitir un control detallado sobre modelos de difusión de video preentrenados de manera unificada. VCtrl integra diversas señales de control especificadas por el usuario, como bordes Canny, máscaras de segmentación y puntos clave humanos, en modelos de difusión de video preentrenados a través de un módulo condicional generalizable capaz de codificar uniformemente múltiples tipos de señales auxiliares sin modificar el generador subyacente. Además, diseñamos una canalización unificada de codificación de señales de control y un mecanismo de conexión residual dispersa para incorporar eficientemente las representaciones de control. Experimentos exhaustivos y evaluaciones humanas demuestran que VCtrl mejora efectivamente la controlabilidad y la calidad de la generación. El código fuente y los modelos preentrenados están disponibles públicamente e implementados utilizando el marco PaddlePaddle en http://github.com/PaddlePaddle/PaddleMIX/tree/develop/ppdiffusers/examples/ppvctrl.
A pesar de su impresionante rendimiento en diversas tareas, los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) aún no han demostrado plenamente su potencial en la resolución de problemas matemáticos visuales, particularmente en la percepción e interpretación precisa de diagramas. Inspirados por los procesos típicos de los humanos, planteamos la hipótesis de que las capacidades de percepción para extraer información significativa de los diagramas son cruciales, ya que impactan directamente en los procesos de inferencia posteriores. Para validar esta hipótesis, desarrollamos FlowVerse, un benchmark integral que categoriza toda la información utilizada durante la resolución de problemas en cuatro componentes, los cuales se combinan en seis versiones de problemas para su evaluación. Nuestros resultados preliminares en FlowVerse revelan que los MLLMs existentes presentan limitaciones significativas al extraer información esencial y propiedades razonadas de los diagramas, así como al realizar razonamientos complejos basados en estas entradas visuales. En respuesta, introducimos MathFlow, una canalización modular de resolución de problemas que desacopla la percepción y la inferencia en etapas distintas, optimizando cada una de manera independiente. Dadas las limitaciones perceptivas observadas en los MLLMs actuales, entrenamos MathFlow-P-7B como un modelo de percepción dedicado. Los resultados experimentales indican que MathFlow-P-7B produce mejoras sustanciales en el rendimiento cuando se integra con diversos modelos de inferencia, tanto de código cerrado como abierto. Esto demuestra la efectividad de la canalización MathFlow y su compatibilidad con diversos marcos de inferencia. El benchmark FlowVerse y el código están disponibles en https://github.com/MathFlow-zju/MathFlow.
La personalización de la generación y edición de imágenes es particularmente desafiante cuando solo contamos con unas pocas imágenes del sujeto, o incluso una sola imagen. Un enfoque común para la personalización es el aprendizaje de conceptos, que puede integrar el sujeto en modelos existentes de manera relativamente rápida, pero produce imágenes cuya calidad tiende a deteriorarse rápidamente cuando el número de imágenes del sujeto es pequeño. La calidad puede mejorarse mediante el preentrenamiento de un codificador, pero el entrenamiento restringe la generación a la distribución de entrenamiento y consume mucho tiempo. Todavía es un desafío difícil y abierto personalizar la generación y edición de imágenes a partir de una sola imagen sin entrenamiento. Aquí presentamos SISO, un enfoque novedoso y sin entrenamiento basado en la optimización de una puntuación de similitud con una imagen de sujeto de entrada. Más específicamente, SISO genera imágenes de manera iterativa y optimiza el modelo basándose en la pérdida de similitud con la imagen del sujeto dada hasta que se alcanza un nivel satisfactorio de similitud, permitiendo una optimización plug-and-play para cualquier generador de imágenes. Evaluamos SISO en dos tareas, edición de imágenes y generación de imágenes, utilizando un conjunto de datos diverso de sujetos personales, y demostramos mejoras significativas sobre los métodos existentes en calidad de imagen, fidelidad del sujeto y preservación del fondo.
Evaluar con precisión la alineación semántica entre los textos de entrada y los videos generados sigue siendo un desafío en la Generación de Texto a Video (T2V). Las métricas existentes de alineación texto-video, como CLIPScore, solo generan puntuaciones de grano grueso sin detalles de alineación fina, lo que no se alinea con las preferencias humanas. Para abordar esta limitación, proponemos ETVA, un método novedoso de Evaluación de Alineación Texto-Video mediante la generación y respuesta de preguntas de grano fino. Primero, un sistema multiagente analiza los textos de entrada en grafos de escenas semánticas para generar preguntas atómicas. Luego, diseñamos un marco de razonamiento multietapa aumentado con conocimiento para responder preguntas, donde un LLM auxiliar primero recupera conocimiento de sentido común relevante (por ejemplo, leyes físicas), y luego un LLM de video responde las preguntas generadas a través de un mecanismo de razonamiento multietapa. Experimentos extensos demuestran que ETVA alcanza un coeficiente de correlación de Spearman de 58.47, mostrando una correlación mucho mayor con el juicio humano que las métricas existentes, que alcanzan solo 31.0. También construimos un benchmark integral diseñado específicamente para la evaluación de alineación texto-video, que incluye 2k textos de entrada diversos y 12k preguntas atómicas que abarcan 10 categorías. A través de una evaluación sistemática de 15 modelos existentes de texto a video, identificamos sus capacidades y limitaciones clave, allanando el camino para la próxima generación de generación T2V.
En este artículo, proponemos \textsc{FastCuRL}, un enfoque simple pero eficiente de Aprendizaje por Refuerzo con Currículo que utiliza una estrategia de extensión de ventana de contexto para acelerar la eficiencia del entrenamiento en modelos de razonamiento tipo R1, mejorando su rendimiento en tareas de razonamiento complejo con cadenas de pensamiento largas, particularmente con un modelo de lenguaje de 1.5B parámetros. \textsc{FastCuRL} consta de dos procedimientos principales: segmentación de datos de entrenamiento consciente de la longitud y entrenamiento con extensión de ventana de contexto. Específicamente, el primero divide los datos de entrenamiento originales en tres niveles diferentes según la longitud del prompt de entrada, y luego el segundo aprovecha conjuntos de datos segmentados con una longitud de ventana de contexto progresivamente creciente para entrenar el modelo de razonamiento. Los resultados experimentales demuestran que \textsc{FastCuRL}-1.5B-Preview supera a DeepScaleR-1.5B-Preview en los cinco conjuntos de datos evaluados (incluyendo MATH 500, AIME 2024, AMC 2023, Minerva Math y OlympiadBench) utilizando solo el 50\% de los pasos de entrenamiento. Además, todas las etapas de entrenamiento para FastCuRL-1.5B-Preview se completan utilizando un solo nodo con 8 GPUs.
En este artículo, presentamos MapBench, el primer conjunto de datos diseñado específicamente para la navegación exterior basada en mapas pixelados y legibles por humanos, creado a partir de escenarios complejos de búsqueda de rutas. MapBench incluye más de 1600 problemas de búsqueda de rutas en mapas de espacio de píxeles, derivados de 100 mapas diversos. En MapBench, los LVLM (Modelos de Lenguaje Visual de Gran Escala) generan instrucciones de navegación basadas en lenguaje a partir de una imagen de mapa y una consulta con puntos de inicio y fin. Para cada mapa, MapBench proporciona un Grafo de Escena en el Espacio del Mapa (MSSG) como estructura de datos de indexación para convertir entre lenguaje natural y evaluar los resultados generados por los LVLM. Demostramos que MapBench representa un desafío significativo para los LVLM más avanzados, tanto en el enfoque de prompting zero-shot como en un marco de razonamiento aumentado con Cadena de Pensamiento (CoT) que descompone la navegación en mapas en procesos cognitivos secuenciales. Nuestra evaluación de LVLM tanto de código abierto como cerrado subraya la considerable dificultad que plantea MapBench, revelando limitaciones críticas en sus capacidades de razonamiento espacial y toma de decisiones estructurada. Publicamos todo el código y el conjunto de datos en https://github.com/taco-group/MapBench.
Los Modelos de Visión y Lenguaje a Gran Escala (LVLMs, por sus siglas en inglés) han logrado avances significativos en la combinación de la comprensión visual con la generación de lenguaje. A pesar de este éxito, los datos de entrenamiento de los LVLMs aún sufren problemas de Distribución de Cola Larga (LT, por sus siglas en inglés), donde la distribución de datos está altamente desequilibrada. Trabajos anteriores se han centrado principalmente en arquitecturas tradicionales de VLM, como CLIP o ViT, y en tareas específicas como reconocimiento y clasificación. Sin embargo, la exploración de LVLM (por ejemplo, LLaVA) y tareas más generales (por ejemplo, Respuesta a Preguntas Visuales y Razonamiento Visual) sigue siendo insuficiente. En este artículo, primero realizamos un análisis en profundidad de los problemas de LT en los LVLMs e identificamos dos causas principales: la sobrerrepresentación de conceptos principales y la subrepresentación de conceptos de cola. Basándonos en la observación anterior, proponemos un Marco de Refinamiento de Datos Adaptativo (ADR, por sus siglas en inglés), que consta de dos etapas: Reequilibrio de Datos (DR, por sus siglas en inglés) y Síntesis de Datos (DS, por sus siglas en inglés). En la etapa de DR, reequilibramos adaptativamente los datos redundantes según las distribuciones de entidades, mientras que en la etapa de DS, aprovechamos los Modelos de Difusión Probabilística de Eliminación de Ruido (DDPMs, por sus siglas en inglés) y las imágenes escasas para complementar las porciones subrepresentadas. A través de evaluaciones exhaustivas en once benchmarks, nuestro ADR propuesto mitiga eficazmente el problema de cola larga en los datos de entrenamiento, mejorando el rendimiento promedio de LLaVA 1.5 en un 4.36% relativo, sin aumentar el volumen de datos de entrenamiento.
Los modelos de lenguaje de gran escala para video (ViLLMs, por sus siglas en inglés) sobresalen en la comprensión general de videos, por ejemplo, reconociendo actividades como hablar o comer, pero tienen dificultades con la comprensión basada en identidades, como "Wilson está recibiendo quimioterapia" o "Tom está discutiendo con Sarah", lo que limita su aplicabilidad en entornos de salud inteligente y hogares inteligentes. Para abordar esta limitación, proponemos un marco de aprendizaje de un solo disparo llamado PVChat, el primer ViLLM personalizado que permite respuestas a preguntas (QA) conscientes del sujeto a partir de un solo video por individuo. Nuestro enfoque optimiza un ViLLM mejorado con Mezcla de Cabezas (MoH) en un conjunto de datos de video-QA sintéticamente aumentado, aprovechando una estrategia de aprendizaje progresivo de imagen a video. Específicamente, introducimos una canalización de aumento automatizado que sintetiza muestras positivas que preservan la identidad y recupera negativos difíciles de corpus de video existentes, generando un conjunto de datos de entrenamiento diverso con cuatro tipos de QA: existencia, apariencia, acción y ubicación. Para mejorar el aprendizaje específico del sujeto, proponemos un mecanismo de atención MoH con Enrutamiento ReLU, junto con dos objetivos novedosos: (1) Regularización de Proximidad Suave para un aprendizaje progresivo mediante escalado exponencial de distancias y (2) Mejora de Activación de Cabezas para un enrutamiento de atención equilibrado. Finalmente, adoptamos una estrategia de entrenamiento en dos etapas, pasando del preentrenamiento en imágenes al ajuste fino en video, permitiendo un proceso de aprendizaje gradual desde atributos estáticos hasta representaciones dinámicas. Evaluamos PVChat en diversos conjuntos de datos que cubren escenarios médicos, series de televisión, anime y grabaciones del mundo real, demostrando su superioridad en la comprensión de características personalizadas después de aprender a partir de un solo video, en comparación con los ViLLMs más avanzados.
El sesgo implícito se refiere a procesos mentales automáticos o espontáneos que moldean percepciones, juicios y comportamientos. Investigaciones previas que examinan el "sesgo implícito" en modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) a menudo han abordado el fenómeno de manera diferente a como se estudia en humanos, centrándose principalmente en las salidas del modelo en lugar de en su procesamiento. Para examinar el procesamiento del modelo, presentamos un método llamado Prueba de Asociación Implícita del Modelo de Razonamiento (RM-IAT, por sus siglas en inglés) para estudiar patrones similares al sesgo implícito en modelos de razonamiento: LLMs que emplean un razonamiento paso a paso para resolver tareas complejas. Utilizando este método, encontramos que los modelos de razonamiento requieren más tokens al procesar información incompatible con la asociación en comparación con la información compatible con la asociación. Estos hallazgos sugieren que los sistemas de IA albergan patrones en el procesamiento de información que son análogos al sesgo implícito humano. Consideramos las implicaciones de estos patrones similares al sesgo implícito para su implementación en aplicaciones del mundo real.
En los últimos años, el campo de la generación de imágenes ha experimentado avances significativos, particularmente en métodos de ajuste fino que alinean los modelos con preferencias humanas universales. Este artículo explora el papel crucial de los datos de preferencia en el proceso de entrenamiento de modelos de difusión, especialmente en el contexto de Diffusion-DPO y sus adaptaciones posteriores. Investigamos las complejidades relacionadas con las preferencias humanas universales en la generación de imágenes, destacando la naturaleza subjetiva de estas preferencias y los desafíos planteados por las muestras minoritarias en los conjuntos de datos de preferencia. A través de experimentos piloto, demostramos la existencia de muestras minoritarias y sus efectos perjudiciales en el rendimiento del modelo. Proponemos Adaptive-DPO, un enfoque novedoso que incorpora una métrica consciente de las instancias minoritarias en el objetivo de DPO. Esta métrica, que incluye la confianza intra-anotador y la estabilidad inter-anotador, distingue entre muestras mayoritarias y minoritarias. Introducimos una función de pérdida Adaptive-DPO que mejora la pérdida de DPO de dos maneras: mejorando el aprendizaje de etiquetas mayoritarias por parte del modelo mientras mitiga el impacto negativo de las muestras minoritarias. Nuestros experimentos demuestran que este método maneja eficazmente tanto datos sintéticos minoritarios como datos de preferencia del mundo real, allanando el camino para metodologías de entrenamiento más efectivas en tareas de generación de imágenes.
La geolocalización de imágenes, en la que tradicionalmente un modelo de IA predice las coordenadas GPS precisas de una imagen, es una tarea desafiante con muchas aplicaciones posteriores. Sin embargo, el usuario no puede utilizar el modelo para ampliar su conocimiento más allá de la coordenada GPS; el modelo carece de una comprensión del lugar y de la capacidad conversacional para comunicarse con el usuario. En los últimos días, con el tremendo progreso de los modelos multimodales grandes (LMMs), tanto propietarios como de código abierto, los investigadores han intentado geolocalizar imágenes mediante LMMs. Sin embargo, los problemas siguen sin resolverse; más allá de tareas generales, para tareas posteriores más especializadas, una de las cuales es la geolocalización, los LMMs tienen dificultades. En este trabajo, proponemos resolver este problema introduciendo un modelo conversacional, GAEA, que puede proporcionar información sobre la ubicación de una imagen, según lo requiera el usuario. No existe un conjunto de datos a gran escala que permita el entrenamiento de dicho modelo. Por lo tanto, proponemos un conjunto de datos integral, GAEA, con 800K imágenes y alrededor de 1.6M pares de preguntas y respuestas construidos aprovechando los atributos de OpenStreetMap (OSM) y las pistas de contexto geográfico. Para la evaluación cuantitativa, proponemos un punto de referencia diverso que comprende 4K pares de imagen-texto para evaluar las capacidades conversacionales equipadas con diversos tipos de preguntas. Consideramos 11 LMMs de código abierto y propietarios de última generación y demostramos que GAEA supera significativamente al mejor modelo de código abierto, LLaVA-OneVision, en un 25.69% y al mejor modelo propietario, GPT-4o, en un 8.28%. Nuestro conjunto de datos, modelo y códigos están disponibles.
Los métodos recientes de edición facial 3D que utilizan máscaras han producido imágenes editadas de alta calidad aprovechando los Campos de Radiancia Neural (NeRF). A pesar de su rendimiento impresionante, los métodos existentes suelen ofrecer un control limitado al usuario debido al uso de máscaras de segmentación preentrenadas. Para utilizar máscaras con un diseño deseado, se requiere un extenso conjunto de datos de entrenamiento, lo cual es difícil de recopilar. Presentamos FFaceNeRF, una técnica de edición facial basada en NeRF que supera el desafío del control limitado del usuario debido al uso de diseños de máscaras fijos. Nuestro método emplea un adaptador de geometría con inyección de características, permitiendo una manipulación efectiva de los atributos geométricos. Además, adoptamos la mezcla latente para la ampliación de tri-planos, lo que permite el entrenamiento con pocas muestras. Esto facilita una rápida adaptación del modelo a los diseños de máscaras deseados, crucial para aplicaciones en campos como la imagen médica personalizada o la edición creativa de rostros. Nuestras evaluaciones comparativas demuestran que FFaceNeRF supera a los métodos existentes de edición facial basados en máscaras en términos de flexibilidad, control y calidad de las imágenes generadas, allanando el camino para futuros avances en la edición facial 3D personalizada y de alta fidelidad. El código está disponible en la {https://kwanyun.github.io/FFaceNeRF_page/{página-del-proyecto}}.
La segmentación generalizada de nubes de puntos 3D con pocos ejemplos (GFS-PCS, por sus siglas en inglés) adapta modelos a nuevas clases con pocas muestras de soporte, manteniendo la segmentación de las clases base. Los métodos existentes de GFS-PCS mejoran los prototipos mediante la interacción con características de soporte o consulta, pero siguen limitados por el conocimiento escaso derivado de las muestras de pocos ejemplos. Mientras tanto, los modelos de visión-lenguaje 3D (3D VLMs, por sus siglas en inglés), que generalizan a través de clases novedosas en entornos abiertos, contienen un conocimiento rico pero ruidoso sobre estas clases novedosas. En este trabajo, presentamos un marco de GFS-PCS que combina etiquetas pseudo densas pero ruidosas de los 3D VLMs con muestras precisas pero escasas de pocos ejemplos para maximizar las fortalezas de ambos, denominado GFS-VL. Específicamente, proponemos una selección de etiquetas pseudo guiada por prototipos para filtrar regiones de baja calidad, seguida de una estrategia de relleno adaptativo que combina el conocimiento de los contextos de las etiquetas pseudo y las muestras de pocos ejemplos para etiquetar de manera adaptativa las áreas filtradas y no etiquetadas. Además, diseñamos una estrategia de mezcla novedosa-base para integrar las muestras de pocos ejemplos en las escenas de entrenamiento, preservando el contexto esencial para mejorar el aprendizaje de clases novedosas. Asimismo, reconociendo la diversidad limitada en los puntos de referencia actuales de GFS-PCS, introducimos dos puntos de referencia desafiantes con diversas clases novedosas para una evaluación exhaustiva de la generalización. Los experimentos validan la efectividad de nuestro marco en diversos modelos y conjuntos de datos. Nuestro enfoque y puntos de referencia proporcionan una base sólida para avanzar en GFS-PCS en el mundo real. El código está disponible en https://github.com/ZhaochongAn/GFS-VL.