Artículos de investigación en IA seleccionados diariamente con traducciones
La planificación con observación parcial es un desafío central en la IA incorporada. La mayoría de trabajos previos han abordado este desafío desarrollando agentes que exploran físicamente su entorno para actualizar sus creencias sobre el estado del mundo. En contraste, los humanos pueden imaginar partes no vistas del mundo a través de una exploración mental y revisar sus creencias con observaciones imaginadas. Estas creencias actualizadas les permiten tomar decisiones más informadas, sin necesidad de explorar físicamente el mundo en todo momento. Para lograr esta capacidad similar a la humana, presentamos el Explorador de Mundo Generativo (Genex), un marco de exploración del mundo egocéntrico que permite a un agente explorar mentalmente un mundo 3D a gran escala (por ejemplo, escenas urbanas) y adquirir observaciones imaginadas para actualizar sus creencias. Estas creencias actualizadas ayudarán al agente a tomar decisiones más informadas en el paso actual. Para entrenar a Genex, creamos un conjunto de datos sintético de escenas urbanas, Genex-DB. Nuestros resultados experimentales demuestran que (1) Genex puede generar observaciones de alta calidad y consistentes durante la exploración a largo plazo de un mundo físico virtual grande y (2) las creencias actualizadas con las observaciones generadas pueden informar a un modelo de toma de decisiones existente (por ejemplo, un agente LLM) para planificar mejor.
La aparición y creciente popularidad de los modelos de lenguaje grandes multimodales (MLLMs) tienen un potencial significativo para mejorar varios aspectos de la vida diaria, desde mejorar la comunicación hasta facilitar el aprendizaje y la resolución de problemas. Los teléfonos móviles, como compañeros diarios esenciales, representan la plataforma de implementación más efectiva y accesible para los MLLMs, permitiendo una integración fluida en las tareas cotidianas. Sin embargo, desplegar MLLMs en teléfonos móviles presenta desafíos debido a limitaciones en el tamaño de la memoria y la capacidad computacional, lo que dificulta lograr un procesamiento suave y en tiempo real sin una optimización extensiva. En este documento, presentamos BlueLM-V-3B, un enfoque de co-diseño de algoritmo y sistema específicamente diseñado para el despliegue eficiente de MLLMs en plataformas móviles. Específicamente, rediseñamos el esquema de resolución dinámica adoptado por los MLLMs convencionales e implementamos optimización del sistema para el despliegue consciente del hardware para optimizar la inferencia del modelo en teléfonos móviles. BlueLM-V-3B cuenta con los siguientes aspectos destacados clave: (1) Tamaño Pequeño: BlueLM-V-3B presenta un modelo de lenguaje con 2.7B parámetros y un codificador de visión con 400M parámetros. (2) Velocidad Rápida: BlueLM-V-3B logra una velocidad de generación de 24.4 tokens/s en el procesador MediaTek Dimensity 9300 con cuantificación de peso de LLM de 4 bits. (3) Alto Rendimiento: BlueLM-V-3B ha alcanzado la puntuación promedio más alta de 66.1 en el benchmark OpenCompass entre modelos con parámetros leq 4B y ha superado a una serie de modelos con tamaños de parámetros mucho más grandes (por ejemplo, MiniCPM-V-2.6, InternVL2-8B).
Presentamos un enfoque unificado de generación de video controlable, AnimateAnything, que facilita la manipulación precisa y consistente de videos en diversas condiciones, incluidas trayectorias de cámara, indicaciones de texto y anotaciones de movimiento del usuario. Específicamente, diseñamos cuidadosamente una red de fusión de características de control multinivel para construir una representación de movimiento común para diferentes condiciones. Convierte explícitamente toda la información de control en flujos ópticos de fotograma a fotograma. Luego incorporamos los flujos ópticos como prioridades de movimiento para guiar la generación final de video. Además, para reducir los problemas de parpadeo causados por movimientos a gran escala, proponemos un módulo de estabilización basado en frecuencia. Puede mejorar la coherencia temporal al garantizar la consistencia en el dominio de frecuencia del video. Los experimentos demuestran que nuestro método supera a los enfoques de vanguardia. Para obtener más detalles y videos, consulte la página web: https://yu-shaonian.github.io/Animate_Anything/.
La evolución del aprendizaje automático ha priorizado cada vez más el desarrollo de modelos potentes y señales de supervisión más escalables. Sin embargo, la aparición de modelos fundamentales presenta desafíos significativos en cuanto a proporcionar señales de supervisión efectivas necesarias para mejorar aún más sus capacidades. En consecuencia, existe una necesidad urgente de explorar señales de supervisión y enfoques técnicos novedosos. En este documento, proponemos la ingeniería de verificadores, un novedoso paradigma de post-entrenamiento diseñado específicamente para la era de los modelos fundamentales. El núcleo de la ingeniería de verificadores implica aprovechar un conjunto de verificadores automatizados para realizar tareas de verificación y proporcionar retroalimentación significativa a los modelos fundamentales. Categorizamos sistemáticamente el proceso de ingeniería de verificadores en tres etapas esenciales: búsqueda, verificación y retroalimentación, y ofrecemos una revisión exhaustiva de los desarrollos de investigación de vanguardia en cada etapa. Creemos que la ingeniería de verificadores constituye un camino fundamental hacia la consecución de la Inteligencia Artificial General.
Los modelos de lenguaje grandes (LLMs) suelen emplear decodificación codiciosa o muestreo de baja temperatura para tareas de razonamiento, reflejando un supuesto compromiso entre diversidad y precisión. Desafiamos esta convención al introducir top-nsigma, un novedoso método de muestreo que opera directamente en los logitos previos a la función softmax mediante el uso de un umbral estadístico. Nuestra clave de comprensión es que los logitos naturalmente se separan en una región ruidosa distribuida de forma gaussiana y una región informativa distintiva, lo que permite un filtrado eficiente de tokens sin manipulaciones complejas de probabilidad. A diferencia de métodos existentes (por ejemplo, top-p, min-p) que incluyen inadvertidamente más tokens de ruido a temperaturas más altas, top-nsigma mantiene un espacio de muestreo estable independientemente de la escala de temperatura. También proporcionamos un análisis teórico de top-nsigma para comprender mejor su comportamiento. Los extensos resultados experimentales en cuatro conjuntos de datos centrados en el razonamiento demuestran que nuestro método no solo supera a enfoques de muestreo existentes, sino que también sobrepasa la decodificación codiciosa, manteniendo un rendimiento consistente incluso a altas temperaturas.
Los reordenadores, típicamente codificadores cruzados, suelen utilizarse para volver a puntuar los documentos recuperados por sistemas de recuperación de información inicial más económicos. Esto se debe a que, aunque son costosos, se asume que los reordenadores son más efectivos. Desafiamos esta suposición al medir el rendimiento de los reordenadores para la recuperación completa, no solo para volver a puntuar la recuperación de la primera etapa. Nuestros experimentos revelan una tendencia sorprendente: los mejores reordenadores existentes ofrecen rendimientos decrecientes al puntuar progresivamente más documentos y en realidad degradan la calidad más allá de cierto límite. De hecho, en este escenario, los reordenadores a menudo pueden asignar puntuaciones altas a documentos sin solapamiento léxico o semántico con la consulta. Esperamos que nuestros hallazgos estimulen futuras investigaciones para mejorar el reordenamiento.
Aunque la prueba virtual de prendas basada en imágenes ha avanzado considerablemente, los enfoques emergentes aún enfrentan desafíos para producir imágenes de ajuste de alta fidelidad y robustas en diversos escenarios. Estos métodos a menudo tienen dificultades con problemas como el mantenimiento consciente de la textura y el ajuste consciente del tamaño, que obstaculizan su efectividad general. Para abordar estas limitaciones, proponemos una novedosa técnica de mejora de la percepción de prendas, denominada FitDiT, diseñada para la prueba virtual de alta fidelidad utilizando Transformadores de Difusión (DiT) que asignan más parámetros y atención a características de alta resolución. En primer lugar, para mejorar aún más el mantenimiento consciente de la textura, introducimos un extractor de textura de prendas que incorpora la evolución de prioridades de prendas para ajustar finamente la característica de la prenda, facilitando la captura de detalles ricos como rayas, patrones y texto. Además, introducimos el aprendizaje en el dominio de frecuencia mediante la personalización de una pérdida de distancia de frecuencia para mejorar los detalles de alta frecuencia de la prenda. Para abordar el problema del ajuste consciente del tamaño, empleamos una estrategia de máscara dilatada-relajada que se adapta a la longitud correcta de las prendas, evitando la generación de prendas que llenen toda el área de la máscara durante la prueba cruzada entre categorías. Equipado con el diseño anterior, FitDiT supera a todos los baselines en evaluaciones cualitativas y cuantitativas. Destaca en la producción de prendas bien ajustadas con detalles fotorrealistas e intrincados, al tiempo que logra tiempos de inferencia competitivos de 4.57 segundos para una sola imagen de 1024x768 después de reducir la estructura de DiT, superando a los métodos existentes.
Si bien los modelos de lenguaje pequeños (SLMs) muestran promesas para su implementación en dispositivos móviles, su rendimiento y aplicaciones en el mundo real en teléfonos inteligentes siguen siendo poco explorados. Presentamos SlimLM, una serie de SLMs optimizados para tareas de asistencia documental en dispositivos móviles. A través de experimentos exhaustivos en un Samsung Galaxy S24, identificamos los compromisos óptimos entre el tamaño del modelo (que varía de 125M a 7B parámetros), la longitud del contexto y el tiempo de inferencia para un procesamiento eficiente en el dispositivo. SlimLM se pre-entrena en SlimPajama-627B y se ajusta finamente en DocAssist, nuestro conjunto de datos construido para tareas de resumen, respuesta a preguntas y sugerencias. Nuestro modelo más pequeño demuestra un rendimiento eficiente en S24, mientras que las variantes más grandes ofrecen capacidades mejoradas dentro de las limitaciones móviles. Evaluamos SlimLM frente a SLMs existentes, mostrando un rendimiento comparable o superior y ofreciendo un punto de referencia para futuras investigaciones en modelos de lenguaje en dispositivos. También proporcionamos una aplicación para Android, que ofrece ideas prácticas sobre la implementación de SLMs. Nuestros hallazgos ofrecen información valiosa e iluminan las capacidades de ejecutar modelos de lenguaje avanzados en teléfonos inteligentes de alta gama, lo que potencialmente reduce los costos del servidor y mejora la privacidad a través del procesamiento en el dispositivo.
Los avances recientes en la inteligencia artificial generativa han promovido significativamente la creación y edición de contenido, donde estudios predominantes amplían aún más este emocionante progreso a la edición de video. Al hacerlo, estos estudios transfieren principalmente los patrones de movimiento inherentes de los videos fuente a los editados, donde a menudo se observan resultados con una consistencia inferior a las indicaciones del usuario, debido a la falta de alineaciones particulares entre los movimientos entregados y los contenidos editados. Para abordar esta limitación, presentamos en este documento un método de edición de video consistente en forma, denominado StableV2V. Nuestro método descompone todo el proceso de edición en varios procedimientos secuenciales, donde edita el primer fotograma del video, establece luego una alineación entre los movimientos entregados y las indicaciones del usuario, y finalmente propaga los contenidos editados a todos los demás fotogramas basándose en dicha alineación. Además, creamos un banco de pruebas, denominado DAVIS-Edit, para una evaluación exhaustiva de la edición de video, considerando varios tipos de indicaciones y dificultades. Los resultados experimentales y análisis ilustran el rendimiento sobresaliente, la consistencia visual y la eficiencia de inferencia de nuestro método en comparación con los estudios existentes de vanguardia.
A medida que la investigación de Modelos de Lenguaje Multimodales a Gran Escala (MLLMs) se vuelve popular, típicamente se requiere que un modelo MLLM avanzado maneje diversas tareas textuales y visuales (por ejemplo, VQA, Detección, OCR y ChartQA) simultáneamente para aplicaciones del mundo real. Sin embargo, debido a las significativas diferencias en la representación y distribución entre los datos de diversas tareas, simplemente mezclar los datos de todas las tareas conduce al conocido problema de "conflicto multi-tarea", lo que resulta en una degradación del rendimiento en diversas tareas. Para abordar este problema, proponemos Awaker2.5-VL, una arquitectura de Mezcla de Expertos (MoE) adecuada para MLLM, que adquiere capacidades multi-tarea a través de múltiples expertos activados de forma dispersa. Para acelerar el entrenamiento y la inferencia de Awaker2.5-VL, cada experto en nuestro modelo está diseñado como una estructura de adaptación de rango bajo (LoRA). Experimentos extensos en múltiples benchmarks recientes demuestran la efectividad de Awaker2.5-VL. El código y los pesos del modelo se han publicado en nuestra Página del Proyecto: https://github.com/MetabrainAGI/Awaker.
Durante el descifrado del modelo de lenguaje, se sabe que el uso de una temperatura más alta en el muestreo produce respuestas más creativas, mientras que temperaturas más bajas son más precisas en cuanto a los hechos. Sin embargo, dichos modelos suelen aplicarse comúnmente a la instrucción general, que implica tareas tanto creativas como de búsqueda de hechos, utilizando una temperatura fija única para todos los ejemplos y tokens. En este trabajo, presentamos la Decodificación Adaptativa, una capa añadida al modelo para seleccionar dinámicamente la temperatura de muestreo en tiempo de inferencia, ya sea a nivel de token o de ejemplo, con el fin de optimizar el rendimiento. Para aprender sus parámetros, introducimos la Optimización de Preferencias Latentes (OPL), un enfoque general para entrenar variables latentes discretas como las elecciones de temperatura. Nuestro método supera a todas las temperaturas fijas de descodificación en una variedad de tareas que requieren diferentes temperaturas, incluyendo UltraFeedback, Escritura de Historias Creativas y GSM8K.
Creamos dos modelos decodificadores exclusivamente en alemán, LL\"aMmlein 120M y 1B, de forma transparente desde cero y los publicamos, junto con los datos de entrenamiento, para que la comunidad de investigación en Procesamiento del Lenguaje Natural en alemán los utilice. El entrenamiento del modelo involucró varios pasos clave, incluyendo un extenso preprocesamiento de datos, la creación de un tokenizador alemán personalizado, el propio entrenamiento, así como la evaluación de los modelos finales en varios benchmarks. A lo largo del proceso de entrenamiento, se guardaron múltiples puntos de control y se analizaron utilizando el benchmark SuperGLEBer para monitorear la dinámica de aprendizaje de los modelos. En comparación con los modelos de vanguardia en el benchmark SuperGLEBer, ambos modelos LL\"aMmlein tuvieron un rendimiento competitivo, igualando o superando consistentemente a modelos con tamaños de parámetros similares. Los resultados muestran que la calidad de los modelos escala con el tamaño como se esperaba, pero las mejoras de rendimiento en algunas tareas se estancaron temprano, ofreciendo valiosas ideas sobre la asignación de recursos para el desarrollo futuro de modelos.
Los Transformadores de Difusión (DiT) han surgido como modelos generativos potentes para diversas tareas, incluyendo la síntesis de imágenes, videos y habla. Sin embargo, su proceso de inferencia sigue siendo computacionalmente costoso debido a la evaluación repetida de módulos de atención y feed-forward intensivos en recursos. Para abordar esto, presentamos SmoothCache, una técnica de aceleración de inferencia independiente del modelo para arquitecturas DiT. SmoothCache aprovecha la alta similitud observada entre las salidas de capa a lo largo de los pasos de difusión adyacentes. Al analizar los errores de representación por capa a partir de un pequeño conjunto de calibración, SmoothCache almacena de forma adaptativa y reutiliza características clave durante la inferencia. Nuestros experimentos demuestran que SmoothCache logra una aceleración del 8% al 71% manteniendo o incluso mejorando la calidad de generación en diversas modalidades. Mostramos su efectividad en DiT-XL para generación de imágenes, Open-Sora para texto a video, y Stable Audio Open para texto a audio, resaltando su potencial para habilitar aplicaciones en tiempo real y ampliar la accesibilidad de potentes modelos DiT.
Las Representaciones Neuronales Implícitas (INRs, por sus siglas en inglés) emplean redes neuronales para aproximar datos discretos como funciones continuas. En el contexto de datos de video, dichos modelos pueden ser utilizados para transformar las coordenadas de ubicaciones de píxeles junto con los tiempos de ocurrencia de fotogramas (o índices) en valores de color RGB. Aunque las INRs facilitan una compresión efectiva, no son adecuadas para propósitos de edición. Una solución potencial es utilizar un modelo basado en Splatting Gaussiano 3D (3DGS), como la Representación Gaussiana de Video (VGR), que es capaz de codificar video como una multitud de Gaussianas 3D y es aplicable para numerosas operaciones de procesamiento de video, incluida la edición. Sin embargo, en este caso, la capacidad de modificación está limitada a un conjunto reducido de transformaciones básicas. Para abordar este problema, presentamos el modelo de Splatting Gaussiano de Video (VeGaS), que permite modificaciones realistas de datos de video. Para construir VeGaS, proponemos una nueva familia de distribuciones Gaussianas Plegadas diseñadas para capturar dinámicas no lineales en un flujo de video y modelar fotogramas consecutivos mediante Gaussianas 2D obtenidas como distribuciones condicionales respectivas. Nuestros experimentos demuestran que VeGaS supera a las soluciones de vanguardia en tareas de reconstrucción de fotogramas y permite modificaciones realistas de datos de video. El código está disponible en: https://github.com/gmum/VeGaS.
La generación aumentada por recuperación (RAG) ha surgido como un enfoque prometedor para mejorar el rendimiento de los grandes modelos de lenguaje (LLMs) en tareas intensivas en conocimiento, como las del ámbito médico. Sin embargo, la naturaleza sensible del ámbito médico exige un sistema completamente preciso y confiable. Si bien los benchmarks de RAG existentes se centran principalmente en el escenario estándar de recuperación-respuesta, pasan por alto muchos escenarios prácticos que evalúan aspectos cruciales de un sistema médico confiable. Este artículo aborda esta brecha al proporcionar un marco de evaluación integral para sistemas de preguntas y respuestas médicas en un entorno de RAG para estas situaciones, que incluyen suficiencia, integración y robustez. Presentamos el Benchmark de Generación Aumentada por Recuperación Médica (MedRGB) que proporciona varios elementos complementarios a cuatro conjuntos de datos de preguntas y respuestas médicas para probar la capacidad de los LLMs para manejar estos escenarios específicos. Utilizando MedRGB, realizamos evaluaciones exhaustivas tanto de LLMs comerciales de vanguardia como de modelos de código abierto en múltiples condiciones de recuperación. Nuestros resultados experimentales revelan la capacidad limitada de los modelos actuales para manejar ruido y desinformación en los documentos recuperados. Además, analizamos los procesos de razonamiento de los LLMs para proporcionar ideas valiosas y direcciones futuras para el desarrollo de sistemas RAG en este crítico ámbito médico.
Las crecientes capacidades de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) han llevado a su uso como sustitutos de la retroalimentación humana para entrenar y evaluar otros LLMs. Estos métodos a menudo se basan en 'constituciones', pautas escritas que un modelo crítico utiliza para brindar retroalimentación y mejorar generaciones. Investigamos cómo la elección de la constitución afecta la calidad de la retroalimentación al utilizar cuatro constituciones diferentes para mejorar la comunicación centrada en el paciente en entrevistas médicas. En comparaciones de a pares realizadas por 215 evaluadores humanos, encontramos que las constituciones detalladas condujeron a mejores resultados en cuanto a cualidades emotivas. Sin embargo, ninguna de las constituciones superó la línea base en el aprendizaje de habilidades más orientadas a la práctica relacionadas con la recopilación y provisión de información. Nuestros hallazgos indican que si bien las constituciones detalladas deberían ser priorizadas, existen posibles limitaciones en la efectividad de la retroalimentación de IA como señal de recompensa en ciertas áreas.