Artículos de investigación en IA seleccionados diariamente con traducciones
El desarrollo y la evaluación de Modelos de Lenguaje Grandes (LLMs) se han centrado principalmente en capacidades individuales. Sin embargo, esto pasa por alto la intersección de múltiples habilidades a través de diferentes tipos de experiencia que a menudo se requieren para tareas del mundo real, a las que denominamos capacidades cruzadas. Para explorar sistemáticamente este concepto, primero definimos siete capacidades individuales centrales y luego las emparejamos para formar siete capacidades cruzadas comunes, cada una respaldada por una taxonomía construida manualmente. Basándonos en estas definiciones, presentamos CrossEval, un banco de pruebas que consta de 1,400 indicaciones anotadas por humanos, con 100 indicaciones para cada capacidad individual y cruzada. Para garantizar una evaluación confiable, involucramos a anotadores expertos para evaluar 4,200 respuestas de modelos, recopilando 8,400 calificaciones humanas con explicaciones detalladas para servir como ejemplos de referencia. Nuestros hallazgos revelan que, tanto en evaluaciones estáticas como en intentos de mejorar habilidades específicas, los LLMs actuales exhiben consistentemente la "Ley del Eslabón Más Débil", donde el rendimiento de las capacidades cruzadas está significativamente limitado por el componente más débil. Específicamente, de los 58 puntajes de capacidades cruzadas de 17 modelos, 38 puntajes son más bajos que todas las capacidades individuales, mientras que 20 se encuentran entre fuertes y débiles, pero más cerca de la habilidad más débil. Estos resultados resaltan el bajo rendimiento de los LLMs en tareas de capacidades cruzadas, haciendo que la identificación y mejora de las capacidades más débiles sea una prioridad crítica para futuras investigaciones con el fin de optimizar el rendimiento en escenarios complejos y multidimensionales.
La inferencia de modelos grandes está pasando del cloud al edge debido a preocupaciones sobre la privacidad de los datos de interacción del usuario. Sin embargo, los dispositivos edge a menudo tienen problemas con la potencia de cálculo limitada, la memoria y el ancho de banda, lo que requiere colaboración entre varios dispositivos para ejecutar y acelerar la inferencia de modelos grandes. El paralelismo de tuberías, la solución principal, es ineficiente para escenarios de un solo usuario, mientras que el paralelismo de tensores tiene dificultades con las comunicaciones frecuentes. En este documento, argumentamos que el paralelismo de tensores puede ser más efectivo que el de tuberías en dispositivos con recursos limitados, y presentamos un sistema de inferencia paralelo de tensores eficiente en cálculo y memoria, llamado TPI-LLM, para servir modelos a escala de 70 mil millones. TPI-LLM mantiene los datos crudos sensibles locales en los dispositivos de los usuarios e introduce un programador de memoria de ventana deslizante para gestionar dinámicamente los pesos de las capas durante la inferencia, con la superposición de la latencia de E/S de disco con la computación y la comunicación. Esto permite que los modelos más grandes se ejecuten sin problemas en dispositivos con memoria limitada. Analizamos el cuello de botella de comunicación y encontramos que la latencia del enlace, no el ancho de banda, surge como el principal problema, por lo que se implementa un algoritmo de allreduce basado en estrella. A través de experimentos extensos en bancos de pruebas emulados y reales, TPI-LLM demostró más de un 80% menos de tiempo hasta el primer token y latencia de token en comparación con Accelerate, y más del 90% en comparación con Transformers y Galaxy, al tiempo que reduce la huella de memoria máxima de Llama 2-70B en un 90%, requiriendo solo 3.1 GB de memoria para modelos a escala de 70 mil millones.
Presentamos Atlas-Chat, la primera colección de modelos de lenguaje grandes desarrollados específicamente para el árabe dialectal. Centrándonos en el árabe marroquí, también conocido como Darija, construimos nuestro conjunto de datos de instrucciones consolidando recursos lingüísticos existentes en Darija, creando conjuntos de datos novedosos tanto manual como sintéticamente, y traduciendo instrucciones en inglés con un estricto control de calidad. Los modelos Atlas-Chat-9B y 2B, ajustados en el conjunto de datos, muestran una capacidad superior para seguir instrucciones en Darija y realizar tareas estándar de PNL. Destacadamente, nuestros modelos superan tanto a los modelos de lenguaje grandes de vanguardia como a los LLM especializados en árabe como LLaMa, Jais y AceGPT, por ejemplo, logrando un aumento del rendimiento del 13% sobre un modelo de 13B más grande en DarijaMMLU, en nuestra nueva suite de evaluación para Darija que cubre tareas tanto discriminatorias como generativas. Además, realizamos un análisis experimental de diversas estrategias de ajuste fino y elecciones de modelos base para determinar configuraciones óptimas. Todos nuestros recursos son accesibles públicamente, y creemos que nuestro trabajo ofrece metodologías de diseño integrales para el ajuste de instrucciones en variantes de lenguajes con pocos recursos, que a menudo son descuidadas en favor de lenguajes ricos en datos por los LLM contemporáneos.
La generación de contenido 3D de alta calidad a partir de texto, imágenes individuales o imágenes de vista escasa sigue siendo una tarea desafiante con amplias aplicaciones. Los métodos existentes suelen emplear modelos de difusión de múltiples vistas para sintetizar imágenes de múltiples vistas, seguidos por un proceso de avance para la reconstrucción 3D. Sin embargo, estos enfoques suelen estar limitados por un número pequeño y fijo de vistas de entrada, lo que limita su capacidad para capturar puntos de vista diversos y, peor aún, lleva a resultados de generación subóptimos si las vistas sintetizadas son de baja calidad. Para abordar estas limitaciones, proponemos Flex3D, un nuevo marco de trabajo de dos etapas capaz de aprovechar un número arbitrario de vistas de entrada de alta calidad. La primera etapa consiste en una tubería de generación y curación de vistas candidatas. Empleamos un modelo de difusión de imágenes de múltiples vistas ajustado y un modelo de difusión de video para generar un conjunto de vistas candidatas, lo que permite una representación rica del objeto 3D objetivo. Posteriormente, una tubería de selección de vistas filtra estas vistas en función de la calidad y consistencia, asegurando que solo se utilicen para la reconstrucción las vistas de alta calidad y confiables. En la segunda etapa, las vistas curadas se introducen en un Modelo de Reconstrucción Flexible (FlexRM), construido sobre una arquitectura de transformador que puede procesar de manera efectiva un número arbitrario de entradas. FlexRM produce directamente puntos Gaussianos 3D aprovechando una representación de tres planos, lo que permite una generación 3D eficiente y detallada. A través de una exploración extensa de estrategias de diseño y entrenamiento, optimizamos FlexRM para lograr un rendimiento superior tanto en tareas de reconstrucción como de generación. Nuestros resultados demuestran que Flex3D alcanza un rendimiento de vanguardia, con una tasa de éxito en estudios de usuarios de más del 92% en tareas de generación 3D en comparación con varios de los últimos modelos generativos 3D de avance directo.
Presentamos VideoLISA, un modelo de lenguaje grande multimodal basado en video diseñado para abordar el problema de segmentación de razonamiento instruido por lenguaje en videos. Aprovechando las capacidades de razonamiento y conocimiento del mundo de los modelos de lenguaje grandes, y potenciado por el Modelo Segment Anything, VideoLISA genera máscaras de segmentación temporalmente consistentes en videos basadas en instrucciones de lenguaje. Los métodos existentes basados en imágenes, como LISA, tienen dificultades con tareas de video debido a la dimensión temporal adicional, que requiere comprensión dinámica temporal y segmentación consistente en todos los fotogramas. VideoLISA aborda estos desafíos integrando una estrategia de Muestreo Denso Espaciado en el video-LLM, que equilibra el contexto temporal y el detalle espacial dentro de las limitaciones computacionales. Además, proponemos un enfoque One-Token-Seg-All utilizando un token especialmente diseñado <TRK>, permitiendo al modelo segmentar y rastrear objetos a lo largo de múltiples fotogramas. Evaluaciones extensas en diversos benchmarks, incluido nuestro benchmark ReasonVOS recién introducido, demuestran el rendimiento superior de VideoLISA en tareas de segmentación de objetos en video que implican razonamiento complejo, comprensión temporal y seguimiento de objetos. Aunque optimizado para videos, VideoLISA también muestra una prometedora generalización a la segmentación de imágenes, revelando su potencial como un modelo base unificado para la segmentación de objetos instruida por lenguaje. El código y el modelo estarán disponibles en: https://github.com/showlab/VideoLISA.
En este trabajo, compartimos las ideas para lograr una calidad de vanguardia en nuestro modelo generativo de imágenes de anime de texto a imagen, llamado Illustrious. Para lograr imágenes de alta resolución, rango de colores dinámico y alta capacidad de restauración, nos enfocamos en tres enfoques críticos para la mejora del modelo. En primer lugar, profundizamos en la importancia del tamaño del lote y el control de la deserción, lo que permite un aprendizaje más rápido de las activaciones de conceptos basados en tokens controlables. En segundo lugar, aumentamos la resolución de entrenamiento de las imágenes, lo que afecta la representación precisa de la anatomía de los personajes en una resolución mucho mayor, extendiendo su capacidad de generación a más de 20MP con métodos adecuados. Finalmente, proponemos las descripciones refinadas de varios niveles, que cubren todas las etiquetas y varias descripciones en lenguaje natural como un factor crítico para el desarrollo del modelo. A través de un análisis extenso y experimentos, Illustrious demuestra un rendimiento de vanguardia en cuanto al estilo de animación, superando a modelos ampliamente utilizados en dominios de ilustración, impulsando una personalización y personalización más fáciles con la naturaleza de código abierto. Planeamos lanzar públicamente la serie de modelos actualizados de Illustrious de manera secuencial, así como planes sostenibles para mejoras.
Los modelos de difusión han surgido como una tecnología generativa poderosa y se ha encontrado que son aplicables en varios escenarios. La mayoría de los modelos de difusión fundamentales existentes están principalmente diseñados para generación visual guiada por texto y no admiten condiciones multimodales, las cuales son esenciales para muchas tareas de edición visual. Esta limitación impide que estos modelos fundamentales de difusión funcionen como un modelo unificado en el campo de generación visual, como GPT-4 en el campo del procesamiento de lenguaje natural. En este trabajo, proponemos ACE, un Creador y Editor Integral, que logra un rendimiento comparable en comparación con esos modelos expertos en una amplia gama de tareas de generación visual. Para lograr este objetivo, primero introducimos un formato de condición unificada denominado Unidad de Condición de Contexto Largo (LCU), y proponemos un nuevo modelo de difusión basado en Transformer que utiliza LCU como entrada, con el objetivo de entrenamiento conjunto en diversas tareas de generación y edición. Además, proponemos un enfoque eficiente de recopilación de datos para abordar el problema de la falta de datos de entrenamiento disponibles. Involucra la adquisición de imágenes emparejadas con tuberías basadas en síntesis o en agrupamiento y suministrar estos pares con instrucciones textuales precisas aprovechando un modelo de lenguaje grande multimodal ajustado. Para evaluar exhaustivamente el rendimiento de nuestro modelo, establecemos un punto de referencia de datos de pares anotados manualmente en una variedad de tareas de generación visual. Los extensos resultados experimentales demuestran la superioridad de nuestro modelo en campos de generación visual. Gracias a las capacidades todo en uno de nuestro modelo, podemos construir fácilmente un sistema de chat multimodal que responda a cualquier solicitud interactiva de creación de imágenes utilizando un solo modelo como backend, evitando la engorrosa tubería típicamente empleada en agentes visuales. El código y los modelos estarán disponibles en la página del proyecto: https://ali-vilab.github.io/ace-page/.
El avance de la conducción autónoma depende cada vez más de conjuntos de datos anotados de alta calidad, especialmente en la tarea de predicción de ocupación 3D, donde las etiquetas de ocupación requieren una anotación 3D densa con un esfuerzo humano significativo. En este documento, proponemos SyntheOcc, que denota un modelo de difusión que sintetiza imágenes fotorrealistas y controladas geométricamente condicionando etiquetas de ocupación en escenarios de conducción. Esto produce una cantidad ilimitada de conjuntos de datos diversos, anotados y controlables para aplicaciones como el entrenamiento de modelos de percepción y simulación. SyntheOcc aborda el desafío crítico de cómo codificar eficientemente la información geométrica 3D como entrada condicional a un modelo de difusión 2D. Nuestro enfoque incorpora de manera innovadora imágenes 3D semánticas de múltiples planos (MPIs) para proporcionar descripciones de escenas 3D completas y alineadas espacialmente para la condición. Como resultado, SyntheOcc puede generar imágenes y videos fotorrealistas de múltiples vistas que se alinean fielmente con las etiquetas geométricas dadas (semántica en el espacio de voxels 3D). Evaluaciones cualitativas y cuantitativas extensas de SyntheOcc en el conjunto de datos de nuScenes demuestran su efectividad en la generación de conjuntos de datos de ocupación controlables que sirven como una efectiva ampliación de datos para modelos de percepción.
Los Modelos Multimodales Grandes (LMMs, por sus siglas en inglés) han demostrado un rendimiento impresionante en tareas de comprensión de videos cortos, pero enfrentan grandes desafíos al aplicarse a la comprensión de videos largos. En contraste, los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) exhiben capacidades sobresalientes en modelar textos extensos. El trabajo existente intenta abordar este problema al introducir pares de video-texto largos durante el entrenamiento. Sin embargo, estos enfoques requieren recursos computacionales y de datos sustanciales. En este documento, abordamos el desafío de la comprensión de videos largos desde la perspectiva de las ventanas de contexto, con el objetivo de aplicar LMMs a tareas de videos largos sin necesidad de volver a entrenar en conjuntos de datos de videos largos. Primero realizamos un análisis detallado de por qué los LMMs preentrenados tienen dificultades para comprender contenido de video extenso, identificando que las discrepancias entre las modalidades visual y de lenguaje conducen a diferentes ventanas de contexto para los tokens visuales y de lenguaje, lo que dificulta extender directamente los tokens visuales para que coincidan con la ventana de contexto de lenguaje. Basándonos en esto, proponemos adaptar los LMMs para tareas de comprensión de videos largos mediante la extensión de la ventana de contexto visual, eliminando la necesidad de volver a entrenar en conjuntos de datos de videos largos a gran escala. Para mitigar aún más el consumo significativo de memoria causado por secuencias largas, introducimos una estrategia progresiva de agrupamiento de inferencia que ajusta selectivamente la resolución espacial de los incrustamientos de fotogramas, reduciendo el número de tokens visuales mientras se retiene información espacial importante. A lo largo de múltiples puntos de referencia de comprensión de videos largos, nuestro método mejora consistentemente el rendimiento a medida que aumenta el número de fotogramas de video. En el punto de referencia MLVU, nuestro método supera a GPT-4o, a pesar de que el tamaño de nuestro modelo es solo de 7B. Además, en el escenario de 256 fotogramas, nuestro método reduce el uso de memoria aproximadamente en un 45% en comparación con el valor base, sin introducir ninguna pérdida de rendimiento.
Los algoritmos de restauración de imágenes fotorealistas suelen evaluarse mediante medidas de distorsión (por ejemplo, PSNR, SSIM) y medidas de calidad perceptual (por ejemplo, FID, NIQE), donde el objetivo es lograr la menor distorsión posible sin comprometer la calidad perceptual. Para alcanzar este objetivo, los métodos actuales suelen intentar muestrear de la distribución posterior, u optimizar una suma ponderada de una pérdida de distorsión (por ejemplo, ECM) y una pérdida de calidad perceptual (por ejemplo, GAN). A diferencia de trabajos anteriores, este artículo se centra específicamente en el estimador óptimo que minimiza el ECM bajo una restricción de índice perceptual perfecto, es decir, donde la distribución de las imágenes reconstruidas es igual a la de las imágenes de referencia. Un resultado teórico reciente muestra que dicho estimador se puede construir transportando de manera óptima la predicción media posterior (estimación MMSE) a la distribución de las imágenes de referencia. Inspirados por este resultado, presentamos Posterior-Mean Rectified Flow (PMRF), un algoritmo simple pero altamente efectivo que aproxima este estimador óptimo. En particular, PMRF primero predice la media posterior, y luego transporta el resultado a una imagen de alta calidad utilizando un modelo de flujo rectificado que aproxima el mapa de transporte óptimo deseado. Investigamos la utilidad teórica de PMRF y demostramos que supera consistentemente a métodos anteriores en una variedad de tareas de restauración de imágenes.
Presentamos un método para reconstruir modelos corporales humanos consistentes en el tiempo a partir de videos monoculares, centrándonos en ropa extremadamente suelta o interacciones con objetos sostenidos. El trabajo previo en reconstrucción humana se limita a ropa ajustada sin interacciones con objetos, o requiere capturas multivista calibradas o escaneos de plantillas personalizadas que son costosos de recopilar a gran escala. Nuestra clave para una reconstrucción de alta calidad pero flexible es la combinación cuidadosa de priors humanos genéricos sobre la forma articulada del cuerpo (aprendidos a partir de datos de entrenamiento a gran escala) con deformaciones articuladas específicas del video "bag-of-bones" (ajustadas a un solo video mediante optimización en tiempo de prueba). Logramos esto mediante el aprendizaje de un modelo implícito neural que descompone las deformaciones del cuerpo y la ropa como capas de modelos de movimiento separadas. Para capturar la geometría sutil de la ropa, aprovechamos priors basados en imágenes como la pose del cuerpo humano, las normales de la superficie y el flujo óptico durante la optimización. Los campos neurales resultantes pueden extraerse en mallas consistentes en el tiempo, o optimizarse aún más como gaussianas 3D explícitas para renderizado interactivo de alta fidelidad. En conjuntos de datos con deformaciones de ropa y interacciones con objetos altamente desafiantes, DressRecon produce reconstrucciones 3D de mayor fidelidad que el estado del arte previo. Página del proyecto: https://jefftan969.github.io/dressrecon/
Los métodos basados en aprendizaje han logrado un rendimiento sólido para la locomoción cuadrúpeda. Sin embargo, varias dificultades impiden que los cuadrúpedos aprendan habilidades útiles en interiores que requieren interacción con entornos y humanos: falta de efectores finales para manipulación, comprensión semántica limitada utilizando solo datos de simulación, y baja capacidad de atravesar y alcanzar en entornos interiores. Presentamos un sistema para la manipulación móvil cuadrúpeda en entornos interiores. Utiliza un gripper montado en la parte delantera para la manipulación de objetos, un controlador de bajo nivel entrenado en simulación utilizando profundidad egocéntrica para habilidades ágiles como escalar e inclinación de cuerpo completo, y modelos de visión-lenguaje pre-entrenados (VLMs) con una cámara de ojo de pez en tercera persona y una cámara RGB egocéntrica para comprensión semántica y generación de comandos. Evaluamos nuestro sistema en dos entornos no vistos sin ninguna recolección de datos o entrenamiento del mundo real. Nuestro sistema puede generalizar de forma cero-shot a estos entornos y completar tareas, como seguir los comandos del usuario para traer un juguete colocado al azar después de escalar una cama tamaño queen, con una tasa de éxito del 60%. Sitio web del proyecto: https://helpful-doggybot.github.io/
El sesgo de género en la traducción automática (TA) es reconocido como un problema que puede perjudicar a las personas y a la sociedad. Sin embargo, los avances en el campo rara vez involucran a las personas, los usuarios finales de la TA, o informan cómo podrían verse afectados por las tecnologías sesgadas. Las evaluaciones actuales suelen estar restringidas a métodos automáticos, que ofrecen una estimación opaca de cuál podría ser el impacto downstream de las disparidades de género. Realizamos un extenso estudio centrado en el ser humano para examinar si y en qué medida el sesgo en la TA ocasiona perjuicios con costos tangibles, como brechas en la calidad del servicio entre mujeres y hombres. Con este fin, recopilamos datos de comportamiento de 90 participantes, quienes editaron las salidas de la TA para garantizar una traducción de género correcta. A través de múltiples conjuntos de datos, idiomas y tipos de usuarios, nuestro estudio muestra que la edición posterior femenina requiere significativamente más esfuerzo técnico y temporal, lo que también se traduce en mayores costos financieros. Sin embargo, las mediciones de sesgo existentes no reflejan las disparidades encontradas. Nuestros hallazgos abogan por enfoques centrados en el ser humano que puedan informar sobre el impacto societal del sesgo.
No hay límite para cuánto puede explorar y aprender un robot, pero todo ese conocimiento debe ser buscable y accionable. Dentro de la investigación del lenguaje, la recuperación aumentada generación (RAG) se ha convertido en el caballo de batalla del conocimiento no paramétrico a gran escala, sin embargo, las técnicas existentes no se transfieren directamente al dominio incorporado, que es multimodal, los datos están altamente correlacionados y la percepción requiere abstracción. Para abordar estos desafíos, presentamos Embodied-RAG, un marco que mejora el modelo fundamental de un agente incorporado con un sistema de memoria no paramétrico capaz de construir autónomamente conocimiento jerárquico tanto para la navegación como para la generación de lenguaje. Embodied-RAG maneja una amplia gama de resoluciones espaciales y semánticas en diversos entornos y tipos de consultas, ya sea para un objeto específico o una descripción holística del ambiente. En su núcleo, la memoria de Embodied-RAG está estructurada como un bosque semántico, almacenando descripciones de lenguaje en diferentes niveles de detalle. Esta organización jerárquica permite que el sistema genere de manera eficiente salidas sensibles al contexto en diferentes plataformas robóticas. Demostramos que Embodied-RAG conecta efectivamente RAG con el dominio de la robótica, manejando con éxito más de 200 consultas de explicación y navegación en 19 entornos, destacando su promesa como sistema no paramétrico de propósito general para agentes incorporados.