Artículos de investigación en IA seleccionados diariamente con traducciones
Estudiamos una arquitectura novedosa de modelo de lenguaje capaz de escalar la computación en tiempo de prueba razonando implícitamente en un espacio latente. Nuestro modelo funciona mediante la iteración de un bloque recurrente, desplegándose a una profundidad arbitraria en el momento de la prueba. Esto contrasta con los modelos de razonamiento convencionales que escalan la computación produciendo más tokens. A diferencia de enfoques basados en cadenas de pensamiento, nuestro enfoque no requiere datos de entrenamiento especializados, puede trabajar con ventanas de contexto pequeñas y puede capturar tipos de razonamiento que no se representan fácilmente en palabras. Escalamos un modelo de prueba de concepto a 3.5 mil millones de parámetros y 800 mil millones de tokens. Mostramos que el modelo resultante puede mejorar su rendimiento en pruebas de razonamiento, a veces de manera drástica, hasta una carga computacional equivalente a 50 mil millones de parámetros.
Este documento presenta Goku, una familia de modelos de generación conjunta de imágenes y videos de última generación que aprovechan los Transformadores de flujo rectificado para lograr un rendimiento líder en la industria. Detallamos los elementos fundamentales que permiten una generación visual de alta calidad, incluida la canalización de curación de datos, el diseño de arquitectura del modelo, la formulación de flujo y la infraestructura avanzada para un entrenamiento eficiente y robusto a gran escala. Los modelos Goku demuestran un rendimiento superior tanto en evaluaciones cualitativas como cuantitativas, estableciendo nuevos puntos de referencia en tareas importantes. Específicamente, Goku logra 0.76 en GenEval y 83.65 en DPG-Bench para la generación de texto a imagen, y 84.85 en VBench para tareas de texto a video. Creemos que este trabajo proporciona ideas valiosas y avances prácticos para la comunidad de investigación en el desarrollo de modelos de generación conjunta de imágenes y videos.
Si bien la Incrustación de Posición Rotatoria (RoPE) y sus variantes son ampliamente adoptadas por sus capacidades de contexto largo, la extensión de la RoPE 1D a videos, con su estructura espacio-temporal compleja, sigue siendo un desafío abierto. Este trabajo introduce primero un análisis exhaustivo que identifica cuatro características clave esenciales para la adaptación efectiva de RoPE a videos, las cuales no han sido completamente consideradas en trabajos anteriores. Como parte de nuestro análisis, presentamos una tarea desafiante V-NIAH-D (Aguja en un Pajar Visual con Distractores), que agrega distractores periódicos a V-NIAH. La tarea V-NIAH-D demuestra que las variantes anteriores de RoPE, careciendo de una asignación temporal adecuada, son fácilmente engañadas por los distractores. Basándonos en nuestro análisis, presentamos VideoRoPE, con una estructura 3D diseñada para preservar las relaciones espacio-temporales. VideoRoPE presenta una asignación temporal de baja frecuencia para mitigar las oscilaciones periódicas, un diseño diagonal para mantener la simetría espacial, y un espaciado temporal ajustable para desacoplar la indexación temporal y espacial. VideoRoPE supera consistentemente a las variantes anteriores de RoPE, en diversas tareas posteriores como la recuperación de videos largos, la comprensión de videos y la alucinación de videos. Nuestro código estará disponible en https://github.com/Wiselnn570/VideoRoPE.
Los Transformadores de Difusión (DiTs) con atención completa en 3D han logrado un estado del arte en generación de video, pero sufren de un costo computacional prohibitivo: al generar un video de 720P de solo 5 segundos, la atención sola representa 800 de los 945 segundos totales de tiempo de inferencia. Este artículo presenta la atención de ventana deslizante (STA) para abordar este desafío. STA aprovecha la observación de que los puntajes de atención en modelos de difusión de video preentrenados se concentran predominantemente en ventanas 3D localizadas. Al deslizar y atender sobre la región espacio-temporal local, STA elimina la redundancia de la atención completa. A diferencia de la atención tradicional de ventana deslizante por token (SWA), STA opera de manera baldosa con un diseño de ventana deslizante novedoso consciente del hardware, preservando la expresividad al mismo tiempo que es eficiente en hardware. Con optimizaciones cuidadosas a nivel de kernel, STA ofrece la primera implementación eficiente de atención tipo ventana deslizante en 2D/3D, logrando un 58.79% de MFU. Precisamente, STA acelera la atención de 2.8 a 17 veces en comparación con FlashAttention-2 (FA2) y de 1.6 a 10 veces en comparación con FlashAttention-3 (FA3). En el principal DiT de video, HunyuanVideo, STA reduce la latencia de extremo a extremo de 945s (FA3) a 685s sin degradación de calidad, sin necesidad de entrenamiento. Habilitar el ajuste fino reduce aún más la latencia a 268s con solo una disminución del 0.09% en VBench.
Un enfoque para reducir los enormes costos de los grandes modelos de lenguaje (LLMs) es el uso de representaciones cuantizadas o dispersas para entrenamiento o implementación. Si bien los métodos de compresión posteriores al entrenamiento son muy populares, la cuestión de obtener modelos comprimidos aún más precisos mediante el entrenamiento directo sobre tales representaciones, es decir, el Entrenamiento Consciente de la Cuantización (QAT), sigue abierta: por ejemplo, un estudio reciente (arXiv:2411.04330v2) estableció el ancho de bits "óptimo" en el que los modelos pueden ser entrenados utilizando QAT, manteniendo la precisión competitiva con la precisión estándar FP16/BF16, en 8 bits para pesos y activaciones. Avanzamos en este estado del arte a través de un nuevo método llamado QuEST, que es competitivo en el sentido de Pareto con FP16, es decir, proporciona una mejor precisión con un tamaño de modelo más pequeño, al entrenar modelos con pesos y activaciones en 4 bits o menos. Además, QuEST permite un entrenamiento estable con pesos y activaciones de 1 bit. QuEST logra esto mejorando dos aspectos clave de los métodos QAT: (1) cuantización precisa y rápida de las distribuciones (continuas) de pesos y activaciones a través de la normalización de Hadamard y el ajuste óptimo de ECM; (2) un nuevo estimador de gradiente de confianza basado en la idea de minimizar explícitamente el error entre el gradiente ruidoso calculado sobre estados cuantizados y el gradiente de precisión completa "verdadero" (pero desconocido). Experimentos en arquitecturas tipo Llama muestran que QuEST induce leyes de escalado estables en todo el rango de precisiones admitidas por el hardware, y puede extenderse a representaciones dispersas. Proporcionamos soporte de kernel de GPU que muestra que los modelos producidos por QuEST pueden ejecutarse eficientemente. Nuestro código está disponible en https://github.com/IST-DASLab/QuEST.
El relleno de escenas tridimensionales es crucial para aplicaciones que van desde la realidad virtual hasta la visualización arquitectónica, sin embargo, los métodos existentes tienen dificultades con la consistencia de vista y la precisión geométrica en escenas no limitadas de 360 grados. Presentamos AuraFusion360, un novedoso método basado en referencias que permite la eliminación de objetos de alta calidad y el relleno de huecos en escenas 3D representadas por Gaussian Splatting. Nuestro enfoque introduce (1) la generación de máscaras no vistas conscientes de la profundidad para una identificación precisa de la oclusión, (2) Difusión de Profundidad Guiada Adaptativa, un método de cero disparos para una colocación inicial precisa de puntos sin necesidad de entrenamiento adicional, y (3) Mejora de detalles basada en SDEdit para coherencia multi-vista. También presentamos 360-USID, el primer conjunto de datos integral para el relleno de escenas no limitadas de 360 grados con verdad terreno. Experimentos extensos demuestran que AuraFusion360 supera significativamente a los métodos existentes, logrando una calidad perceptual superior al tiempo que mantiene la precisión geométrica a través de cambios dramáticos en el punto de vista. Consulte nuestra página del proyecto para ver los resultados en video y el conjunto de datos en https://kkennethwu.github.io/aurafusion360/.
Los modelos de difusión DiT han logrado un gran éxito en la generación de texto a video, aprovechando su escalabilidad en capacidad del modelo y escala de datos. La alta fidelidad de contenido y movimiento alineada con las indicaciones de texto, sin embargo, a menudo requiere grandes parámetros de modelo y un número sustancial de evaluaciones de funciones (NFEs). Los detalles realistas y visualmente atractivos suelen reflejarse en salidas de alta resolución, lo que amplifica aún más las demandas computacionales, especialmente para modelos DiT de una sola etapa. Para abordar estos desafíos, proponemos un nuevo marco de dos etapas, FlashVideo, que asigna estratégicamente la capacidad del modelo y las NFEs a lo largo de las etapas para equilibrar la fidelidad y calidad de generación. En la primera etapa, se prioriza la fidelidad de la indicación a través de un proceso de generación de baja resolución utilizando grandes parámetros y suficientes NFEs para mejorar la eficiencia computacional. La segunda etapa establece la coincidencia de flujo entre bajas y altas resoluciones, generando efectivamente detalles finos con un mínimo de NFEs. Los resultados cuantitativos y visuales demuestran que FlashVideo logra una generación de video de alta resolución de vanguardia con una eficiencia computacional superior. Además, el diseño de dos etapas permite a los usuarios previsualizar la salida inicial antes de comprometerse con la generación de resolución completa, reduciendo significativamente los costos computacionales y los tiempos de espera, así como mejorando la viabilidad comercial.
La integración de mecanismos de pensamiento lento en modelos de lenguaje grandes (LLMs) ofrece un camino prometedor hacia la consecución de Reasoners AGI de Nivel 2, como se ejemplifica en sistemas como el o1 de OpenAI. Sin embargo, persisten varios desafíos significativos, incluyendo el sobrepensamiento ineficiente y una excesiva dependencia de modelos de recompensa auxiliares. Se señala que estas limitaciones derivan de la incapacidad de los LLMs para internalizar el proceso de búsqueda, un componente clave del razonamiento efectivo. Un paso crítico para abordar este problema es habilitar a los LLMs para determinar de manera autónoma cuándo y dónde retroceder, una operación fundamental en algoritmos de búsqueda tradicionales. Con este fin, proponemos un mecanismo de retroceso automático que dota a los LLMs con la capacidad de retroceder tanto durante el entrenamiento como en la inferencia. Este mecanismo no solo mejora la capacidad de razonamiento, sino también la eficiencia al transformar procesos de pensamiento lento en pensamiento rápido a través de la auto-mejora. Evaluaciones empíricas demuestran que nuestra propuesta mejora significativamente las capacidades de razonamiento de los LLMs, logrando un aumento de rendimiento de más del 40 por ciento en comparación con el método de ajuste fino supervisado de la ruta óptima. Creemos que este estudio introduce un camino novedoso y prometedor para desarrollar Reasoners más avanzados y robustos.
La agencia es la capacidad de un sistema para dirigir los resultados hacia un objetivo, y es un tema central de estudio en biología, filosofía, ciencia cognitiva e inteligencia artificial. Determinar si un sistema exhibe agencia es una pregunta notoriamente difícil: Dennett (1989), por ejemplo, destaca el enigma de determinar qué principios pueden decidir si una roca, un termostato o un robot poseen agencia. Aquí abordamos este enigma desde el punto de vista del aprendizaje por refuerzo argumentando que la agencia es fundamentalmente dependiente del marco de referencia: Cualquier medición de la agencia de un sistema debe realizarse en relación con un marco de referencia. Apoyamos esta afirmación presentando un argumento filosófico de que cada una de las propiedades esenciales de la agencia propuestas por Barandiaran et al. (2009) y Moreno (2018) son en sí mismas dependientes del marco de referencia. Concluimos que cualquier ciencia básica de la agencia requiere dependencia del marco de referencia, y discutimos las implicaciones de esta afirmación para el aprendizaje por refuerzo.
El rápido avance de los modelos de lenguaje grandes (LLMs) ha aumentado la necesidad de modelos de protección para garantizar un uso responsable, especialmente en la detección de contenido inseguro e ilegal. Aunque existen datos de seguridad sustanciales en inglés, la modelización de protección multilingüe sigue siendo poco explorada debido a la escasez de datos de seguridad de código abierto en otros idiomas. Para abordar esta brecha, proponemos un novedoso marco de Aprendizaje por Refuerzo (RL) de dos jugadores, donde un generador y un modelo de protección evolucionan adversarialmente para producir datos sintéticos de alta calidad para el entrenamiento multilingüe de protección. Formalizamos teóricamente esta interacción como un juego de dos jugadores, demostrando la convergencia a un equilibrio de Nash. Las evaluaciones empíricas muestran que nuestro modelo \ours supera a los modelos de vanguardia, logrando casi un 10% de mejora sobre LlamaGuard3 (8B) en pruebas en inglés, siendo 4.5 veces más rápido en inferencia con un modelo significativamente más pequeño (0.5B). Logramos avances sustanciales en tareas de seguridad multilingüe, especialmente en abordar el desequilibrio para idiomas con menos recursos en un conjunto de datos reales recopilado. Los estudios de abstracción enfatizan el papel crítico de la generación de datos sintéticos para superar el desequilibrio en los datos de código abierto entre el inglés y otros idiomas. Estos hallazgos establecen un enfoque escalable y eficiente para la generación de datos sintéticos, allanando el camino para mejorar los modelos de protección multilingüe y mejorar la seguridad de los LLM. El código, el modelo y los datos estarán disponibles en código abierto en https://github.com/yihedeng9/DuoGuard.
Resolver problemas de planificación complejos requiere que los Modelos de Lenguaje Grande (LLMs, por sus siglas en inglés) modelen explícitamente la transición de estados para evitar violaciones de reglas, cumplir con restricciones y garantizar la optimalidad, una tarea obstaculizada por la ambigüedad inherente del lenguaje natural. Para superar dicha ambigüedad, se aprovecha el Lenguaje de Definición de Dominio de Planificación (PDDL, por sus siglas en inglés) como una abstracción de planificación que permite descripciones de estados precisas y formales. Con PDDL, podemos generar un modelo simbólico del mundo donde se pueden aplicar de manera fluida algoritmos clásicos de búsqueda, como A*, para encontrar planes óptimos. Sin embargo, la generación directa de dominios PDDL con los LLMs actuales sigue siendo un desafío abierto debido a la falta de datos de entrenamiento de PDDL. Para abordar este desafío, proponemos aumentar la computación en tiempo de prueba de los LLMs para mejorar sus capacidades de razonamiento en PDDL, lo que permite la generación de dominios PDDL de alta calidad. Específicamente, presentamos un algoritmo simple pero efectivo, que primero emplea un enfoque de muestreo de Mejor-de-N para mejorar la calidad de la solución inicial y luego perfecciona la solución de manera detallada con aprendizaje automático verbalizado. Nuestro método supera ampliamente a o1-mini en la generación de dominios PDDL, logrando más del 50% de éxito en dos tareas (es decir, generar dominios PDDL a partir de descripciones en lenguaje natural o problemas PDDL). Esto se logra sin necesidad de entrenamiento adicional. Aprovechando PDDL como abstracción de estado, nuestro método es capaz de superar a los métodos actuales de vanguardia en casi todas las tareas de planificación a nivel de competencia.
Los modelos de lenguaje grandes (LLMs) logran un rendimiento impresionante al escalar los parámetros del modelo, pero esto conlleva una sobrecarga significativa en la inferencia. Las redes de alimentación directa (FFNs), que dominan los parámetros de los LLMs, muestran una alta dispersión de activación en las neuronas ocultas. Para aprovechar esto, los investigadores han propuesto el uso de una arquitectura de mezcla de expertos (MoE), donde solo se activa un subconjunto de parámetros. Sin embargo, los enfoques existentes a menudo requieren una gran cantidad de datos de entrenamiento y recursos, lo que limita su practicidad. Proponemos CMoE (Carved MoE), un marco novedoso para tallar de manera eficiente modelos MoE a partir de modelos densos. CMoE logra un rendimiento notable a través de un agrupamiento eficiente de expertos y una adaptación liviana. En primer lugar, las neuronas se agrupan en expertos compartidos y enrutados según las tasas de activación. A continuación, construimos un mecanismo de enrutamiento sin necesidad de entrenamiento desde cero, incorporando un proceso de enrutamiento diferenciable y equilibrio de carga. Utilizando datos modestos, CMoE produce un MoE bien diseñado y utilizable a partir de un modelo denso de 7B en cinco minutos. Con un ajuste fino liviano, logra una recuperación de alto rendimiento en menos de una hora. Ponemos nuestro código a disposición del público en https://github.com/JarvisPei/CMoE.
Presentamos On-device Sora, una solución pionera para la generación de texto a video en dispositivos que opera eficientemente en dispositivos de grado smartphone. Basándose en Open-Sora, On-device Sora aplica tres técnicas novedosas para abordar los desafíos de la generación de texto a video basada en difusión en dispositivos móviles con limitaciones de computación y memoria. En primer lugar, el Salto Proporcional Lineal (LPL) reduce los pasos excesivos de eliminación de ruido requeridos en la difusión de video a través de un enfoque eficiente basado en saltos. En segundo lugar, la Fusión de Tokens de Dimensión Temporal (TDTM) minimiza la intensiva computación de procesamiento de tokens en capas de atención al fusionar tokens consecutivos a lo largo de la dimensión temporal. En tercer lugar, la Inferencia Concurrente con Carga Dinámica (CI-DL) divide dinámicamente modelos grandes en bloques más pequeños y los carga en memoria para inferencia de modelos concurrentes, abordando eficazmente los desafíos de la memoria limitada del dispositivo. Implementamos On-device Sora en el iPhone 15 Pro, y las evaluaciones experimentales demuestran que es capaz de generar videos de alta calidad en el dispositivo, comparables a los producidos por Open-Sora en GPUs de alta gama. Estos resultados muestran que On-device Sora permite una generación eficiente y de alta calidad de videos en dispositivos móviles con recursos limitados, ampliando la accesibilidad, garantizando la privacidad del usuario, reduciendo la dependencia de la infraestructura en la nube y disminuyendo los costos asociados. Visualizamos al propuesto On-device Sora como un importante primer paso hacia la democratización de tecnologías generativas de vanguardia, permitiendo capacidades de generación de video en dispositivos móviles y embebidos de uso común. La implementación del código está disponible públicamente en un repositorio de GitHub: https://github.com/eai-lab/On-device-Sora.
La fusión de modelos integra los pesos de múltiples modelos específicos de tareas en un solo modelo multitarea. A pesar del interés reciente en el problema, sigue existiendo una brecha significativa de rendimiento entre los modelos combinados y los de una sola tarea. En este artículo, investigamos las características clave de las matrices de tareas, que son matrices de actualización de pesos aplicadas a un modelo preentrenado, que permiten una fusión efectiva. Mostramos que la alineación entre los componentes singulares de las matrices específicas de tareas y las matrices fusionadas se correlaciona fuertemente con la mejora del rendimiento sobre el modelo preentrenado. Basándonos en esto, proponemos un marco de fusión isótropa que aplana el espectro de valores singulares de las matrices de tareas, mejora la alineación y reduce la brecha de rendimiento. Además, incorporamos subespacios comunes y específicos de tareas para mejorar aún más la alineación y el rendimiento. Nuestro enfoque propuesto logra un rendimiento de vanguardia en múltiples escenarios, incluidos varios conjuntos de tareas y escalas de modelos. Este trabajo avanza en la comprensión de la dinámica de fusión de modelos, ofreciendo una metodología efectiva para fusionar modelos sin necesidad de entrenamiento adicional. El código está disponible en https://github.com/danielm1405/iso-merging.
La generalización de los modelos de lenguaje (LMs) está siendo objeto de debates activos, contrastando su potencial para la inteligencia general con sus dificultades en la composición de conocimientos básicos (por ejemplo, la maldición inversa/transición). Este artículo desvela el fenómeno de las correlaciones lineales en los LMs durante la composición de conocimientos. Para explicarlo, existe una transformación lineal entre ciertos conocimientos relacionados que mapea las puntuaciones de predicción del siguiente token de una indicación a otra, por ejemplo, "X vive en la ciudad de" -> "X vive en el país de" para cada X dado. Esto refleja la linealidad en la composición del conocimiento humano, como París -> Francia. Nuestros hallazgos indican que la transformación lineal es resistente a la sintonización fina a gran escala, generalizando conocimientos actualizados cuando se alinean con relaciones del mundo real, pero causando alucinaciones cuando se desvía. Los resultados empíricos sugieren que la correlación lineal puede servir como un identificador potencial de la generalización de los LM. Finalmente, demostramos que tales correlaciones lineales pueden ser aprendidas con una única red feedforward y representaciones de vocabulario pre-entrenadas, indicando que la generalización de los LM depende en gran medida de este último.
Desde la introducción del Transformador de Visión (ViT), la "patchificación" ha sido considerada durante mucho tiempo como un enfoque de tokenización de imágenes de facto para arquitecturas visuales simples. Al comprimir el tamaño espacial de las imágenes, este enfoque puede acortar efectivamente la secuencia de tokens y reducir el costo computacional de arquitecturas visuales simples similares a ViT. En este trabajo, nuestro objetivo es examinar exhaustivamente la pérdida de información causada por este paradigma de codificación compresiva basado en la "patchificación" y cómo afecta la comprensión visual. Realizamos extensos experimentos de escala de tamaño de parches y observamos con entusiasmo una ley de escala intrigante en la "patchificación": los modelos pueden beneficiarse de manera consistente de tamaños de parches más pequeños y lograr un rendimiento predictivo mejorado, hasta llegar al tamaño mínimo de parche de 1x1, es decir, la tokenización de píxeles. Esta conclusión es ampliamente aplicable en diferentes tareas visuales, diversas escalas de entrada y arquitecturas diversas como ViT y los recientes modelos Mamba. Además, como subproducto, descubrimos que con parches más pequeños, las cabezas decodificadoras específicas de la tarea se vuelven menos críticas para la predicción densa. En los experimentos, logramos escalar con éxito la secuencia visual a una longitud excepcional de 50,176 tokens, alcanzando una precisión de prueba competitiva del 84.6% con un modelo de tamaño base en el benchmark de ImageNet-1k. Esperamos que este estudio pueda proporcionar ideas y fundamentos teóricos para futuros trabajos en la construcción de modelos visuales no compresivos. El código está disponible en https://github.com/wangf3014/Patch_Scaling.
Los métodos existentes no logran dirigir de manera efectiva los Modelos de Lenguaje Grande (LLMs) entre el razonamiento textual y la generación de código, dejando las capacidades de computación simbólica subutilizadas. Presentamos CodeSteer, un método efectivo para guiar la generación de código/texto de LLMs. Construimos un banco de pruebas exhaustivo llamado SymBench que consta de 37 tareas simbólicas con complejidad ajustable y también sintetizamos conjuntos de datos de 12k trayectorias de guía/generación de múltiples rondas y 5.5k pares de comparación de guía. Ajustamos finamente el modelo Llama-3-8B con un nuevo ajuste fino supervisado de múltiples rondas (SFT) y optimización de preferencias directas (DPO). El modelo resultante, CodeSteerLLM, aumentado con los verificadores simbólicos y de autorespuesta propuestos, guía de manera efectiva la generación de código/texto de modelos más grandes. Al agregar CodeSteer a GPT-4o, su puntaje promedio de rendimiento aumenta de 53.3 a 86.4, superando incluso a los mejores LLM existentes de OpenAI o1 (82.7), o1-preview (74.8) y DeepSeek R1 (76.8) en las 37 tareas (28 vistas, 9 no vistas). Entrenado para GPT-4o, CodeSteer demuestra una generalizabilidad superior, proporcionando un aumento promedio de rendimiento del 41.8 en Claude, Mistral y GPT-3.5. Los LLMs guiados por CodeSteer aprovechan completamente la computación simbólica para mantener un rendimiento sólido en tareas altamente complejas. Los modelos, conjuntos de datos y códigos están disponibles en https://github.com/yongchao98/CodeSteer-v1.0.
Introducimos Quantized Language-Image Pretraining (QLIP), un método de tokenización visual que combina calidad de reconstrucción de vanguardia con comprensión de imágenes sin necesidad de entrenamiento. QLIP entrena un autoencoder basado en cuantización binaria esférica con objetivos de reconstrucción y alineación de lenguaje-imagen. Somos los primeros en demostrar que estos dos objetivos no necesariamente entran en conflicto. Equilibramos dinámicamente los dos términos de pérdida durante el entrenamiento y mostramos que un proceso de entrenamiento en dos etapas mezcla de manera efectiva los requisitos de gran lote para el pre-entrenamiento de imágenes y lenguaje con el cuello de botella de memoria impuesto por el objetivo de reconstrucción. Validamos la efectividad de QLIP para comprensión multimodal y generación de imágenes condicionadas por texto con un solo modelo. Específicamente, QLIP sirve como un reemplazo directo para el codificador visual de LLaVA y el tokenizador de imágenes para LlamaGen con un rendimiento comparable o incluso mejor. Finalmente, demostramos que QLIP permite un modelo auto-regresivo unificado de modalidad mixta para comprensión y generación.
Entender el tiempo a partir de representaciones visuales es una habilidad cognitiva fundamental, sin embargo, sigue siendo un desafío para los grandes modelos de lenguaje multimodales (MLLMs). En este trabajo, investigamos las capacidades de los MLLMs en la interpretación del tiempo y la fecha a través de relojes analógicos y calendarios anuales. Para facilitar esto, creamos un conjunto de datos estructurado que consta de dos subconjuntos: 1) ClockQA, que incluye varios tipos de estilos de relojes -estándar, esfera negra, sin segundero, números romanos y manecillas de flecha- emparejados con preguntas relacionadas con el tiempo; y 2) CalendarQA, que consiste en imágenes de calendarios anuales con preguntas que van desde fechas comúnmente conocidas (por ejemplo, Navidad, Año Nuevo) hasta fechas derivadas computacionalmente (por ejemplo, el día 100 o el 153 del año). Nuestro objetivo es analizar cómo los MLLMs pueden llevar a cabo reconocimiento visual, razonamiento numérico e inferencia temporal cuando se les presenta datos visuales relacionados con el tiempo. Nuestras evaluaciones muestran que a pesar de los avances recientes, entender el tiempo de manera fiable sigue siendo un desafío significativo para los MLLMs.
Los grandes modelos de lenguaje (LLMs) logran un rendimiento notable en desafiantes pruebas que a menudo están estructuradas como tareas de pregunta-respuesta de opción múltiple. La técnica Zero-shot Chain-of-Thought (CoT) mejora el razonamiento en LLMs pero solo proporciona orientación vaga y genérica ("piensa paso a paso"). Este artículo presenta ARR, un método de orientación intuitivo y efectivo que incorpora explícitamente tres pasos clave en la resolución de preguntas y respuestas: analizar la intención de la pregunta, recuperar información relevante y razonar paso a paso. Experimentos exhaustivos en diversas y desafiantes tareas de pregunta-respuesta demuestran que ARR mejora consistentemente el Baseline (sin la orientación de ARR) y supera a CoT. Estudios de ablación y casos adicionales validan aún más las contribuciones positivas de cada componente: análisis, recuperación y razonamiento. Es importante destacar que el análisis de la intención desempeña un papel vital en ARR. Además, evaluaciones extensas en diferentes tamaños de modelo, series de LLM y configuraciones de generación consolidan la efectividad, robustez y generalizabilidad de ARR.
Escalar datos y cómputo es fundamental para el éxito del aprendizaje automático. Sin embargo, la escalabilidad requiere previsibilidad: queremos que los métodos no solo funcionen bien con más cómputo o datos, sino que también tengan un rendimiento predecible a partir de ejecuciones a pequeña escala, sin necesidad de llevar a cabo el experimento a gran escala. En este artículo, demostramos que los métodos de RL basados en el valor y fuera de política son predecibles a pesar de las creencias comunes sobre su comportamiento patológico. En primer lugar, mostramos que los requisitos de datos y cómputo para alcanzar un determinado nivel de rendimiento se encuentran en una frontera de Pareto, controlada por la relación entre actualizaciones y datos (UTD). Al estimar esta frontera, podemos predecir el requisito de datos al disponer de más cómputo, y el requisito de cómputo al tener más datos. En segundo lugar, determinamos la asignación óptima de un presupuesto total de recursos entre datos y cómputo para un rendimiento dado, y lo utilizamos para determinar hiperparámetros que maximicen el rendimiento para un presupuesto determinado. En tercer lugar, este comportamiento de escalabilidad se logra al estimar previamente relaciones predecibles entre hiperparámetros, que se utilizan para gestionar los efectos de sobreajuste y la pérdida de plasticidad únicos en RL. Validamos nuestro enfoque utilizando tres algoritmos: SAC, BRO y PQL en DeepMind Control, OpenAI gym e IsaacGym, al extrapolar a niveles superiores de datos, cómputo, presupuesto o rendimiento.
La alineación precisa en los sistemas de Texto a Imagen (T2I) es crucial para asegurar que las imágenes generadas no solo encapsulen con precisión las intenciones del usuario, sino que también cumplan con estrictos estándares éticos y estéticos. Incidentes como el fiasco de Google Gemini, donde salidas desalineadas desencadenaron una significativa reacción pública, subrayan la necesidad crítica de mecanismos de alineación robustos. En contraste, los Modelos de Lenguaje Grandes (LLMs) han logrado un notable éxito en la alineación. Basándose en estos avances, los investigadores están ansiosos por aplicar técnicas de alineación similares, como la Optimización Directa de Preferencias (DPO), a los sistemas T2I para mejorar la fidelidad y confiabilidad en la generación de imágenes. Presentamos YinYangAlign, un avanzado marco de referencia que cuantifica sistemáticamente la fidelidad de alineación de los sistemas T2I, abordando seis objetivos de diseño fundamentales e inherentemente contradictorios. Cada par representa tensiones fundamentales en la generación de imágenes, como equilibrar la adhesión a las indicaciones del usuario con modificaciones creativas o mantener la diversidad junto con la coherencia visual. YinYangAlign incluye detallados conjuntos de datos axiomáticos con indicaciones humanas, respuestas alineadas (elegidas), salidas generadas por IA desalineadas (rechazadas) y explicaciones de las contradicciones subyacentes.
Presentamos un marco unificado capaz de resolver una amplia gama de tareas en 3D. Nuestro enfoque cuenta con un modelo recurrente con estado que actualiza continuamente su representación de estado con cada nueva observación. Dada una secuencia de imágenes, este estado en evolución puede utilizarse para generar mapas de puntos a escala métrica (puntos 3D por píxel) para cada nueva entrada de forma online. Estos mapas de puntos residen en un sistema de coordenadas común y pueden acumularse en una reconstrucción de escena densa y coherente que se actualiza a medida que llegan nuevas imágenes. Nuestro modelo, denominado CUT3R (Transformador de Actualización Continua para Reconstrucción 3D), captura ricos conocimientos previos de escenas del mundo real: no solo puede predecir mapas de puntos precisos a partir de observaciones de imágenes, sino que también puede inferir regiones no vistas de la escena explorando vistas virtuales no observadas. Nuestro método es simple pero altamente flexible, aceptando naturalmente longitudes variables de imágenes que pueden ser tanto secuencias de video como colecciones de fotos desordenadas, que contienen contenido estático y dinámico. Evaluamos nuestro método en varias tareas 3D/4D y demostramos un rendimiento competitivo o de vanguardia en cada una. Página del Proyecto: https://cut3r.github.io/
Las cachés de indicaciones semánticas reducen la latencia y el costo de la inferencia de grandes modelos de lenguaje (LLM) reutilizando respuestas generadas por LLM previamente almacenadas para indicaciones semánticamente similares. Las métricas de similitud de vectores asignan una puntuación numérica para cuantificar la similitud entre una indicación incrustada y su vecino más cercano en la caché. Los sistemas existentes dependen de un umbral estático para clasificar si la puntuación de similitud es lo suficientemente alta como para resultar en un acierto de caché. Mostramos que este umbral de talla única es insuficiente para diferentes indicaciones. Proponemos VectorQ, un marco para aprender regiones de umbral específicas para incrustaciones que se adaptan a la complejidad e incertidumbre de una incrustación. A través de evaluaciones en una combinación de cuatro conjuntos de datos diversos, demostramos que VectorQ supera consistentemente a los sistemas de vanguardia en todos los umbrales estáticos, logrando aumentos de hasta 12 veces en la tasa de aciertos de caché y reducciones de la tasa de error de hasta un 92%.
En los lugares de trabajo contemporáneos, las reuniones son esenciales para intercambiar ideas y garantizar la alineación del equipo, pero a menudo enfrentan desafíos como el consumo de tiempo, conflictos de programación y una participación ineficiente. Los avances recientes en Modelos de Lenguaje Grande (LLMs) han demostrado sus sólidas capacidades en generación de lenguaje natural y razonamiento, lo que plantea la pregunta: ¿pueden los LLMs delegar efectivamente a los participantes en las reuniones? Para explorar esto, desarrollamos un sistema prototipo de delegado de reuniones impulsado por LLM y creamos un benchmark integral utilizando transcripciones reales de reuniones. Nuestra evaluación revela que GPT-4/4o mantiene un rendimiento equilibrado entre estrategias de participación activa y cautelosa. En contraste, Gemini 1.5 Pro tiende a ser más cauteloso, mientras que Gemini 1.5 Flash y Llama3-8B/70B muestran tendencias más activas. En general, alrededor del 60\% de las respuestas abordan al menos un punto clave de la verdad fundamental. Sin embargo, se necesitan mejoras para reducir el contenido irrelevante o repetitivo y mejorar la tolerancia a los errores de transcripción comúnmente encontrados en entornos del mundo real. Además, implementamos el sistema en entornos prácticos y recopilamos comentarios del mundo real de las demostraciones. Nuestros hallazgos subrayan el potencial y los desafíos de utilizar LLMs como delegados de reuniones, ofreciendo ideas valiosas sobre su aplicación práctica para aliviar la carga de las reuniones.
Proponemos SPARC, un marco ligero de aprendizaje continuo para grandes modelos de lenguaje (LLMs) que permite una adaptación eficiente a tareas a través de ajustes de indicaciones en un espacio de menor dimensión. Al aprovechar el análisis de componentes principales (PCA), identificamos un subespacio compacto de los datos de entrenamiento. Optimizar las indicaciones en este espacio de menor dimensión mejora la eficiencia del entrenamiento, ya que se enfoca en las actualizaciones de las características más relevantes mientras se reduce la carga computacional. Además, dado que la estructura interna del modelo permanece inalterada, el extenso conocimiento adquirido del preentrenamiento se conserva por completo, asegurando que la información previamente aprendida no se ve comprometida durante la adaptación. Nuestro método logra una alta retención de conocimiento tanto en configuraciones de aprendizaje continuo incremental de tareas como de dominios, al ajustar solo el 0.04% de los parámetros del modelo. Además, al integrar LoRA, mejoramos la adaptabilidad a restricciones computacionales, permitiendo un equilibrio entre precisión y costo de entrenamiento. Experimentos en el banco de pruebas SuperGLUE demuestran que nuestro ajuste de indicaciones basado en PCA combinado con LoRA mantiene la retención total del conocimiento mientras mejora la precisión, utilizando solo el 1% de los parámetros del modelo. Estos resultados establecen nuestro enfoque como una solución escalable y eficiente en recursos para el aprendizaje continuo en LLMs.
La informática autónoma en el borde en robótica, ciudades inteligentes y vehículos autónomos depende de la integración fluida de la percepción, procesamiento y actuación para la toma de decisiones en tiempo real en entornos dinámicos. En su núcleo se encuentra el bucle de percepción a acción, que alinea de forma iterativa las entradas de los sensores con modelos computacionales para impulsar estrategias de control adaptativas. Estos bucles pueden adaptarse a condiciones hiperlocales, mejorando la eficiencia de recursos y la capacidad de respuesta, pero también enfrentan desafíos como limitaciones de recursos, retrasos de sincronización en la fusión de datos multimodales y el riesgo de errores en cascada en los bucles de retroalimentación. Este artículo explora cómo las adaptaciones proactivas y conscientes del contexto en la percepción a acción y de acción a percepción pueden mejorar la eficiencia mediante el ajuste dinámico de la percepción y la computación en función de las demandas de la tarea, como percibir una parte muy limitada del entorno y predecir el resto. Al guiar la percepción a través de acciones de control, las vías de acción a percepción pueden mejorar la relevancia de la tarea y el uso de recursos, pero también requieren un monitoreo sólido para prevenir errores en cascada y mantener la fiabilidad. Los bucles de percepción-acción multiagente amplían aún más estas capacidades a través de la percepción y acciones coordinadas entre agentes distribuidos, optimizando el uso de recursos mediante la colaboración. Además, la computación neuromórfica, inspirada en sistemas biológicos, proporciona un marco eficiente para el procesamiento basado en eventos de tipo pulso que conserva energía, reduce la latencia y soporta el control jerárquico, lo que lo hace ideal para la optimización multiagente. Este artículo destaca la importancia de estrategias de co-diseño de extremo a extremo que alinean modelos algorítmicos con hardware y dinámicas ambientales, mejorando las interdependencias entre capas para aumentar el rendimiento, la precisión y la adaptabilidad para la autonomía eficiente en el borde en entornos complejos.