Artículos de investigación en IA seleccionados diariamente con traducciones
Los recientes avances en la generación de texto a imagen (T2I) han logrado resultados impresionantes, pero los modelos existentes aún tienen dificultades con indicaciones que requieren un amplio conocimiento del mundo y razonamiento implícito: ambos aspectos son cruciales para producir imágenes semánticamente precisas, coherentes y contextualmente apropiadas en escenarios del mundo real. Para abordar esta brecha, presentamos WorldGenBench, un punto de referencia diseñado para evaluar sistemáticamente la capacidad de los modelos T2I para fundamentar el conocimiento del mundo y realizar inferencias implícitas, abarcando tanto el ámbito de las humanidades como el de la naturaleza. Proponemos el Puntaje de Lista de Verificación de Conocimiento, una métrica estructurada que mide qué tan bien las imágenes generadas satisfacen las expectativas semánticas clave. Los experimentos realizados con 21 modelos de última generación revelan que, aunque los modelos de difusión lideran entre los métodos de código abierto, los modelos auto-regresivos propietarios como GPT-4o exhiben un razonamiento y una integración de conocimientos significativamente más sólidos. Nuestros hallazgos destacan la necesidad de capacidades más profundas de comprensión e inferencia en los sistemas T2I de próxima generación. Página del proyecto: https://dwanzhang-ai.github.io/WorldGenBench/{https://dwanzhang-ai.github.io/WorldGenBench/}
Los Transformers han logrado un gran éxito en numerosas tareas de PLN, pero siguen mostrando brechas notables en el razonamiento factual de múltiples pasos, especialmente cuando el conocimiento del mundo real es escaso. Los avances recientes en grokking han demostrado que las redes neuronales pueden transitar de memorizar a generalizar perfectamente una vez que detectan patrones lógicos subyacentes; sin embargo, estos estudios han utilizado principalmente tareas sintéticas pequeñas. En este artículo, por primera vez, extendemos el grokking a datos factuales del mundo real y abordamos el desafío de la escasez de datos aumentando grafos de conocimiento existentes con datos sintéticos cuidadosamente diseñados para elevar la proporción phi_r de hechos inferidos sobre hechos atómicos por encima del umbral requerido para el grokking. Sorprendentemente, encontramos que incluso datos sintéticos factualmente incorrectos pueden fortalecer los circuitos de razonamiento emergentes en lugar de degradar la precisión, ya que obligan al modelo a depender de la estructura relacional en lugar de la memorización. Al evaluar en benchmarks de razonamiento multi-hop, nuestro enfoque alcanza hasta un 95-100% de precisión en 2WikiMultiHopQA, mejorando sustancialmente sobre líneas base sólidas y equiparando o superando los resultados actuales del estado del arte. Además, proporcionamos un análisis en profundidad de cómo el aumento de phi_r impulsa la formación de circuitos generalizadores dentro de los Transformers. Nuestros hallazgos sugieren que la ampliación de datos basada en grokking puede desbloquear capacidades implícitas de razonamiento multi-hop, abriendo la puerta a un razonamiento factual más robusto e interpretable en modelos de lenguaje a gran escala.
Un agente de IA de voz que se integre perfectamente en la vida diaria interactuaría con los seres humanos de manera autónoma, en tiempo real y con expresividad emocional. En lugar de limitarse a reaccionar ante comandos, escucharía, razonaría y respondería de forma proactiva, fomentando interacciones fluidas, dinámicas y emocionalmente resonantes. Presentamos Voila, una familia de modelos fundamentales de voz y lenguaje que dan un paso hacia esta visión. Voila va más allá de los sistemas tradicionales en cascada al adoptar una nueva arquitectura de extremo a extremo que permite conversaciones full-duplex de baja latencia, preservando matices vocales ricos como el tono, el ritmo y la emoción. Logra una latencia de respuesta de solo 195 milisegundos, superando el tiempo de respuesta promedio humano. Su Transformer jerárquico de múltiples escalas integra las capacidades de razonamiento de los grandes modelos de lenguaje (LLMs) con un potente modelado acústico, permitiendo una generación de voz natural y consciente de la personalidad, donde los usuarios pueden simplemente escribir instrucciones de texto para definir la identidad, el tono y otras características del hablante. Además, Voila admite más de un millón de voces preconstruidas y una personalización eficiente de nuevas voces a partir de muestras de audio breves, de tan solo 10 segundos. Más allá del diálogo hablado, Voila está diseñado como un modelo unificado para una amplia gama de aplicaciones basadas en voz, incluyendo reconocimiento automático de voz (ASR), conversión de texto a voz (TTS) y, con una adaptación mínima, traducción de voz multilingüe. Voila es completamente de código abierto para apoyar la investigación abierta y acelerar el progreso hacia la próxima generación de interacciones humano-máquina.
El modelado de recompensas es esencial para alinear los grandes modelos de lenguaje (LLMs) con las preferencias humanas, especialmente a través del aprendizaje por refuerzo basado en retroalimentación humana (RLHF). Para proporcionar señales de recompensa precisas, un modelo de recompensas (RM) debería estimular el pensamiento profundo y realizar razonamientos interpretables antes de asignar una puntuación o un juicio. Sin embargo, los RMs existentes producen puntuaciones escalares opacas o generan directamente la predicción de una respuesta preferida, lo que dificulta la integración de críticas en lenguaje natural y, por tanto, carecen de interpretabilidad. Inspirados por los avances recientes en cadenas de pensamiento largas (CoT) para tareas intensivas en razonamiento, planteamos y validamos la hipótesis de que integrar capacidades de razonamiento en el modelado de recompensas mejora significativamente la interpretabilidad y el rendimiento de los RMs. En este trabajo, introducimos una nueva clase de modelos de recompensas generativos: los Modelos de Recompensas con Razonamiento (ReasRMs), que formulan el modelado de recompensas como una tarea de razonamiento. Proponemos un pipeline de entrenamiento orientado al razonamiento y entrenamos una familia de ReasRMs, RM-R1. El entrenamiento consta de dos etapas clave: (1) destilación de cadenas de razonamiento de alta calidad y (2) aprendizaje por refuerzo con recompensas verificables. RM-R1 mejora las iteraciones de los LLMs al generar automáticamente trazas de razonamiento o rúbricas específicas para chats y evaluar las respuestas candidatas en función de ellas. Empíricamente, nuestros modelos alcanzan un rendimiento de vanguardia o cercano al estado del arte en modelos generativos de recompensas en múltiples benchmarks integrales, superando a modelos de código abierto mucho más grandes (por ejemplo, Llama3.1-405B) y a modelos propietarios (por ejemplo, GPT-4o) hasta en un 13.8%. Más allá del rendimiento final, realizamos un análisis empírico exhaustivo para comprender los ingredientes clave del entrenamiento exitoso de los ReasRMs. Para facilitar investigaciones futuras, publicamos seis modelos ReasRM junto con el código y los datos en https://github.com/RM-R1-UIUC/RM-R1.
Demostramos que Muon, la instanciación más simple de un optimizador de segundo orden, expande explícitamente la frontera de Pareto sobre AdamW en el equilibrio entre tiempo de cómputo y rendimiento. Encontramos que Muon es más efectivo que AdamW para mantener la eficiencia de datos con tamaños de lote grandes, mucho más allá del llamado tamaño crítico de lote, mientras mantiene la eficiencia computacional, permitiendo así un entrenamiento más económico. Estudiamos la combinación de Muon con la parametrización de actualización máxima (muP) para la transferencia eficiente de hiperparámetros y presentamos un algoritmo telescópico simple que contabiliza todas las fuentes de error en muP mientras introduce solo un modesto incremento en el uso de recursos. Validamos nuestros hallazgos mediante experimentos extensos con tamaños de modelo de hasta cuatro mil millones de parámetros y ablaciones sobre la distribución de datos y la arquitectura.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se aplican ampliamente en chatbots, generadores de código y motores de búsqueda. Cargas de trabajo como el razonamiento en cadena, el razonamiento complejo y los servicios de agentes aumentan significativamente el costo de inferencia al invocar el modelo repetidamente. Métodos de optimización como el paralelismo, la compresión y el almacenamiento en caché se han adoptado para reducir costos, pero los diversos requisitos de servicio dificultan la selección del método adecuado. Recientemente, motores de inferencia especializados para LLMs han surgido como un componente clave para integrar los métodos de optimización en infraestructuras orientadas a servicios. Sin embargo, aún falta un estudio sistemático sobre los motores de inferencia. Este artículo proporciona una evaluación exhaustiva de 25 motores de inferencia, tanto de código abierto como comerciales. Examinamos cada motor de inferencia en términos de facilidad de uso, facilidad de implementación, soporte de propósito general, escalabilidad y adecuación para cálculos sensibles al rendimiento y la latencia. Además, exploramos los objetivos de diseño de cada motor de inferencia al investigar las técnicas de optimización que admite. También evaluamos la madurez del ecosistema de los motores de inferencia de código abierto y manejamos la política de rendimiento y costo de las soluciones comerciales. Esbozamos futuras direcciones de investigación que incluyen soporte para servicios complejos basados en LLMs, compatibilidad con diversos hardware y seguridad mejorada, ofreciendo orientación práctica a investigadores y desarrolladores para seleccionar y diseñar motores de inferencia de LLMs optimizados. Además, proporcionamos un repositorio público para rastrear continuamente los avances en este campo en rápida evolución: https://github.com/sihyeong/Awesome-LLM-Inference-Engine.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han logrado avances notables en tareas de razonamiento complejo, pero siguen siendo fundamentalmente limitados por su dependencia de conocimiento interno estático y razonamiento basado únicamente en texto. La resolución de problemas del mundo real a menudo requiere razonamiento dinámico y de múltiples pasos, toma de decisiones adaptativa y la capacidad de interactuar con herramientas y entornos externos. En este trabajo, presentamos ARTIST (Razonamiento Agéntico e Integración de Herramientas en Transformadores Automejorables), un marco unificado que acopla estrechamente el razonamiento agéntico, el aprendizaje por refuerzo y la integración de herramientas para LLMs. ARTIST permite que los modelos decidan de manera autónoma cuándo, cómo y qué herramientas invocar dentro de cadenas de razonamiento de múltiples turnos, aprovechando el aprendizaje por refuerzo basado en resultados para aprender estrategias robustas para el uso de herramientas y la interacción con el entorno, sin requerir supervisión a nivel de paso. Experimentos extensos en razonamiento matemático y benchmarks de llamadas a funciones de múltiples turnos muestran que ARTIST supera consistentemente los modelos de referencia más avanzados, con una mejora absoluta de hasta el 22% sobre los modelos base y ganancias significativas en las tareas más desafiantes. Estudios detallados y análisis de métricas revelan que el entrenamiento agéntico con aprendizaje por refuerzo conduce a un razonamiento más profundo, un uso más efectivo de herramientas y soluciones de mayor calidad. Nuestros resultados establecen el aprendizaje por refuerzo agéntico con integración de herramientas como una nueva y poderosa frontera para la resolución de problemas robusta, interpretable y generalizable en LLMs.
El razonamiento matemático formal sigue siendo un desafío crítico para la inteligencia artificial, obstaculizado por las limitaciones de los puntos de referencia existentes en alcance y escala. Para abordar esto, presentamos FormalMATH, un punto de referencia a gran escala en Lean4 que comprende 5,560 problemas formalmente verificados, que van desde desafíos olímpicos de nivel secundario hasta teoremas de nivel universitario en diversos dominios (por ejemplo, álgebra, matemáticas aplicadas, cálculo, teoría de números y matemáticas discretas). Para mitigar la ineficiencia de la formalización manual, introducimos una novedosa canalización de autoformalización con intervención humana que integra: (1) modelos de lenguaje especializados (LLMs) para la autoformalización de enunciados, (2) verificación semántica multi-LLM, y (3) estrategias de filtrado de refutación basadas en negación utilizando demostradores basados en LLM disponibles comercialmente. Este enfoque reduce los costos de anotación experta al retener el 72.09% de los enunciados antes de la verificación manual, asegurando la fidelidad a los problemas originales en lenguaje natural. Nuestra evaluación de los demostradores de teoremas basados en LLM más avanzados revela limitaciones significativas: incluso los modelos más fuertes logran solo un 16.46% de tasa de éxito bajo presupuestos de muestreo prácticos, mostrando un sesgo de dominio pronunciado (por ejemplo, destacando en álgebra pero fallando en cálculo) y una dependencia excesiva en tácticas de automatización simplificadas. Notablemente, identificamos una relación inversa contraintuitiva entre la guía de solución en lenguaje natural y el éxito de la prueba en escenarios de razonamiento de cadena de pensamiento, sugiriendo que el razonamiento informal escrito por humanos introduce ruido en lugar de claridad en los entornos de razonamiento formal. Creemos que FormalMATH proporciona un punto de referencia sólido para evaluar el razonamiento matemático formal.
Los Modelos de Recompensa Multimodal (MRMs) desempeñan un papel crucial en la mejora del rendimiento de los Modelos de Lenguaje Multimodal a Gran Escala (MLLMs). Si bien los avances recientes se han centrado principalmente en mejorar la estructura del modelo y los datos de entrenamiento de los MRMs, ha habido una exploración limitada sobre la efectividad de las capacidades de razonamiento a largo plazo para el modelado de recompensas y cómo activar estas capacidades en los MRMs. En este artículo, exploramos cómo el Aprendizaje por Refuerzo (RL) puede utilizarse para mejorar el modelado de recompensas. Específicamente, reformulamos el problema de modelado de recompensas como una tarea de RL basada en reglas. Sin embargo, observamos que la aplicación directa de algoritmos de RL existentes, como Reinforce++, al modelado de recompensas a menudo conduce a inestabilidad en el entrenamiento o incluso a colapsos debido a las limitaciones inherentes de estos algoritmos. Para abordar este problema, proponemos el algoritmo StableReinforce, que refina la función de pérdida del entrenamiento, la estrategia de estimación de ventajas y el diseño de recompensas de los métodos de RL existentes. Estos refinamientos resultan en dinámicas de entrenamiento más estables y un rendimiento superior. Para facilitar el entrenamiento de los MRMs, recopilamos 200K datos de preferencias de diversos conjuntos de datos. Nuestro modelo de recompensas, R1-Reward, entrenado utilizando el algoritmo StableReinforce en este conjunto de datos, mejora significativamente el rendimiento en los puntos de referencia de modelado de recompensas multimodal. En comparación con los modelos SOTA anteriores, R1-Reward logra una mejora del 8.4% en el VL Reward-Bench y un 14.3% en el Multimodal Reward Bench. Además, con más capacidad de inferencia, el rendimiento de R1-Reward se mejora aún más, destacando el potencial de los algoritmos de RL en la optimización de los MRMs.
Presentamos ReplaceMe, un método generalizado de poda en profundidad sin entrenamiento que reemplaza efectivamente los bloques de transformadores con una operación lineal, manteniendo un alto rendimiento para tasas de compresión bajas. A diferencia de los enfoques convencionales de poda que requieren entrenamiento adicional o ajuste fino, nuestro método necesita solo un pequeño conjunto de datos de calibración que se utiliza para estimar una transformación lineal que aproxime los bloques podados. Esta transformación lineal estimada puede integrarse sin problemas con los bloques restantes del transformador, eliminando la necesidad de parámetros adicionales en la red. Nuestros experimentos muestran que ReplaceMe supera consistentemente a otros enfoques sin entrenamiento y se mantiene altamente competitivo con los métodos de poda más avanzados que implican un extenso reentrenamiento/ajuste fino y modificaciones arquitectónicas. Aplicado a varios modelos de lenguaje grandes (LLMs), ReplaceMe logra hasta un 25% de poda mientras conserva aproximadamente el 90% del rendimiento original del modelo en benchmarks abiertos, sin necesidad de pasos de entrenamiento o recuperación, lo que resulta en un sobrecarga computacional mínima (ver Fig.1). Proporcionamos una biblioteca de código abierto que implementa ReplaceMe junto con varias técnicas de poda en profundidad de última generación, disponible en este repositorio.
El razonamiento de cadena de pensamiento (CoT, por sus siglas en inglés) en modelos de lenguaje de gran escala (LLMs) puede formalizarse como un problema de variables latentes, donde el modelo necesita generar pasos intermedios de razonamiento. Aunque enfoques previos, como el ajuste fino iterativo basado en recompensas clasificadas (RAFT), han dependido de tales formulaciones, generalmente aplican presupuestos de inferencia uniformes en todas las indicaciones (prompts), lo que no tiene en cuenta la variabilidad en la dificultad y el comportamiento de convergencia. Este trabajo identifica el principal cuello de botella en el entrenamiento de CoT como la estimación ineficiente del gradiente estocástico debido a estrategias de muestreo estáticas. Proponemos GVM-RAFT, una Estrategia de Asignación Dinámica de Muestras específica para cada indicación, diseñada para minimizar la varianza del gradiente estocástico bajo una restricción de presupuesto computacional. El método asigna dinámicamente recursos computacionales monitoreando las tasas de aceptación de indicaciones y las normas del gradiente estocástico, asegurando que la varianza resultante del gradiente se minimice. Nuestro análisis teórico muestra que la estrategia de muestreo dinámico propuesta conduce a garantías de convergencia acelerada bajo condiciones adecuadas. Los experimentos en razonamiento matemático demuestran que GVM-RAFT logra una aceleración de 2 a 4 veces y mejoras considerables en precisión en comparación con RAFT estándar. La estrategia de muestreo dinámico propuesta es general y puede incorporarse en otros algoritmos de aprendizaje por refuerzo, como GRPO, lo que conduce a mejoras similares en convergencia y precisión en pruebas. Nuestro código está disponible en https://github.com/RLHFlow/GVM.
La interacción de voz en tiempo real, inteligente y natural es un componente esencial de la próxima generación de interacción humano-computadora. Los avances recientes han demostrado el potencial de construir chatbots hablados inteligentes basados en modelos de lenguaje grandes (LLMs, por sus siglas en inglés). En este artículo, presentamos LLaMA-Omni 2, una serie de modelos de lenguaje de voz (SpeechLMs) que van desde 0.5B hasta 14B parámetros, capaces de lograr una interacción de voz de alta calidad en tiempo real. LLaMA-Omni 2 se construye sobre los modelos de la serie Qwen2.5, integrando un codificador de voz y un decodificador de voz en flujo autoregresivo. A pesar de haber sido entrenado con solo 200K muestras de diálogos de voz de múltiples turnos, LLaMA-Omni 2 demuestra un rendimiento sólido en varios benchmarks de respuesta a preguntas habladas y seguimiento de instrucciones de voz, superando a los SpeechLMs anteriores de última generación como GLM-4-Voice, que fue entrenado con millones de horas de datos de voz.
Abordamos un desafío fundamental en el Aprendizaje por Refuerzo a partir de Demostraciones de Interacción (RLID): el ruido en las demostraciones y las limitaciones de cobertura. Si bien los enfoques existentes de recopilación de datos proporcionan demostraciones de interacción valiosas, a menudo generan trayectorias dispersas, desconectadas y ruidosas que no logran capturar el espectro completo de posibles variaciones y transiciones de habilidades. Nuestra idea clave es que, a pesar de las demostraciones ruidosas y dispersas, existen infinitas trayectorias físicamente factibles que conectan naturalmente entre habilidades demostradas o emergen de sus estados vecinos, formando un espacio continuo de posibles variaciones y transiciones de habilidades. Basándonos en esta idea, presentamos dos técnicas de aumento de datos: un Grafo de Trayectorias Cosidas (STG) que descubre transiciones potenciales entre habilidades demostradas, y un Campo de Transición de Estado (STF) que establece conexiones únicas para estados arbitrarios dentro del vecindario de la demostración. Para permitir un RLID efectivo con datos aumentados, desarrollamos una estrategia de Muestreo Adaptativo de Trayectorias (ATS) para la generación dinámica de un currículo y un mecanismo de codificación histórica para el aprendizaje de habilidades dependientes de la memoria. Nuestro enfoque permite la adquisición robusta de habilidades que se generaliza significativamente más allá de las demostraciones de referencia. Experimentos extensos en diversas tareas de interacción demuestran mejoras sustanciales sobre los métodos más avanzados en términos de estabilidad de convergencia, capacidad de generalización y robustez de recuperación.
La simulación efectiva de inteligencia social requiere que los agentes de lenguaje ajusten dinámicamente la profundidad del razonamiento, una capacidad notablemente ausente en los enfoques actuales. Mientras que los métodos existentes carecen de este tipo de capacidad de razonamiento o imponen cadenas de pensamiento largas y uniformes en todos los escenarios, lo que resulta en un uso excesivo de tokens y una simulación social inapropiada. En este artículo, proponemos el Aprendizaje de Modo Adaptativo (AML, por sus siglas en inglés), que selecciona estratégicamente entre cuatro modos de pensamiento (reacción intuitiva → contemplación profunda) basándose en el contexto en tiempo real. La innovación central de nuestro marco, el algoritmo de Optimización de Política de Modo Adaptativo (AMPO, por sus siglas en inglés), introduce tres avances clave sobre los métodos existentes: (1) Diseño de modos de pensamiento multigranular, (2) Cambio de modo consciente del contexto durante la interacción social, y (3) Razonamiento eficiente en tokens mediante procesamiento adaptativo en profundidad. Experimentos exhaustivos en tareas de inteligencia social confirman que AML logra un 15.6% más de rendimiento en las tareas que los métodos más avanzados. Notablemente, nuestro método supera a GRPO en un 7.0% con cadenas de razonamiento un 32.8% más cortas. Estos resultados demuestran que la selección de modos de pensamiento sensible al contexto, implementada en AMPO, permite un razonamiento adaptativo más similar al humano que el enfoque de profundidad fija de GRPO.
Debido a los desafíos de recopilar manualmente datos de edición precisos, los conjuntos de datos existentes suelen construirse utilizando diversos métodos automatizados, lo que genera señales de supervisión ruidosas debido a la falta de correspondencia entre las instrucciones de edición y los pares de imágenes originales y editadas. Los esfuerzos recientes intentan mejorar los modelos de edición mediante la generación de imágenes editadas de mayor calidad, el preentrenamiento en tareas de reconocimiento o la introducción de modelos de visión y lenguaje (VLMs), pero no logran resolver este problema fundamental. En este artículo, ofrecemos una solución novedosa mediante la construcción de instrucciones de edición más efectivas para pares de imágenes dados. Esto incluye rectificar las instrucciones de edición para alinearlas mejor con los pares de imágenes originales y editadas, y utilizar instrucciones de edición contrastivas para mejorar aún más su efectividad. Específicamente, encontramos que los modelos de edición exhiben atributos de generación específicos en diferentes pasos de inferencia, independientemente del texto. Basándonos en estos atributos previos, definimos una guía unificada para los VLMs para rectificar las instrucciones de edición. Sin embargo, existen algunos escenarios de edición desafiantes que no pueden resolverse únicamente con instrucciones rectificadas. Para ello, construimos señales de supervisión contrastivas con instrucciones positivas y negativas y las introducimos en el entrenamiento del modelo utilizando la pérdida por tripletes, facilitando así aún más la efectividad de la supervisión. Nuestro método no requiere los módulos VLM ni las tareas de preentrenamiento utilizadas en trabajos anteriores, ofreciendo una forma más directa y eficiente de proporcionar mejores señales de supervisión, y brindando una solución novedosa, simple y efectiva para la edición de imágenes basada en instrucciones. Los resultados en múltiples benchmarks demuestran que nuestro método supera significativamente a los enfoques existentes. En comparación con el anterior SOTA SmartEdit, logramos mejoras del 9.19% en el benchmark Real-Edit con 30 veces menos datos de entrenamiento y un tamaño de modelo 13 veces más pequeño.
Presentamos Ming-Lite-Uni, un marco multimodal de código abierto que incluye un generador visual unificado de nuevo diseño y un modelo autorregresivo multimodal nativo diseñado para unificar visión y lenguaje. Específicamente, este proyecto ofrece una implementación de código abierto del marco integrado MetaQueries y M2-omni, al tiempo que introduce los novedosos tokens aprendibles multiescala y la estrategia de alineación de representación multiescala. Al aprovechar un MLLM fijo y un modelo de difusión aprendible, Ming-Lite-Uni permite que los modelos AR multimodales nativos realicen tanto la generación de texto a imagen como tareas de edición de imágenes basadas en instrucciones, ampliando sus capacidades más allá del mero entendimiento visual. Nuestros resultados experimentales demuestran el sólido rendimiento de Ming-Lite-Uni y muestran la impresionante fluidez de su proceso interactivo. Todo el código y los pesos del modelo se han liberado para fomentar una mayor exploración en la comunidad. Cabe destacar que este trabajo se alinea con hitos contemporáneos de la IA multimodal, como ChatGPT-4o con generación de imágenes nativa actualizada el 25 de marzo de 2025, subrayando la importancia más amplia de modelos unificados como Ming-Lite-Uni en el camino hacia la AGI. Ming-Lite-Uni se encuentra en fase alfa y pronto será refinado aún más.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han logrado un rendimiento impresionante en diversos dominios. Sin embargo, los recursos de hardware sustanciales requeridos para su entrenamiento representan una barrera significativa para la eficiencia y escalabilidad. Para mitigar este desafío, las técnicas de entrenamiento de baja precisión han sido ampliamente adoptadas, lo que ha llevado a avances notables en la eficiencia del entrenamiento. A pesar de estas mejoras, el entrenamiento de baja precisión involucra varios componentes—como pesos, activaciones y gradientes—cada uno de los cuales puede representarse en diferentes formatos numéricos. Esta diversidad ha creado un panorama fragmentado en la investigación sobre entrenamiento de baja precisión, dificultando que los investigadores obtengan una visión unificada del campo. Este estudio proporciona una revisión exhaustiva de los métodos existentes de entrenamiento de baja precisión. Para organizar sistemáticamente estos enfoques, los categorizamos en tres grupos principales basados en sus formatos numéricos subyacentes, un factor clave que influye en la compatibilidad del hardware, la eficiencia computacional y la facilidad de referencia para los lectores. Las categorías son: (1) métodos basados en punto fijo y enteros, (2) métodos basados en punto flotante, y (3) métodos basados en formatos personalizados. Además, discutimos enfoques de entrenamiento consciente de la cuantización, que comparten similitudes clave con el entrenamiento de baja precisión durante la propagación hacia adelante. Finalmente, destacamos varias direcciones de investigación prometedoras para avanzar en este campo. Una colección de los artículos discutidos en este estudio se proporciona en https://github.com/Hao840/Awesome-Low-Precision-Training.
Comprender las relaciones causales entre eventos y lograr una localización temporal detallada en videos sigue siendo un desafío para los modelos de visión y lenguaje. Los métodos existentes o bien comprimen los tokens de video para reducir la resolución temporal, o tratan los videos como flujos no segmentados, lo que oscurece los límites detallados de los eventos y limita el modelado de dependencias causales. Proponemos TEMPURA (Predicción y Comprensión de Eventos Temporales Enmascarados para el Razonamiento en Acción), un marco de entrenamiento en dos etapas que mejora la comprensión temporal de videos. TEMPURA primero aplica un razonamiento de predicción de eventos enmascarados para reconstruir eventos faltantes y generar explicaciones causales paso a paso a partir de anotaciones densas de eventos, inspirándose en técnicas efectivas de relleno. Luego, TEMPURA aprende a realizar segmentación de video y descripción densa para descomponer los videos en eventos no superpuestos con descripciones detalladas y alineadas temporalmente. Entrenamos TEMPURA en VER, un conjunto de datos a gran escala curado por nosotros que incluye 1 millón de instancias de entrenamiento y 500 mil videos con descripciones de eventos alineadas temporalmente y pasos de razonamiento estructurados. Los experimentos en benchmarks de localización temporal y detección de momentos destacados demuestran que TEMPURA supera a modelos de referencia sólidos, confirmando que la integración del razonamiento causal con la segmentación temporal detallada conduce a una mejor comprensión de videos.
Los enfoques actuales de personalización multi-sujeto enfrentan dos desafíos críticos: la dificultad para adquirir datos de entrenamiento diversos con múltiples sujetos y el entrelazamiento de atributos entre diferentes sujetos. Para abordar estas limitaciones, proponemos MUSAR, un marco simple pero efectivo que logra una personalización multi-sujeto robusta utilizando únicamente datos de entrenamiento de un solo sujeto. En primer lugar, para superar la limitación de datos, introducimos el aprendizaje diptico debiased. Este método construye pares de entrenamiento dipticos a partir de imágenes de un solo sujeto para facilitar el aprendizaje multi-sujeto, mientras corrige activamente el sesgo de distribución introducido por la construcción diptica mediante enrutamiento de atención estática y LoRA de doble rama. En segundo lugar, para eliminar el entrelazamiento entre sujetos, introducimos un mecanismo de enrutamiento de atención dinámica, que establece de manera adaptativa mapeos biyectivos entre las imágenes generadas y los sujetos condicionales. Este diseño no solo logra desacoplar las representaciones multi-sujeto, sino que también mantiene un rendimiento de generalización escalable con el aumento de sujetos de referencia. Experimentos exhaustivos demuestran que nuestro MUSAR supera a los métodos existentes, incluso aquellos entrenados con conjuntos de datos multi-sujeto, en calidad de imagen, consistencia del sujeto y naturalidad de la interacción, a pesar de requerir únicamente un conjunto de datos de un solo sujeto.
Los mecanismos de atención son fundamentales para el éxito de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), impulsando avances significativos en múltiples campos. Sin embargo, para datos estructurados en grafos, que requieren énfasis en las conexiones topológicas, estos mecanismos no alcanzan el mismo nivel de eficacia que los mecanismos de paso de mensajes sobre enlaces fijos, como los utilizados por las Redes Neuronales de Grafos (GNNs). Esto plantea una pregunta: "¿Falla la atención para grafos en entornos de lenguaje natural?" Motivados por estas observaciones, emprendimos un estudio empírico desde la perspectiva de los mecanismos de atención para explorar cómo los LLMs procesan datos estructurados en grafos. El objetivo es obtener una comprensión más profunda del comportamiento de la atención en los LLMs sobre estructuras de grafos. Descubrimos fenómenos únicos respecto a cómo los LLMs aplican la atención a datos estructurados en grafos y analizamos estos hallazgos para mejorar el modelado de dichos datos por parte de los LLMs. Los principales resultados de nuestra investigación son: 1) Aunque los LLMs pueden reconocer datos de grafos y capturar interacciones entre texto y nodos, tienen dificultades para modelar relaciones entre nodos dentro de estructuras de grafos debido a limitaciones arquitectónicas inherentes. 2) La distribución de la atención en los LLMs a través de los nodos del grafo no se alinea con patrones estructurales ideales, lo que indica una incapacidad para adaptarse a los matices de la topología del grafo. 3) Ni la atención completamente conectada ni la conectividad fija son óptimas; cada una tiene limitaciones específicas en sus escenarios de aplicación. En cambio, ventanas de atención en estados intermedios mejoran el rendimiento del entrenamiento de los LLMs y permiten una transición fluida a ventanas completamente conectadas durante la inferencia. Código fuente: https://github.com/millioniron/LLM_exploration{LLM4Exploration}
Los métodos recientes de NeRF en escenas a gran escala han subrayado la importancia de la descomposición de escenas para NeRFs escalables. Aunque se ha logrado una escalabilidad razonable, quedan varios problemas críticos sin explorar, como la descomposición aprendible, el modelado de la heterogeneidad de la escena y la eficiencia en el modelado. En este artículo, presentamos Switch-NeRF++, una red de Mezcla Heterogénea de Expertos con Hash (HMoHE) que aborda estos desafíos dentro de un marco unificado. Es un NeRF altamente escalable que aprende la descomposición heterogénea y los NeRFs heterogéneos de manera eficiente para escenas a gran escala de forma end-to-end. En nuestro marco, una red de compuertas aprende a descomponer las escenas y asigna puntos 3D a expertos NeRF especializados. Esta red de compuertas se co-optimiza con los expertos, mediante nuestro marco propuesto de Mezcla de Expertos con Compuertas Dispersas (MoE) NeRF. Incorporamos una red de compuertas basada en hash y expertos de hash heterogéneos distintos. La red de compuertas basada en hash aprende eficientemente la descomposición de la escena a gran escala. Los expertos de hash heterogéneos distintos consisten en mallas de hash con diferentes rangos de resolución, lo que permite un aprendizaje efectivo de la representación heterogénea de diferentes partes de la escena. Estas decisiones de diseño hacen que nuestro marco sea una solución NeRF end-to-end y altamente escalable para el modelado de escenas a gran escala del mundo real, logrando tanto calidad como eficiencia. Evaluamos nuestra precisión y escalabilidad en conjuntos de datos existentes de NeRF a gran escala y en un nuevo conjunto de datos con escenas de muy gran escala (>6.5 km^2) de UrbanBIS. Experimentos extensivos demuestran que nuestro enfoque puede escalarse fácilmente a diversas escenas a gran escala y lograr una precisión de renderizado de escenas de vanguardia. Además, nuestro método exhibe una eficiencia significativa, con una aceleración de 8x en el entrenamiento y una aceleración de 16x en el renderizado en comparación con Switch-NeRF. Los códigos se publicarán en https://github.com/MiZhenxing/Switch-NeRF.
Los LLM entrenados en conjuntos de datos masivos pueden adquirir inadvertidamente información sensible, como detalles personales y contenido potencialmente dañino. Este riesgo se ve aún más exacerbado en los LLM multimodales, ya que integran información de múltiples modalidades (imagen y texto). Los adversarios pueden explotar este conocimiento mediante prompts multimodales para extraer detalles sensibles. Evaluar cuán efectivamente los MLLM pueden olvidar dicha información (desaprendizaje dirigido) requiere la creación de pares imagen-texto de alta calidad y bien anotados. Si bien trabajos previos sobre desaprendizaje se han centrado en texto, el desaprendizaje multimodal sigue siendo poco explorado. Para abordar esta brecha, primero presentamos un benchmark de desaprendizaje multimodal, UnLOK-VQA (Unlearning Outside Knowledge VQA), junto con un marco de ataque y defensa para evaluar métodos de eliminación de conocimiento multimodal específico en MLLM. Extendemos un conjunto de datos de respuesta visual a preguntas utilizando una pipeline automatizada que genera muestras de proximidad variable para probar generalización y especificidad, seguido de un filtrado manual para mantener la alta calidad. Luego evaluamos seis objetivos de defensa contra siete ataques (cuatro de caja blanca, tres de caja negra), incluyendo un novedoso método de caja blanca que aprovecha la interpretabilidad de los estados ocultos. Nuestros resultados muestran que los ataques multimodales superan a los basados únicamente en texto o imagen, y que la defensa más efectiva elimina la información de respuesta de los estados internos del modelo. Además, los modelos más grandes exhiben una mayor robustez post-edición, sugiriendo que la escala mejora la seguridad. UnLOK-VQA proporciona un benchmark riguroso para avanzar en el desaprendizaje en MLLM.
Las cámaras de eventos capturan la dinámica del movimiento, ofreciendo una modalidad única con gran potencial en diversas tareas de visión por computadora. Sin embargo, la fusión RGB-Evento enfrenta tres desalineaciones intrínsecas: (i) temporal, (ii) espacial y (iii) modal. Las representaciones existentes de grillas de vóxeles ignoran las correlaciones temporales entre ventanas consecutivas de eventos, y su formulación con una simple acumulación de eventos asíncronos y dispersos es incompatible con la naturaleza síncrona y densa de la modalidad RGB. Para abordar estos desafíos, proponemos una nueva representación de eventos, el Tensor de Eventos Mejorado por Movimiento (MET, por sus siglas en inglés), que transforma los vóxeles dispersos de eventos en una forma densa y temporalmente coherente aprovechando los flujos ópticos densos y las características temporales de los eventos. Además, introducimos un Módulo de Agregación de Flujo Bidireccional Consciente de la Frecuencia (BFAM, por sus siglas en inglés) y un Módulo de Fusión Temporal (TFM, por sus siglas en inglés). El BFAM aprovecha el dominio de la frecuencia y el MET para mitigar la desalineación modal, mientras que los mecanismos de agregación de flujo bidireccional y fusión temporal resuelven la desalineación espacio-temporal. Los resultados experimentales en dos conjuntos de datos a gran escala demuestran que nuestro marco supera significativamente a los enfoques de segmentación semántica RGB-Evento más avanzados. Nuestro código está disponible en: https://github.com/zyaocoder/BRENet.