Artículos de investigación en IA seleccionados diariamente con traducciones
El escalado del cómputo en tiempo de prueba de los modelos de lenguaje grandes ha demostrado un rendimiento impresionante en benchmarks de razonamiento. Sin embargo, las evaluaciones existentes sobre el escalado en tiempo de prueba parten de la fuerte suposición de que un sistema de razonamiento siempre debería dar una respuesta a cualquier pregunta que se le proporcione. Esto pasa por alto preocupaciones sobre si un modelo está seguro de su respuesta y si es apropiado proporcionar siempre una respuesta. Para abordar estas preocupaciones, extraemos puntuaciones de confianza durante el razonamiento para establecer umbrales en las respuestas del modelo. Descubrimos que aumentar el presupuesto de cómputo en el momento de la inferencia no solo ayuda a los modelos a responder más preguntas correctamente, sino que también aumenta la confianza en las respuestas correctas. Luego, extendemos el paradigma actual de respuestas de riesgo cero durante la evaluación al considerar escenarios con niveles de riesgo de respuesta distintos de cero, y sugerimos una receta para reportar evaluaciones bajo estos escenarios.
Los modelos de lenguaje de gran escala (LLM) de habla de extremo a extremo existentes suelen depender de grandes cantidades de datos anotados para su entrenamiento, mientras que el entrenamiento eficiente en términos de datos no ha sido discutido en profundidad. Nos enfocamos en dos problemas fundamentales entre el habla y el texto: la brecha en el espacio de representación y la inconsistencia en la longitud de las secuencias. Proponemos Soundwave, que utiliza una estrategia de entrenamiento eficiente y una arquitectura novedosa para abordar estos problemas. Los resultados muestran que Soundwave supera al avanzado Qwen2-Audio en tareas de traducción de habla y en las pruebas de habla de AIR-Bench, utilizando solo una cincuentava parte de los datos de entrenamiento. Un análisis adicional muestra que Soundwave conserva su inteligencia durante las conversaciones. El proyecto está disponible en https://github.com/FreedomIntelligence/Soundwave.
Una serie de trabajos recientes aborda el problema de la compresión de secuencias de tokens en una secuencia más corta de vectores de valores reales para ser utilizados como entradas en lugar de incrustaciones de tokens o cachés clave-valor. Estos enfoques permiten reducir la cantidad de cómputo en los modelos de lenguaje existentes. A pesar de depender de modelos potentes como codificadores, la relación máxima de compresión sin pérdida alcanzable no suele ser superior a x10. Este hecho es altamente intrigante porque, en teoría, la capacidad máxima de información de grandes vectores de valores reales está muy por encima de las tasas presentadas, incluso para una precisión de 16 bits y un tamaño de vector modesto. En este trabajo, exploramos los límites de la compresión reemplazando el codificador con un procedimiento de optimización por muestra. Demostramos que existen vectores con relaciones de compresión de hasta x1500, lo que resalta una brecha de dos órdenes de magnitud entre las soluciones existentes y las prácticamente alcanzables. Además, mostramos empíricamente que los límites de compresión no están determinados por la longitud de la entrada, sino por la cantidad de incertidumbre que debe reducirse, es decir, la pérdida de entropía cruzada en esta secuencia sin ningún condicionamiento. Los límites obtenidos destacan la brecha sustancial entre la capacidad teórica de las incrustaciones de entrada y su utilización práctica, sugiriendo un margen significativo para la optimización en el diseño de modelos.
El desarrollo continuo de modelos fundamentales para la generación de videos está evolucionando hacia diversas aplicaciones, con la generación de videos consistentes en el sujeto aún en etapa exploratoria. Nos referimos a esto como Subject-to-Video, que extrae elementos del sujeto de imágenes de referencia y genera videos consistentes con el sujeto a través de instrucciones textuales. Creemos que la esencia de Subject-to-Video radica en equilibrar los estímulos bimodales de texto e imagen, alineando profundamente y simultáneamente tanto el contenido textual como el visual. Para ello, proponemos Phantom, un marco unificado de generación de videos para referencias de uno o varios sujetos. Basándonos en las arquitecturas existentes de texto-a-video e imagen-a-video, rediseñamos el modelo de inyección conjunta de texto e imagen y lo impulsamos a aprender la alineación multimodal mediante datos triples de texto-imagen-video. En particular, enfatizamos la consistencia del sujeto en la generación humana, cubriendo la generación de videos con preservación de identidad existente mientras ofrecemos ventajas mejoradas. La página del proyecto está aquí https://phantom-video.github.io/Phantom/.
Presentamos Magma, un modelo fundacional que aborda tareas agentivas multimodales de IA tanto en el mundo digital como en el físico. Magma representa una extensión significativa de los modelos de visión-lenguaje (VL), ya que no solo conserva la capacidad de comprensión VL (inteligencia verbal) de estos, sino que también está equipado con la habilidad de planificar y actuar en el mundo visual-espacial (inteligencia espacio-temporal) y completar tareas agentivas que van desde la navegación en interfaces de usuario hasta la manipulación robótica. Para dotar a Magma de estas capacidades agentivas, el modelo se preentrena con grandes cantidades de conjuntos de datos heterogéneos que abarcan desde imágenes y videos hasta datos de robótica, donde los objetos visuales accionables (por ejemplo, botones clickeables en una GUI) en las imágenes se etiquetan mediante Set-of-Mark (SoM) para la fundamentación de acciones, y los movimientos de objetos (por ejemplo, la trayectoria de manos humanas o brazos robóticos) en los videos se etiquetan mediante Trace-of-Mark (ToM) para la planificación de acciones. Experimentos exhaustivos muestran que SoM y ToM alcanzan una gran sinergia y facilitan la adquisición de inteligencia espacio-temporal para nuestro modelo Magma, lo cual es fundamental para una amplia gama de tareas, como se muestra en la Fig.1. En particular, Magma establece nuevos resultados de vanguardia en tareas de navegación en interfaces de usuario y manipulación robótica, superando a modelos anteriores específicamente diseñados para estas tareas. En tareas multimodales relacionadas con imágenes y videos, Magma también se compara favorablemente con modelos multimodales grandes populares que se entrenan con conjuntos de datos mucho más extensos. Hacemos público nuestro modelo y código para garantizar la reproducibilidad en https://microsoft.github.io/Magma.
Los modelos de difusión han surgido como una alternativa prometedora a los modelos autorregresivos en la modelización de datos categóricos discretos. Sin embargo, los modelos de difusión que operan directamente en el espacio de datos discretos no aprovechan plenamente el poder del refinamiento iterativo, ya que las señales se pierden durante la transición entre estados discretos. Los modelos de difusión continua existentes para datos discretos tienen un rendimiento limitado en comparación con los enfoques discretos, y la relación poco clara entre ellos restringe el desarrollo de modelos de difusión para datos discretos. En este trabajo, proponemos un modelo de difusión continua para el modelado del lenguaje que incorpora la geometría de la distribución categórica subyacente. Establecemos una conexión entre la difusión discreta y el flujo continuo en la variedad estadística, y basándonos en esta analogía, introducimos un diseño simple para el proceso de difusión que generaliza los modelos de difusión discreta anteriores. Además, proponemos un marco de entrenamiento sin simulación basado en la simetría radial y una técnica sencilla para abordar la alta dimensionalidad de la variedad. Experimentos exhaustivos en benchmarks de modelado del lenguaje y otras modalidades muestran que nuestro método supera a los modelos de difusión discreta existentes y se acerca al rendimiento de los modelos autorregresivos. El código está disponible en https://github.com/harryjo97/RDLM{https://github.com/harryjo97/RDLM}.
Los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) han logrado un rendimiento notable, pero enfrentan desafíos de implementación debido a su complejidad computacional cuadrática, los crecientes requisitos de caché de clave-valor y su dependencia de codificadores de visión separados. Proponemos mmMamba, un marco para desarrollar modelos de espacio de estado multimodal nativo con complejidad lineal mediante destilación progresiva a partir de MLLMs existentes utilizando recursos computacionales académicos moderados. Nuestro enfoque permite la conversión directa de MLLMs entrenados de solo decodificador a arquitecturas de complejidad lineal sin requerir modelos de lenguaje basados en RNN o codificadores de visión preentrenados. Proponemos una estrategia de inicialización para esculpir Mamba a partir de un Transformer entrenado y una receta de destilación en tres etapas, que puede transferir efectivamente el conocimiento del Transformer a Mamba mientras preserva las capacidades multimodales. Nuestro método también admite arquitecturas híbridas flexibles que combinan capas de Transformer y Mamba para lograr compensaciones personalizables entre eficiencia y rendimiento. Destilado a partir del HoVLE basado en Transformer de solo decodificador, mmMamba-lineal logra un rendimiento competitivo frente a los modelos de lenguaje visual (VLMs) de complejidad lineal y cuadrática existentes, mientras que mmMamba-híbrido mejora significativamente el rendimiento, acercándose a las capacidades de HoVLE. Con 103K tokens, mmMamba-lineal demuestra una aceleración de 20.6 veces y una reducción del 75.8% en la memoria de GPU en comparación con HoVLE, mientras que mmMamba-híbrido logra una aceleración de 13.5 veces y un ahorro de memoria del 60.2%. El código y los modelos están disponibles en https://github.com/hustvl/mmMamba.
Comprender las preferencias humanas es crucial para mejorar los modelos base y construir sistemas de IA personalizados. Sin embargo, las preferencias son inherentemente diversas y complejas, lo que dificulta que los modelos de recompensa tradicionales capturen su gama completa. Aunque los datos de preferencias detallados pueden ser útiles, su recopilación es costosa y difícil de escalar. En este artículo, presentamos los Modelos de Recompensa Descompuestos (DRMs, por sus siglas en inglés), un enfoque novedoso que extrae diversas preferencias humanas a partir de comparaciones binarias sin necesidad de anotaciones detalladas. Nuestra idea clave es representar las preferencias humanas como vectores y analizarlas mediante el Análisis de Componentes Principales (PCA, por sus siglas en inglés). Al construir un conjunto de datos de diferencias de incrustaciones entre respuestas preferidas y rechazadas, los DRMs identifican vectores base ortogonales que capturan distintos aspectos de las preferencias. Estas recompensas descompuestas pueden combinarse de manera flexible para alinearse con las necesidades de diferentes usuarios, ofreciendo una alternativa interpretable y escalable a los modelos de recompensa tradicionales. Demostramos que los DRMs extraen eficazmente dimensiones significativas de preferencia (por ejemplo, utilidad, seguridad, humor) y se adaptan a nuevos usuarios sin necesidad de entrenamiento adicional. Nuestros resultados destacan a los DRMs como un marco poderoso para la alineación personalizada e interpretable de modelos de lenguaje grandes (LLMs).
A diferencia de las RNN, que comprimen los tokens anteriores en un único estado oculto, los Transformers pueden atender directamente a todos los tokens previos. Sin embargo, los Transformers estándar solo utilizan representaciones de la capa inmediatamente anterior. En este artículo, demostramos que esta elección de diseño provoca un colapso en las representaciones y conduce a un rendimiento subóptimo. Para abordar este problema, introducimos la Memoria Integrada por Capas (LIMe), un enfoque simple pero potente que preserva la huella de memoria general del modelo mientras expande su capacidad representativa al permitir el acceso a estados ocultos de capas anteriores. A través de experimentos exhaustivos en diversas arquitecturas y mecanismos de búsqueda, demostramos mejoras consistentes en el rendimiento en una amplia gama de tareas. Además, nuestro análisis de la dinámica de las representaciones aprendidas y nuestra exploración de circuitos en profundidad revelan cómo LIMe integra información a través de las capas, señalando direcciones prometedoras para futuras investigaciones.
Los grandes modelos de lenguaje (LLMs) ajustados sobre datos financieros multimodales han demostrado capacidades de razonamiento impresionantes en diversas tareas financieras. Sin embargo, suelen tener dificultades en escenarios interactivos y orientados a objetivos en mercados financieros, como el trading, donde se requieren enfoques agentivos complejos para mejorar la toma de decisiones. Para abordar esto, proponemos FLAG-Trader, una arquitectura unificada que integra el procesamiento lingüístico (mediante LLMs) con la optimización de políticas de aprendizaje por refuerzo (RL) basada en gradientes, en la que un LLM parcialmente ajustado actúa como la red de políticas, aprovechando el conocimiento preentrenado mientras se adapta al dominio financiero mediante ajustes eficientes en parámetros. A través de la optimización de gradientes de políticas impulsada por recompensas de trading, nuestro marco no solo mejora el rendimiento de los LLMs en trading, sino que también optimiza los resultados en otras tareas del ámbito financiero. Presentamos evidencia empírica extensa para validar estas mejoras.
La inteligencia espacial es un componente crítico de la IA encarnada, permitiendo a los robots comprender e interactuar con su entorno. Si bien los avances recientes han mejorado la capacidad de los modelos de lenguaje visual (VLMs) para percibir la ubicación de objetos y sus relaciones posicionales, aún carecen de la habilidad para comprender con precisión las orientaciones de los objetos, un requisito clave para tareas que involucran manipulaciones de alta precisión. Abordar esta limitación no solo requiere razonamiento geométrico, sino también una forma expresiva e intuitiva de representar la orientación. En este contexto, proponemos que el lenguaje natural ofrece un espacio de representación más flexible que los marcos de referencia canónicos, lo que lo hace particularmente adecuado para sistemas robóticos que siguen instrucciones. En este artículo, introducimos el concepto de orientación semántica, que define las orientaciones de los objetos utilizando lenguaje natural de manera independiente de marcos de referencia (por ejemplo, la dirección de "inserción" de un USB o la dirección del "mango" de un cuchillo). Para respaldar esto, construimos OrienText300K, un conjunto de datos a gran escala de modelos 3D anotados con orientaciones semánticas que vinculan la comprensión geométrica con la semántica funcional. Al integrar la orientación semántica en un sistema VLM, permitimos que los robots generen acciones de manipulación con restricciones tanto posicionales como de orientación. Experimentos extensos en simulación y en el mundo real demuestran que nuestro enfoque mejora significativamente las capacidades de manipulación robótica, por ejemplo, con un 48,7% de precisión en Open6DOR y un 74,9% de precisión en SIMPLER.
La implementación de modelos de lenguaje de gran escala (LLMs) en aplicaciones del mundo real requiere modelos de seguridad robustos para detectar y bloquear solicitudes de usuarios potencialmente dañinas. Si bien los modelos de seguridad de gran tamaño logran un rendimiento sólido, su costo computacional es considerable. Para mitigar esto, se utilizan modelos más pequeños y destilados, pero a menudo tienen un rendimiento inferior en ejemplos "difíciles" donde el modelo más grande proporciona predicciones precisas. Observamos que muchas entradas pueden ser manejadas de manera confiable por el modelo más pequeño, mientras que solo una pequeña fracción requiere la capacidad del modelo más grande. Motivados por esto, proponemos SafeRoute, un enrutador binario que distingue ejemplos difíciles de los fáciles. Nuestro método aplica selectivamente el modelo de seguridad más grande a los datos que el enrutador considera difíciles, mejorando la eficiencia mientras se mantiene la precisión en comparación con el uso exclusivo del modelo de seguridad más grande. Los resultados experimentales en múltiples conjuntos de datos de referencia demuestran que nuestra selección de modelos adaptativa mejora significativamente el equilibrio entre el costo computacional y el rendimiento en seguridad, superando a las líneas base relevantes.
Los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) logran un rendimiento superior mediante el escalado durante el entrenamiento, y el escalado en tiempo de prueba mejora aún más sus capacidades al realizar un razonamiento efectivo durante la inferencia. Sin embargo, a medida que aumenta la escala del razonamiento, los métodos existentes de escalado en tiempo de prueba sufren por la acumulación de información histórica, lo que no solo desperdicia recursos computacionales, sino que también interfiere con un razonamiento efectivo. Para abordar este problema, observamos que el progreso en el razonamiento complejo a menudo se logra resolviendo una secuencia de subpreguntas independientes, cada una de las cuales es autónoma y verificable. Estas subpreguntas son esencialmente preguntas atómicas, que dependen principalmente de su estado actual en lugar de la historia acumulada, similar a las transiciones sin memoria en un proceso de Markov. Basándonos en esta observación, proponemos Átomos de Pensamiento (AoT, por sus siglas en inglés), donde cada transición de estado en el proceso de razonamiento consiste en descomponer la pregunta actual en un grafo acíclico dirigido basado en dependencias y contraer sus subpreguntas, formando un nuevo estado de pregunta atómica. Este proceso iterativo de descomposición-contracción continúa hasta alcanzar preguntas atómicas directamente resolubles, realizando naturalmente transiciones de Markov entre estados de preguntas. Además, estas preguntas atómicas pueden integrarse sin problemas en los métodos existentes de escalado en tiempo de prueba, permitiendo que AoT funcione como una mejora complementaria para mejorar las capacidades de razonamiento. Los experimentos en seis benchmarks demuestran la efectividad de AoT tanto como un marco independiente como una mejora complementaria. Notablemente, en HotpotQA, cuando se aplica a gpt-4o-mini, AoT alcanza un puntaje F1 del 80.6%, superando a o3-mini en un 3.4% y a DeepSeek-R1 en un 10.6%. El código estará disponible en https://github.com/qixucen/atom.
Resolver tareas complejas de razonamiento puede involucrar comprensión visual, recuperación de conocimiento de dominio, cálculo numérico y razonamiento de múltiples pasos. Los métodos existentes aumentan los modelos de lenguaje grandes (LLMs) con herramientas externas, pero están restringidos a dominios especializados, tipos de herramientas limitados o requieren datos de entrenamiento adicionales. En este artículo, presentamos OctoTools, un marco agéntico de código abierto, fácil de usar y extensible, diseñado para abordar el razonamiento complejo en diversos dominios sin necesidad de entrenamiento. OctoTools introduce tarjetas de herramientas estandarizadas para encapsular la funcionalidad de las herramientas, un planificador para la planificación tanto de alto como de bajo nivel, y un ejecutor para llevar a cabo el uso de las herramientas. Validamos la generalidad de OctoTools en 16 tareas diversas (incluyendo MathVista, MMLU-Pro, MedQA y GAIA-Text), logrando mejoras sustanciales en la precisión promedio de un 9.3% sobre GPT-4o. Además, OctoTools supera a AutoGen, GPT-Functions y LangChain hasta en un 10.6% cuando se le proporciona el mismo conjunto de herramientas. A través de un análisis exhaustivo y ablaciones, OctoTools demuestra ventajas en la planificación de tareas, el uso efectivo de herramientas y la resolución de problemas de múltiples pasos.
Tras el preentrenamiento con extensos pares de imagen-texto, el Preentrenamiento Contrastivo de Lenguaje-Imagen (CLIP) demuestra un rendimiento prometedor en una amplia variedad de benchmarks. Sin embargo, un volumen sustancial de datos no emparejados, como documentos intercalados multimodales, sigue siendo subutilizado para el aprendizaje de representaciones visión-lenguaje. Para aprovechar plenamente estos documentos no emparejados, inicialmente establecemos una canalización de Extracción de Datos del Mundo Real para obtener imágenes y textos de alta calidad. Luego diseñamos un método de recuperación jerárquica para asociar eficientemente cada imagen con múltiples textos realistas semánticamente relevantes. Para mejorar aún más la información visual detallada, proponemos un módulo de generación aumentada semántica de imágenes para la producción de texto sintético. Además, empleamos una estrategia de muestreo equilibrado semántico para mejorar la diversidad del conjunto de datos, permitiendo un mejor aprendizaje de conceptos de cola larga. Basándonos en estas innovaciones, construimos RealSyn, un conjunto de datos que combina textos realistas y sintéticos, disponible en tres escalas: 15M, 30M y 100M. Experimentos extensivos demuestran que RealSyn avanza efectivamente el aprendizaje de representaciones visión-lenguaje y exhibe una fuerte escalabilidad. Los modelos preentrenados en RealSyn logran un rendimiento de vanguardia en múltiples tareas posteriores. Para facilitar futuras investigaciones, el conjunto de datos RealSyn y los pesos del modelo preentrenado se publican en https://github.com/deepglint/RealSyn.
La llegada del escalado en tiempo de prueba en los modelos de lenguaje de gran escala (LLMs), ejemplificado por la serie o1 de OpenAI, ha avanzado las capacidades de razonamiento al escalar la asignación de recursos computacionales durante la inferencia. Si bien sucesores como QwQ, Deepseek-R1 (R1) y LIMO replican estos avances, si estos modelos realmente poseen capacidades de escalado en tiempo de prueba sigue siendo un tema poco explorado. Este estudio encontró que las cadenas de pensamiento (CoTs) más largas de estos modelos similares a o1 no mejoran consistentemente la precisión; de hecho, las soluciones correctas suelen ser más cortas que las incorrectas para las mismas preguntas. Una investigación más profunda muestra que este fenómeno está estrechamente relacionado con las capacidades de autorrevisión de los modelos: las CoTs más largas contienen más autorrevisiones, lo que a menudo conduce a una degradación del rendimiento. Luego comparamos estrategias de escalado secuencial y paralelo en QwQ, R1 y LIMO, encontrando que el escalado paralelo logra una mejor cobertura y escalabilidad. Basándonos en estas ideas, proponemos el Voto Mayoritario más Corto, un método que combina estrategias de escalado paralelo con las características de longitud de las CoTs, mejorando significativamente la escalabilidad en tiempo de prueba de los modelos en comparación con los enfoques convencionales de votación mayoritaria.
Si bien los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) se adaptan bien a tareas posteriores después del ajuste fino, esta adaptabilidad a menudo compromete la robustez de los prompts, ya que incluso variaciones menores en los prompts pueden degradar significativamente el rendimiento. Para abordar esto, proponemos el Ajuste Fino Independiente del Prompt (PAFT, por sus siglas en inglés), un enfoque simple pero efectivo que ajusta dinámicamente los prompts durante el ajuste fino. Esto fomenta que el modelo aprenda los principios subyacentes de la tarea en lugar de sobreajustarse a formulaciones específicas de prompts. PAFT opera en dos etapas: primero, se construye un conjunto diverso de prompts candidatos sintéticos y significativos. Segundo, durante el ajuste fino, los prompts se muestrean aleatoriamente de este conjunto para crear entradas de entrenamiento dinámicas. Experimentos exhaustivos en diversos conjuntos de datos y LLMs demuestran que los modelos entrenados con PAFT exhiben una fuerte robustez y generalización en una amplia gama de prompts, incluyendo aquellos no vistos previamente. Esta robustez mejorada aumenta tanto el rendimiento del modelo como la velocidad de inferencia, manteniendo la eficiencia del entrenamiento. Estudios de ablación confirman además la efectividad de PAFT.
Recientemente, ha crecido el interés en aprovechar los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) para generar modelos simbólicos del mundo a partir de descripciones textuales. Aunque los LLMs han sido ampliamente explorados en el contexto del modelado del mundo, estudios previos han enfrentado varios desafíos, como la aleatoriedad en la evaluación, la dependencia de métricas indirectas y un alcance limitado en los dominios. Para abordar estas limitaciones, presentamos un nuevo punto de referencia, Text2World, basado en el lenguaje de definición de dominios de planificación (PDDL), que incluye cientos de dominios diversos y emplea métricas de evaluación basadas en la ejecución y de múltiples criterios para una evaluación más robusta. Evaluamos los LLMs actuales utilizando Text2World y encontramos que los modelos de razonamiento entrenados con aprendizaje por refuerzo a gran escala superan a los demás. Sin embargo, incluso el modelo con mejor rendimiento muestra capacidades limitadas en el modelado del mundo. Basándonos en estas observaciones, examinamos varias estrategias prometedoras para mejorar las capacidades de modelado del mundo de los LLMs, incluyendo el escalado en tiempo de prueba, el entrenamiento de agentes y más. Esperamos que Text2World pueda servir como un recurso crucial, sentando las bases para futuras investigaciones sobre el uso de LLMs como modelos del mundo. La página del proyecto está disponible en https://text-to-world.github.io/.
Los modelos de lenguaje de gran escala (LLMs) basados en Transformers demuestran un rendimiento impresionante en la generación de contextos largos. La extensión de la longitud del contexto ha desplazado de manera desproporcionada la huella de memoria de los LLMs durante la inferencia hacia la caché de clave-valor (KV cache). En este artículo, proponemos HEADINFER, que descarga la KV cache a la memoria RAM de la CPU mientras evita la necesidad de almacenar completamente la KV cache para cualquier capa del Transformer en la GPU. HEADINFER emplea una estrategia de descarga granular a nivel de cabezas, manteniendo solo la KV cache de cabezas de atención selectivas en la GPU mientras calcula dinámicamente la salida de atención. Mediante un análisis de techo de rendimiento, demostramos que HEADINFER mantiene la eficiencia computacional mientras reduce significativamente la huella de memoria. Evaluamos HEADINFER en el modelo Llama-3-8B con una secuencia de 1 millón de tokens, reduciendo la huella de memoria de la GPU de la KV cache de 128 GB a 1 GB y el uso total de memoria de la GPU de 207 GB a 17 GB, logrando una reducción del 92% en comparación con la inferencia de referencia BF16. Notablemente, HEADINFER permite la inferencia de 4 millones de tokens con un modelo de 8B en una sola GPU de consumo con 24 GB de memoria (por ejemplo, NVIDIA RTX 4090) sin métodos de aproximación.
Proponemos las conexiones MUltiway Dynamic Dense (MUDD), un método simple pero efectivo para abordar las limitaciones de las conexiones residuales y mejorar el flujo de información entre capas en los Transformers. A diferencia de los enfoques existentes de conexiones densas con pesos estáticos y compartidos, MUDD genera pesos de conexión de manera dinámica según los estados ocultos en cada posición de la secuencia y para cada flujo de entrada desacoplado (la consulta, clave, valor o residual) de un bloque Transformer. Las conexiones MUDD pueden integrarse sin problemas en cualquier arquitectura Transformer para crear MUDDFormer. Experimentos exhaustivos muestran que MUDDFormer supera significativamente a los Transformers en diversas arquitecturas y escalas de modelos en tareas de modelado de lenguaje, alcanzando el rendimiento de Transformers entrenados con 1.8X-2.4X de recursos computacionales. Notablemente, MUDDPythia-2.8B iguala a Pythia-6.9B en perplexity de preentrenamiento y tareas posteriores, e incluso rivaliza con Pythia-12B en configuraciones de cinco ejemplos, mientras añade solo un 0.23% de parámetros y un 0.4% de cómputo. El código en JAX y PyTorch, junto con los modelos preentrenados, están disponibles en https://github.com/Caiyun-AI/MUDDFormer.
Presentamos HealthGPT, un potente Modelo Médico de Gran Visión-Lenguaje (Med-LVLM) que integra capacidades de comprensión y generación visual médica dentro de un paradigma autorregresivo unificado. Nuestra filosofía de arranque es adaptar progresivamente conocimientos heterogéneos de comprensión y generación a modelos de lenguaje preentrenados de gran escala (LLMs). Esto se logra mediante una novedosa técnica de adaptación heterogénea de bajo rango (H-LoRA), complementada por un enfoque de percepción visual jerárquica personalizado y una estrategia de aprendizaje en tres etapas. Para aprender eficazmente HealthGPT, diseñamos un conjunto de datos integral específico del dominio médico para comprensión y generación llamado VL-Health. Los resultados experimentales demuestran un rendimiento excepcional y escalabilidad de HealthGPT en tareas unificadas de visión médica. Nuestro proyecto puede consultarse en https://github.com/DCDmllm/HealthGPT.
La mejora de la arquitectura de red del marco YOLO ha sido crucial durante mucho tiempo, pero se ha centrado en mejoras basadas en CNN a pesar de la superioridad demostrada de los mecanismos de atención en capacidades de modelado. Esto se debe a que los modelos basados en atención no pueden igualar la velocidad de los modelos basados en CNN. Este artículo propone un marco YOLO centrado en la atención, denominado YOLOv12, que iguala la velocidad de los anteriores basados en CNN mientras aprovecha los beneficios de rendimiento de los mecanismos de atención. YOLOv12 supera a todos los detectores de objetos en tiempo real más populares en precisión con una velocidad competitiva. Por ejemplo, YOLOv12-N alcanza un 40.6% de mAP con una latencia de inferencia de 1.64 ms en una GPU T4, superando a YOLOv10-N / YOLOv11-N en un 2.1%/1.2% de mAP con una velocidad comparable. Esta ventaja se extiende a otras escalas de modelos. YOLOv12 también supera a los detectores en tiempo real de extremo a extremo que mejoran DETR, como RT-DETR / RT-DETRv2: YOLOv12-S supera a RT-DETR-R18 / RT-DETRv2-R18 mientras funciona un 42% más rápido, utilizando solo el 36% del cómputo y el 45% de los parámetros. Más comparaciones se muestran en la Figura 1.
Los métodos de optimización distribuida como DiLoCo han demostrado ser efectivos para entrenar modelos muy grandes a través de múltiples trabajadores distribuidos, como centros de datos. Estos métodos dividen las actualizaciones en dos partes: una fase de optimización interna, donde los trabajadores ejecutan de manera independiente múltiples pasos de optimización sobre sus propios datos locales, y un paso de optimización externa, donde se sincronizan las actualizaciones internas. Si bien estos enfoques requieren órdenes de magnitud menos comunicación que el entrenamiento estándar en paralelo de datos, en entornos donde los trabajadores son centros de datos, incluso los requisitos de comunicación limitados de estos enfoques aún pueden causar ralentizaciones significativas debido al bloqueo necesario en cada paso de optimización externa. En este artículo, investigamos técnicas para mitigar este problema superponiendo la comunicación con el cálculo de manera que permita que el paso de optimización externa se superponga completamente con la fase de optimización interna. Demostramos que una variante particular, denominada actualizaciones ávidas, ofrece un rendimiento competitivo con DiLoCo estándar en entornos con ancho de banda reducido entre trabajadores.
Presentamos un novedoso enfoque de razonamiento llamado Flujo-de-Opciones (Flow-of-Options, FoO), diseñado para abordar los sesgos intrínsecos en los Modelos de Lenguaje de Gran Escala (LLMs). FoO permite a los LLMs explorar sistemáticamente una amplia gama de posibilidades en su razonamiento, como lo demuestra un sistema agente basado en FoO para resolver autónomamente tareas de Aprendizaje Automático (AutoML). Nuestro marco supera a los métodos de referencia más avanzados, logrando mejoras del 38,2% al 69,2% en tareas estándar de ciencia de datos, y del 37,4% al 47,9% en tareas de química terapéutica. Con un costo operativo total inferior a $1 por tarea, nuestro marco es ideal para aplicaciones sensibles a los costos. Más allá de la clasificación y la regresión, ilustramos la aplicabilidad más amplia de nuestro sistema agente basado en FoO a tareas como el aprendizaje por refuerzo y la generación de imágenes. Nuestro marco representa avances significativos en comparación con los sistemas agentes más avanzados actuales para AutoML, gracias a los beneficios de FoO al fomentar la diversidad en las soluciones de los LLMs mediante representaciones comprimidas y explicables que también admiten memoria a largo plazo cuando se combinan con razonamiento basado en casos.
El rápido desarrollo de modelos de razonamiento a gran escala, como OpenAI-o3 y DeepSeek-R1, ha llevado a mejoras significativas en el razonamiento complejo en comparación con los modelos de lenguaje grandes (LLMs) no orientados al razonamiento. Sin embargo, sus capacidades mejoradas, combinadas con el acceso de código abierto de modelos como DeepSeek-R1, plantean serias preocupaciones de seguridad, particularmente en cuanto a su potencial de uso indebido. En este trabajo, presentamos una evaluación integral de la seguridad de estos modelos de razonamiento, utilizando benchmarks de seguridad establecidos para evaluar su cumplimiento con las regulaciones de seguridad. Además, investigamos su susceptibilidad a ataques adversarios, como jailbreaking e inyección de prompts, para evaluar su robustez en aplicaciones del mundo real. A través de nuestro análisis multifacético, descubrimos cuatro hallazgos clave: (1) Existe una brecha de seguridad significativa entre los modelos R1 de código abierto y el modelo o3-mini, tanto en el benchmark de seguridad como en los ataques, lo que sugiere que se necesita más esfuerzo en seguridad para R1. (2) El modelo de razonamiento destilado muestra un rendimiento de seguridad más pobre en comparación con sus modelos base alineados con seguridad. (3) Cuanto más fuerte es la capacidad de razonamiento del modelo, mayor es el daño potencial que puede causar al responder preguntas inseguras. (4) El proceso de pensamiento en los modelos R1 plantea mayores preocupaciones de seguridad que sus respuestas finales. Nuestro estudio proporciona información sobre las implicaciones de seguridad de los modelos de razonamiento y destaca la necesidad de avances adicionales en la seguridad de los modelos R1 para cerrar la brecha.
Los modelos base preentrenados en grandes conjuntos de datos no etiquetados han revolucionado el procesamiento del lenguaje natural y la visión por computadora, exhibiendo capacidades de generalización notables, lo que destaca la importancia del preentrenamiento. Sin embargo, los esfuerzos en robótica han tenido dificultades para alcanzar un éxito similar, limitados ya sea por la necesidad de anotaciones robóticas costosas o por la falta de representaciones que modelen eficazmente el mundo físico. En este artículo, presentamos ARM4R, un Modelo Robótico Autoregresivo que aprovecha representaciones 4D de bajo nivel aprendidas a partir de datos de vídeo humanos para obtener un modelo robótico preentrenado mejorado. Específicamente, nos enfocamos en utilizar representaciones de seguimiento de puntos 3D a partir de vídeos, derivadas al elevar representaciones 2D al espacio 3D mediante estimación de profundidad monocular a lo largo del tiempo. Estas representaciones 4D mantienen una estructura geométrica compartida entre los puntos y las representaciones del estado del robot hasta una transformación lineal, lo que permite una transferencia eficiente del aprendizaje desde datos de vídeo humanos al control robótico de bajo nivel. Nuestros experimentos muestran que ARM4R puede transferirse eficientemente desde datos de vídeo humanos a la robótica y mejora consistentemente el rendimiento en tareas en diversos entornos y configuraciones robóticas.
LLM-as-a-Judge, que genera juicios de cadena de pensamiento (CoT, por sus siglas en inglés), se ha convertido en un método de autoevaluación ampliamente adoptado. Sin embargo, su fiabilidad se ve comprometida por la incapacidad del razonamiento CoT para capturar detalles completos y profundos, lo que a menudo conduce a resultados incompletos. Los métodos existentes se basan principalmente en votación mayoritaria o en la expansión de criterios, lo cual es insuficiente para abordar la limitación del CoT. Proponemos la Evaluación Comparativa Basada en la Multitud, que introduce respuestas adicionales de la multitud para compararlas con las respuestas candidatas, exponiendo así detalles más profundos y completos dentro de estas respuestas. Este proceso guía eficazmente a LLM-as-a-Judge para proporcionar un juicio CoT más detallado. Experimentos extensos demuestran que nuestro enfoque mejora la fiabilidad de la evaluación, logrando una ganancia promedio de precisión del 6.7% en cinco benchmarks. Además, nuestro método produce CoTs de mayor calidad que facilitan la destilación de juicios y muestran un rendimiento superior en el muestreo de rechazo para el ajuste fino supervisado (SFT), denominado muestreo de rechazo de la multitud, lo que permite un SFT más eficiente. Nuestro análisis confirma que los CoTs generados por nuestro método son más completos y de mayor calidad, y que la precisión de la evaluación mejora a medida que aumentan las escalas de inferencia.
Los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) han demostrado un éxito notable en diversas tareas, como la comprensión del lenguaje natural, la síntesis de texto y la traducción automática. Sin embargo, su naturaleza de propósito general a menudo limita su eficacia en aplicaciones específicas de dominio que requieren conocimientos especializados, como en el ámbito de la salud, la química o el análisis legal. Para abordar esto, los investigadores han explorado diversos métodos para mejorar los LLMs mediante la integración de conocimientos específicos del dominio. En este estudio, ofrecemos una visión general exhaustiva de estos métodos, que categorizamos en cuatro enfoques clave: inyección dinámica de conocimiento, incrustación estática de conocimiento, adaptadores modulares y optimización de prompts. Cada enfoque ofrece mecanismos únicos para dotar a los LLMs de experiencia en dominios específicos, equilibrando las compensaciones entre flexibilidad, escalabilidad y eficiencia. Discutimos cómo estos métodos permiten a los LLMs abordar tareas especializadas, comparamos sus ventajas y desventajas, evaluamos los LLMs específicos de dominio frente a los LLMs de propósito general, y destacamos los desafíos y oportunidades en este campo emergente. Para aquellos interesados en profundizar en esta área, también resumimos los conjuntos de datos y puntos de referencia comúnmente utilizados. Para mantener a los investigadores actualizados sobre los últimos estudios, mantenemos un repositorio de código abierto en: https://github.com/abilliyb/Knowledge_Injection_Survey_Papers, dedicado a documentar la investigación en el campo de los LLMs especializados.
Los modelos de embedding desempeñan un papel crucial en la representación y recuperación de información en diversas aplicaciones de Procesamiento del Lenguaje Natural (PLN). Los avances recientes en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han mejorado aún más el rendimiento de los modelos de embedding. Si bien estos modelos suelen evaluarse en conjuntos de datos de propósito general, las aplicaciones del mundo real requieren una evaluación específica del dominio. En este trabajo, presentamos el Finance Massive Text Embedding Benchmark (FinMTEB), una contraparte especializada de MTEB diseñada para el dominio financiero. FinMTEB comprende 64 conjuntos de datos de embedding específicos del dominio financiero en 7 tareas que cubren diversos tipos textuales tanto en chino como en inglés, como artículos de noticias financieras, informes anuales corporativos, informes ESG, documentos regulatorios y transcripciones de llamadas de resultados. También desarrollamos un modelo adaptado a las finanzas, FinPersona-E5, utilizando un método sintético de datos basado en personas para cubrir diversas tareas de embedding financiero durante el entrenamiento. A través de una evaluación exhaustiva de 15 modelos de embedding, incluido FinPersona-E5, mostramos tres hallazgos clave: (1) el rendimiento en benchmarks de propósito general muestra una correlación limitada con las tareas del dominio financiero; (2) los modelos adaptados al dominio superan consistentemente a sus contrapartes de propósito general; y (3) sorprendentemente, un enfoque simple de Bolsa de Palabras (BoW, por sus siglas en inglés) supera a los embeddings densos sofisticados en tareas de Similitud Semántica de Texto (STS) financiera, destacando las limitaciones actuales en las técnicas de embedding denso. Nuestro trabajo establece un marco de evaluación robusto para aplicaciones de PLN en finanzas y proporciona insights cruciales para el desarrollo de modelos de embedding específicos del dominio.
El rápido avance de las células solares de perovskita (PSC, por sus siglas en inglés) ha generado un crecimiento exponencial en las publicaciones de investigación, creando una necesidad urgente de sistemas eficientes de gestión del conocimiento y razonamiento en este dominio. Presentamos un sistema integral de conocimiento mejorado para PSC que integra tres componentes clave. En primer lugar, desarrollamos Perovskite-KG, un grafo de conocimiento específico del dominio construido a partir de 1,517 artículos de investigación, que contiene 23,789 entidades y 22,272 relaciones. En segundo lugar, creamos dos conjuntos de datos complementarios: Perovskite-Chat, que comprende 55,101 pares de preguntas y respuestas de alta calidad generados a través de un novedoso marco de trabajo multiagente, y Perovskite-Reasoning, que contiene 2,217 problemas de ciencia de materiales cuidadosamente seleccionados. En tercer lugar, introducimos dos modelos de lenguaje especializados de gran escala: Perovskite-Chat-LLM para asistencia de conocimiento específico del dominio y Perovskite-Reasoning-LLM para tareas de razonamiento científico. Los resultados experimentales demuestran que nuestro sistema supera significativamente a los modelos existentes tanto en la recuperación de conocimiento específico del dominio como en tareas de razonamiento científico, proporcionando a los investigadores herramientas efectivas para la revisión de literatura, diseño experimental y resolución de problemas complejos en la investigación de PSC.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado capacidades notables en una variedad de tareas de generación de texto. Sin embargo, los LLMs aún enfrentan dificultades con problemas que requieren toma de decisiones en múltiples pasos y retroalimentación del entorno, como compras en línea, razonamiento científico y resolución de problemas matemáticos. A diferencia de los datos de texto puro, recopilar datos a gran escala para la toma de decisiones es un desafío. Además, muchos LLMs potentes solo son accesibles a través de APIs, lo que dificulta su ajuste fino para tareas de agentes debido a los costos y la complejidad. Para abordar las limitaciones de los agentes basados en LLMs, proponemos un marco que puede aprender automáticamente un modelo de recompensa a partir del entorno sin necesidad de anotaciones humanas. Este modelo puede utilizarse para evaluar las trayectorias de acción de los agentes LLM y proporcionar heurísticas para la planificación de tareas. Específicamente, nuestro enfoque implica emplear un agente basado en LLM para navegar aleatoriamente en un entorno, generando trayectorias de acción diversas. Posteriormente, se utiliza un LLM separado para asignar una intención de tarea y sintetizar una respuesta negativa junto con la respuesta correcta para cada trayectoria. Estas tripletas (intención de tarea, respuesta positiva y respuesta negativa) se utilizan luego como datos de entrenamiento para optimizar un modelo de recompensa capaz de puntuar trayectorias de acción. La efectividad y generalización de nuestro marco se demuestran mediante evaluaciones realizadas en diferentes benchmarks de agentes. En conclusión, nuestro marco propuesto representa un avance significativo en la mejora de las capacidades de toma de decisiones de los agentes LLM. Al automatizar el aprendizaje de modelos de recompensa, superamos los desafíos de la escasez de datos y las limitaciones de las APIs, lo que podría revolucionar la aplicación de LLMs en entornos complejos e interactivos. Esta investigación abre el camino para agentes de IA más sofisticados capaces de abordar una amplia gama de problemas del mundo real que requieren toma de decisiones en múltiples pasos.
Si bien los modelos de lenguaje multilingüe como XLM-R han avanzado el multilingüismo en el PLN, aún tienen un rendimiento deficiente en idiomas con recursos extremadamente limitados. Esta situación se ve agravada por el hecho de que los modelos de lenguaje modernos (LLMs) como LLaMA y Qwen admiten muchos menos idiomas que XLM-R, lo que hace que los modelos de generación de texto sean inexistentes para muchos idiomas del mundo. Para abordar este desafío, proponemos un marco novedoso para adaptar codificadores multilingües a la generación de texto en idiomas con recursos extremadamente limitados. Al reutilizar los pesos entre el codificador y el decodificador, nuestro marco permite que el modelo aproveche el espacio semántico aprendido por el codificador, facilitando un aprendizaje eficiente y una generalización efectiva en idiomas de bajos recursos. Aplicando este marco a cuatro lenguas minoritarias chinas, presentamos XLM-SWCM y demostramos su rendimiento superior en diversas tareas posteriores, incluso en comparación con modelos mucho más grandes.
El análisis de series temporales ha sido testigo de un desarrollo inspirador, desde los modelos autorregresivos tradicionales y los modelos de aprendizaje profundo, hasta los recientes Transformers y los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés). A lo largo del camino, también se han realizado esfuerzos para aprovechar modelos de visión en el análisis de series temporales, aunque han sido menos visibles para la comunidad debido a la predominante investigación en modelado de secuencias en este dominio. Sin embargo, la discrepancia entre las series temporales continuas y el espacio discreto de tokens de los LLMs, junto con los desafíos en el modelado explícito de las correlaciones entre variables en series temporales multivariadas, han desviado parte de la atención investigativa hacia los igualmente exitosos Modelos de Visión de Gran Escala (LVMs) y los Modelos de Visión y Lenguaje (VLMs). Para llenar el vacío en la literatura existente, este estudio discute las ventajas de los modelos de visión sobre los LLMs en el análisis de series temporales. Proporciona una visión general exhaustiva y detallada de los métodos existentes, con una doble perspectiva de taxonomía que responde a preguntas clave de investigación, como cómo codificar series temporales como imágenes y cómo modelar las series temporales convertidas en imágenes para diversas tareas. Además, abordamos los desafíos en los pasos de pre y post-procesamiento involucrados en este marco y esbozamos direcciones futuras para avanzar aún más en el análisis de series temporales con modelos de visión.