HuggingFace Daily Papers

Papers Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Seleccionar fecha

33 papers found

Soundwave: Menos es Más para la Alineación Habla-Texto en Modelos de Lenguaje de Gran Escala
Soundwave: Less is More for Speech-Text Alignment in LLMs

Feb 18

ByYuhao Zhang, Zhiheng Liu, Fan Bu, Ruiyu Zhang, Benyou Wang, Haizhou Li

Los modelos de lenguaje de gran escala (LLM) de habla de extremo a extremo existentes suelen depender de grandes cantidades de datos anotados para su entrenamiento, mientras que el entrenamiento eficiente en términos de datos no ha sido discutido en profundidad. Nos enfocamos en dos problemas fundamentales entre el habla y el texto: la brecha en el espacio de representación y la inconsistencia en la longitud de las secuencias. Proponemos Soundwave, que utiliza una estrategia de entrenamiento eficiente y una arquitectura novedosa para abordar estos problemas. Los resultados muestran que Soundwave supera al avanzado Qwen2-Audio en tareas de traducción de habla y en las pruebas de habla de AIR-Bench, utilizando solo una cincuentava parte de los datos de entrenamiento. Un análisis adicional muestra que Soundwave conserva su inteligencia durante las conversaciones. El proyecto está disponible en https://github.com/FreedomIntelligence/Soundwave.

Comprimiendo 1568 Tokens en un Solo Vector y de Vuelta: Explorando los Límites de la Capacidad del Espacio de Incrustación
Cramming 1568 Tokens into a Single Vector and Back Again: Exploring the Limits of Embedding Space Capacity

Feb 18

ByYuri Kuratov, Mikhail Arkhipov, Aydar Bulatov, Mikhail Burtsev

Una serie de trabajos recientes aborda el problema de la compresión de secuencias de tokens en una secuencia más corta de vectores de valores reales para ser utilizados como entradas en lugar de incrustaciones de tokens o cachés clave-valor. Estos enfoques permiten reducir la cantidad de cómputo en los modelos de lenguaje existentes. A pesar de depender de modelos potentes como codificadores, la relación máxima de compresión sin pérdida alcanzable no suele ser superior a x10. Este hecho es altamente intrigante porque, en teoría, la capacidad máxima de información de grandes vectores de valores reales está muy por encima de las tasas presentadas, incluso para una precisión de 16 bits y un tamaño de vector modesto. En este trabajo, exploramos los límites de la compresión reemplazando el codificador con un procedimiento de optimización por muestra. Demostramos que existen vectores con relaciones de compresión de hasta x1500, lo que resalta una brecha de dos órdenes de magnitud entre las soluciones existentes y las prácticamente alcanzables. Además, mostramos empíricamente que los límites de compresión no están determinados por la longitud de la entrada, sino por la cantidad de incertidumbre que debe reducirse, es decir, la pérdida de entropía cruzada en esta secuencia sin ningún condicionamiento. Los límites obtenidos destacan la brecha sustancial entre la capacidad teórica de las incrustaciones de entrada y su utilización práctica, sugiriendo un margen significativo para la optimización en el diseño de modelos.

Phantom: Generación de videos coherentes con el sujeto mediante alineación multimodal
Phantom: Subject-consistent video generation via cross-modal alignment

Feb 16

ByLijie Liu, Tianxiang Ma, Bingchuan Li, Zhuowei Chen, Jiawei Liu, Qian He, Xinglong Wu

El desarrollo continuo de modelos fundamentales para la generación de videos está evolucionando hacia diversas aplicaciones, con la generación de videos consistentes en el sujeto aún en etapa exploratoria. Nos referimos a esto como Subject-to-Video, que extrae elementos del sujeto de imágenes de referencia y genera videos consistentes con el sujeto a través de instrucciones textuales. Creemos que la esencia de Subject-to-Video radica en equilibrar los estímulos bimodales de texto e imagen, alineando profundamente y simultáneamente tanto el contenido textual como el visual. Para ello, proponemos Phantom, un marco unificado de generación de videos para referencias de uno o varios sujetos. Basándonos en las arquitecturas existentes de texto-a-video e imagen-a-video, rediseñamos el modelo de inyección conjunta de texto e imagen y lo impulsamos a aprender la alineación multimodal mediante datos triples de texto-imagen-video. En particular, enfatizamos la consistencia del sujeto en la generación humana, cubriendo la generación de videos con preservación de identidad existente mientras ofrecemos ventajas mejoradas. La página del proyecto está aquí https://phantom-video.github.io/Phantom/.

Magma: Un Modelo Fundacional para Agentes de IA Multimodal
Magma: A Foundation Model for Multimodal AI Agents

Feb 18

ByJianwei Yang, Reuben Tan, Qianhui Wu, Ruijie Zheng, Baolin Peng, Yongyuan Liang, Yu Gu, Mu Cai, Seonghyeon Ye, Joel Jang, Yuquan Deng, Lars Liden, Jianfeng Gao

Presentamos Magma, un modelo fundacional que aborda tareas agentivas multimodales de IA tanto en el mundo digital como en el físico. Magma representa una extensión significativa de los modelos de visión-lenguaje (VL), ya que no solo conserva la capacidad de comprensión VL (inteligencia verbal) de estos, sino que también está equipado con la habilidad de planificar y actuar en el mundo visual-espacial (inteligencia espacio-temporal) y completar tareas agentivas que van desde la navegación en interfaces de usuario hasta la manipulación robótica. Para dotar a Magma de estas capacidades agentivas, el modelo se preentrena con grandes cantidades de conjuntos de datos heterogéneos que abarcan desde imágenes y videos hasta datos de robótica, donde los objetos visuales accionables (por ejemplo, botones clickeables en una GUI) en las imágenes se etiquetan mediante Set-of-Mark (SoM) para la fundamentación de acciones, y los movimientos de objetos (por ejemplo, la trayectoria de manos humanas o brazos robóticos) en los videos se etiquetan mediante Trace-of-Mark (ToM) para la planificación de acciones. Experimentos exhaustivos muestran que SoM y ToM alcanzan una gran sinergia y facilitan la adquisición de inteligencia espacio-temporal para nuestro modelo Magma, lo cual es fundamental para una amplia gama de tareas, como se muestra en la Fig.1. En particular, Magma establece nuevos resultados de vanguardia en tareas de navegación en interfaces de usuario y manipulación robótica, superando a modelos anteriores específicamente diseñados para estas tareas. En tareas multimodales relacionadas con imágenes y videos, Magma también se compara favorablemente con modelos multimodales grandes populares que se entrenan con conjuntos de datos mucho más extensos. Hacemos público nuestro modelo y código para garantizar la reproducibilidad en https://microsoft.github.io/Magma.

Modelo de Difusión Continua para Modelado del Lenguaje
Continuous Diffusion Model for Language Modeling

Feb 17

ByJaehyeong Jo, Sung Ju Hwang

Los modelos de difusión han surgido como una alternativa prometedora a los modelos autorregresivos en la modelización de datos categóricos discretos. Sin embargo, los modelos de difusión que operan directamente en el espacio de datos discretos no aprovechan plenamente el poder del refinamiento iterativo, ya que las señales se pierden durante la transición entre estados discretos. Los modelos de difusión continua existentes para datos discretos tienen un rendimiento limitado en comparación con los enfoques discretos, y la relación poco clara entre ellos restringe el desarrollo de modelos de difusión para datos discretos. En este trabajo, proponemos un modelo de difusión continua para el modelado del lenguaje que incorpora la geometría de la distribución categórica subyacente. Establecemos una conexión entre la difusión discreta y el flujo continuo en la variedad estadística, y basándonos en esta analogía, introducimos un diseño simple para el proceso de difusión que generaliza los modelos de difusión discreta anteriores. Además, proponemos un marco de entrenamiento sin simulación basado en la simetría radial y una técnica sencilla para abordar la alta dimensionalidad de la variedad. Experimentos exhaustivos en benchmarks de modelado del lenguaje y otras modalidades muestran que nuestro método supera a los modelos de difusión discreta existentes y se acerca al rendimiento de los modelos autorregresivos. El código está disponible en https://github.com/harryjo97/RDLM{https://github.com/harryjo97/RDLM}.

Replanteamiento del Aprendizaje de Preferencias Humanas Diversas mediante Análisis de Componentes Principales
Rethinking Diverse Human Preference Learning through Principal Component Analysis

Feb 18

ByFeng Luo, Rui Yang, Hao Sun, Chunyuan Deng, Jiarui Yao, Jingyan Shen, Huan Zhang, Hanjie Chen

Comprender las preferencias humanas es crucial para mejorar los modelos base y construir sistemas de IA personalizados. Sin embargo, las preferencias son inherentemente diversas y complejas, lo que dificulta que los modelos de recompensa tradicionales capturen su gama completa. Aunque los datos de preferencias detallados pueden ser útiles, su recopilación es costosa y difícil de escalar. En este artículo, presentamos los Modelos de Recompensa Descompuestos (DRMs, por sus siglas en inglés), un enfoque novedoso que extrae diversas preferencias humanas a partir de comparaciones binarias sin necesidad de anotaciones detalladas. Nuestra idea clave es representar las preferencias humanas como vectores y analizarlas mediante el Análisis de Componentes Principales (PCA, por sus siglas en inglés). Al construir un conjunto de datos de diferencias de incrustaciones entre respuestas preferidas y rechazadas, los DRMs identifican vectores base ortogonales que capturan distintos aspectos de las preferencias. Estas recompensas descompuestas pueden combinarse de manera flexible para alinearse con las necesidades de diferentes usuarios, ofreciendo una alternativa interpretable y escalable a los modelos de recompensa tradicionales. Demostramos que los DRMs extraen eficazmente dimensiones significativas de preferencia (por ejemplo, utilidad, seguridad, humor) y se adaptan a nuevos usuarios sin necesidad de entrenamiento adicional. Nuestros resultados destacan a los DRMs como un marco poderoso para la alineación personalizada e interpretable de modelos de lenguaje grandes (LLMs).

No aprovechas completamente la capacidad de representación del Transformer.
You Do Not Fully Utilize Transformer's Representation Capacity

Feb 13

ByGleb Gerasimov, Yaroslav Aksenov, Nikita Balagansky, Viacheslav Sinii, Daniil Gavrilov

A diferencia de las RNN, que comprimen los tokens anteriores en un único estado oculto, los Transformers pueden atender directamente a todos los tokens previos. Sin embargo, los Transformers estándar solo utilizan representaciones de la capa inmediatamente anterior. En este artículo, demostramos que esta elección de diseño provoca un colapso en las representaciones y conduce a un rendimiento subóptimo. Para abordar este problema, introducimos la Memoria Integrada por Capas (LIMe), un enfoque simple pero potente que preserva la huella de memoria general del modelo mientras expande su capacidad representativa al permitir el acceso a estados ocultos de capas anteriores. A través de experimentos exhaustivos en diversas arquitecturas y mecanismos de búsqueda, demostramos mejoras consistentes en el rendimiento en una amplia gama de tareas. Además, nuestro análisis de la dinámica de las representaciones aprendidas y nuestra exploración de circuitos en profundidad revelan cómo LIMe integra información a través de las capas, señalando direcciones prometedoras para futuras investigaciones.

FLAG-Trader: Agente LLM de Fusión con Aprendizaje por Refuerzo Basado en Gradientes para Trading Financiero
FLAG-Trader: Fusion LLM-Agent with Gradient-based Reinforcement Learning for Financial Trading

Feb 17

ByGuojun Xiong, Zhiyang Deng, Keyi Wang, Yupeng Cao, Haohang Li, Yangyang Yu, Xueqing Peng, Mingquan Lin, Kaleb E Smith, Xiao-Yang Liu, Jimin Huang, Sophia Ananiadou, Qianqian Xie

Los grandes modelos de lenguaje (LLMs) ajustados sobre datos financieros multimodales han demostrado capacidades de razonamiento impresionantes en diversas tareas financieras. Sin embargo, suelen tener dificultades en escenarios interactivos y orientados a objetivos en mercados financieros, como el trading, donde se requieren enfoques agentivos complejos para mejorar la toma de decisiones. Para abordar esto, proponemos FLAG-Trader, una arquitectura unificada que integra el procesamiento lingüístico (mediante LLMs) con la optimización de políticas de aprendizaje por refuerzo (RL) basada en gradientes, en la que un LLM parcialmente ajustado actúa como la red de políticas, aprovechando el conocimiento preentrenado mientras se adapta al dominio financiero mediante ajustes eficientes en parámetros. A través de la optimización de gradientes de políticas impulsada por recompensas de trading, nuestro marco no solo mejora el rendimiento de los LLMs en trading, sino que también optimiza los resultados en otras tareas del ámbito financiero. Presentamos evidencia empírica extensa para validar estas mejoras.

Multimodal Mamba: Modelo de Espacio de Estados Multimodal Solo-decodificador mediante Distilación Cuadrática a Lineal
Multimodal Mamba: Decoder-only Multimodal State Space Model via Quadratic to Linear Distillation

Feb 18

ByBencheng Liao, Hongyuan Tao, Qian Zhang, Tianheng Cheng, Yingyue Li, Haoran Yin, Wenyu Liu, Xinggang Wang

Los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) han logrado un rendimiento notable, pero enfrentan desafíos de implementación debido a su complejidad computacional cuadrática, los crecientes requisitos de caché de clave-valor y su dependencia de codificadores de visión separados. Proponemos mmMamba, un marco para desarrollar modelos de espacio de estado multimodal nativo con complejidad lineal mediante destilación progresiva a partir de MLLMs existentes utilizando recursos computacionales académicos moderados. Nuestro enfoque permite la conversión directa de MLLMs entrenados de solo decodificador a arquitecturas de complejidad lineal sin requerir modelos de lenguaje basados en RNN o codificadores de visión preentrenados. Proponemos una estrategia de inicialización para esculpir Mamba a partir de un Transformer entrenado y una receta de destilación en tres etapas, que puede transferir efectivamente el conocimiento del Transformer a Mamba mientras preserva las capacidades multimodales. Nuestro método también admite arquitecturas híbridas flexibles que combinan capas de Transformer y Mamba para lograr compensaciones personalizables entre eficiencia y rendimiento. Destilado a partir del HoVLE basado en Transformer de solo decodificador, mmMamba-lineal logra un rendimiento competitivo frente a los modelos de lenguaje visual (VLMs) de complejidad lineal y cuadrática existentes, mientras que mmMamba-híbrido mejora significativamente el rendimiento, acercándose a las capacidades de HoVLE. Con 103K tokens, mmMamba-lineal demuestra una aceleración de 20.6 veces y una reducción del 75.8% en la memoria de GPU en comparación con HoVLE, mientras que mmMamba-híbrido logra una aceleración de 13.5 veces y un ahorro de memoria del 60.2%. El código y los modelos están disponibles en https://github.com/hustvl/mmMamba.

SoFar: La orientación basada en lenguaje conecta el razonamiento espacial y la manipulación de objetos
SoFar: Language-Grounded Orientation Bridges Spatial Reasoning and Object Manipulation

Feb 18

ByZekun Qi, Wenyao Zhang, Yufei Ding, Runpei Dong, Xinqiang Yu, Jingwen Li, Lingyun Xu, Baoyu Li, Xialin He, Guofan Fan, Jiazhao Zhang, Jiawei He, Jiayuan Gu, Xin Jin, Kaisheng Ma, Zhizheng Zhang, He Wang, Li Yi

La inteligencia espacial es un componente crítico de la IA encarnada, permitiendo a los robots comprender e interactuar con su entorno. Si bien los avances recientes han mejorado la capacidad de los modelos de lenguaje visual (VLMs) para percibir la ubicación de objetos y sus relaciones posicionales, aún carecen de la habilidad para comprender con precisión las orientaciones de los objetos, un requisito clave para tareas que involucran manipulaciones de alta precisión. Abordar esta limitación no solo requiere razonamiento geométrico, sino también una forma expresiva e intuitiva de representar la orientación. En este contexto, proponemos que el lenguaje natural ofrece un espacio de representación más flexible que los marcos de referencia canónicos, lo que lo hace particularmente adecuado para sistemas robóticos que siguen instrucciones. En este artículo, introducimos el concepto de orientación semántica, que define las orientaciones de los objetos utilizando lenguaje natural de manera independiente de marcos de referencia (por ejemplo, la dirección de "inserción" de un USB o la dirección del "mango" de un cuchillo). Para respaldar esto, construimos OrienText300K, un conjunto de datos a gran escala de modelos 3D anotados con orientaciones semánticas que vinculan la comprensión geométrica con la semántica funcional. Al integrar la orientación semántica en un sistema VLM, permitimos que los robots generen acciones de manipulación con restricciones tanto posicionales como de orientación. Experimentos extensos en simulación y en el mundo real demuestran que nuestro enfoque mejora significativamente las capacidades de manipulación robótica, por ejemplo, con un 48,7% de precisión en Open6DOR y un 74,9% de precisión en SIMPLER.

SafeRoute: Selección Adaptativa de Modelos para Barreras de Seguridad Eficientes y Precisas en Modelos de Lenguaje a Gran Escala
SafeRoute: Adaptive Model Selection for Efficient and Accurate Safety Guardrails in Large Language Models

Feb 18

BySeanie Lee, Dong Bok Lee, Dominik Wagner, Minki Kang, Haebin Seong, Tobias Bocklet, Juho Lee, Sung Ju Hwang

La implementación de modelos de lenguaje de gran escala (LLMs) en aplicaciones del mundo real requiere modelos de seguridad robustos para detectar y bloquear solicitudes de usuarios potencialmente dañinas. Si bien los modelos de seguridad de gran tamaño logran un rendimiento sólido, su costo computacional es considerable. Para mitigar esto, se utilizan modelos más pequeños y destilados, pero a menudo tienen un rendimiento inferior en ejemplos "difíciles" donde el modelo más grande proporciona predicciones precisas. Observamos que muchas entradas pueden ser manejadas de manera confiable por el modelo más pequeño, mientras que solo una pequeña fracción requiere la capacidad del modelo más grande. Motivados por esto, proponemos SafeRoute, un enrutador binario que distingue ejemplos difíciles de los fáciles. Nuestro método aplica selectivamente el modelo de seguridad más grande a los datos que el enrutador considera difíciles, mejorando la eficiencia mientras se mantiene la precisión en comparación con el uso exclusivo del modelo de seguridad más grande. Los resultados experimentales en múltiples conjuntos de datos de referencia demuestran que nuestra selección de modelos adaptativa mejora significativamente el equilibrio entre el costo computacional y el rendimiento en seguridad, superando a las líneas base relevantes.

OctoTools: Un marco agéntico con herramientas extensibles para razonamiento complejo
OctoTools: An Agentic Framework with Extensible Tools for Complex Reasoning

Feb 16

ByPan Lu, Bowen Chen, Sheng Liu, Rahul Thapa, Joseph Boen, James Zou

Resolver tareas complejas de razonamiento puede involucrar comprensión visual, recuperación de conocimiento de dominio, cálculo numérico y razonamiento de múltiples pasos. Los métodos existentes aumentan los modelos de lenguaje grandes (LLMs) con herramientas externas, pero están restringidos a dominios especializados, tipos de herramientas limitados o requieren datos de entrenamiento adicionales. En este artículo, presentamos OctoTools, un marco agéntico de código abierto, fácil de usar y extensible, diseñado para abordar el razonamiento complejo en diversos dominios sin necesidad de entrenamiento. OctoTools introduce tarjetas de herramientas estandarizadas para encapsular la funcionalidad de las herramientas, un planificador para la planificación tanto de alto como de bajo nivel, y un ejecutor para llevar a cabo el uso de las herramientas. Validamos la generalidad de OctoTools en 16 tareas diversas (incluyendo MathVista, MMLU-Pro, MedQA y GAIA-Text), logrando mejoras sustanciales en la precisión promedio de un 9.3% sobre GPT-4o. Además, OctoTools supera a AutoGen, GPT-Functions y LangChain hasta en un 10.6% cuando se le proporciona el mismo conjunto de herramientas. A través de un análisis exhaustivo y ablaciones, OctoTools demuestra ventajas en la planificación de tareas, el uso efectivo de herramientas y la resolución de problemas de múltiples pasos.

Átomo de Pensamientos para Escalado en Tiempo de Prueba de LLM Markov
Atom of Thoughts for Markov LLM Test-Time Scaling

Feb 17

ByFengwei Teng, Zhaoyang Yu, Quan Shi, Jiayi Zhang, Chenglin Wu, Yuyu Luo

Los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) logran un rendimiento superior mediante el escalado durante el entrenamiento, y el escalado en tiempo de prueba mejora aún más sus capacidades al realizar un razonamiento efectivo durante la inferencia. Sin embargo, a medida que aumenta la escala del razonamiento, los métodos existentes de escalado en tiempo de prueba sufren por la acumulación de información histórica, lo que no solo desperdicia recursos computacionales, sino que también interfiere con un razonamiento efectivo. Para abordar este problema, observamos que el progreso en el razonamiento complejo a menudo se logra resolviendo una secuencia de subpreguntas independientes, cada una de las cuales es autónoma y verificable. Estas subpreguntas son esencialmente preguntas atómicas, que dependen principalmente de su estado actual en lugar de la historia acumulada, similar a las transiciones sin memoria en un proceso de Markov. Basándonos en esta observación, proponemos Átomos de Pensamiento (AoT, por sus siglas en inglés), donde cada transición de estado en el proceso de razonamiento consiste en descomponer la pregunta actual en un grafo acíclico dirigido basado en dependencias y contraer sus subpreguntas, formando un nuevo estado de pregunta atómica. Este proceso iterativo de descomposición-contracción continúa hasta alcanzar preguntas atómicas directamente resolubles, realizando naturalmente transiciones de Markov entre estados de preguntas. Además, estas preguntas atómicas pueden integrarse sin problemas en los métodos existentes de escalado en tiempo de prueba, permitiendo que AoT funcione como una mejora complementaria para mejorar las capacidades de razonamiento. Los experimentos en seis benchmarks demuestran la efectividad de AoT tanto como un marco independiente como una mejora complementaria. Notablemente, en HotpotQA, cuando se aplica a gpt-4o-mini, AoT alcanza un puntaje F1 del 80.6%, superando a o3-mini en un 3.4% y a DeepSeek-R1 en un 10.6%. El código estará disponible en https://github.com/qixucen/atom.

RealSyn: Un Paradigma Efectivo y Escalable para la Transformación de Documentos Multimodales Intercalados
RealSyn: An Effective and Scalable Multimodal Interleaved Document Transformation Paradigm

Feb 18

ByTiancheng Gu, Kaicheng Yang, Chaoyi Zhang, Yin Xie, Xiang An, Ziyong Feng, Dongnan Liu, Weidong Cai, Jiankang Deng

Tras el preentrenamiento con extensos pares de imagen-texto, el Preentrenamiento Contrastivo de Lenguaje-Imagen (CLIP) demuestra un rendimiento prometedor en una amplia variedad de benchmarks. Sin embargo, un volumen sustancial de datos no emparejados, como documentos intercalados multimodales, sigue siendo subutilizado para el aprendizaje de representaciones visión-lenguaje. Para aprovechar plenamente estos documentos no emparejados, inicialmente establecemos una canalización de Extracción de Datos del Mundo Real para obtener imágenes y textos de alta calidad. Luego diseñamos un método de recuperación jerárquica para asociar eficientemente cada imagen con múltiples textos realistas semánticamente relevantes. Para mejorar aún más la información visual detallada, proponemos un módulo de generación aumentada semántica de imágenes para la producción de texto sintético. Además, empleamos una estrategia de muestreo equilibrado semántico para mejorar la diversidad del conjunto de datos, permitiendo un mejor aprendizaje de conceptos de cola larga. Basándonos en estas innovaciones, construimos RealSyn, un conjunto de datos que combina textos realistas y sintéticos, disponible en tres escalas: 15M, 30M y 100M. Experimentos extensivos demuestran que RealSyn avanza efectivamente el aprendizaje de representaciones visión-lenguaje y exhibe una fuerte escalabilidad. Los modelos preentrenados en RealSyn logran un rendimiento de vanguardia en múltiples tareas posteriores. Para facilitar futuras investigaciones, el conjunto de datos RealSyn y los pesos del modelo preentrenado se publican en https://github.com/deepglint/RealSyn.

Revisitando el escalado en tiempo de prueba de modelos tipo o1: ¿Realmente poseen capacidades de escalado en tiempo de prueba?
Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities?

Feb 17

ByZhiyuan Zeng, Qinyuan Cheng, Zhangyue Yin, Yunhua Zhou, Xipeng Qiu

La llegada del escalado en tiempo de prueba en los modelos de lenguaje de gran escala (LLMs), ejemplificado por la serie o1 de OpenAI, ha avanzado las capacidades de razonamiento al escalar la asignación de recursos computacionales durante la inferencia. Si bien sucesores como QwQ, Deepseek-R1 (R1) y LIMO replican estos avances, si estos modelos realmente poseen capacidades de escalado en tiempo de prueba sigue siendo un tema poco explorado. Este estudio encontró que las cadenas de pensamiento (CoTs) más largas de estos modelos similares a o1 no mejoran consistentemente la precisión; de hecho, las soluciones correctas suelen ser más cortas que las incorrectas para las mismas preguntas. Una investigación más profunda muestra que este fenómeno está estrechamente relacionado con las capacidades de autorrevisión de los modelos: las CoTs más largas contienen más autorrevisiones, lo que a menudo conduce a una degradación del rendimiento. Luego comparamos estrategias de escalado secuencial y paralelo en QwQ, R1 y LIMO, encontrando que el escalado paralelo logra una mejor cobertura y escalabilidad. Basándonos en estas ideas, proponemos el Voto Mayoritario más Corto, un método que combina estrategias de escalado paralelo con las características de longitud de las CoTs, mejorando significativamente la escalabilidad en tiempo de prueba de los modelos en comparación con los enfoques convencionales de votación mayoritaria.

PAFT: Ajuste Fino Independiente del Prompt
PAFT: Prompt-Agnostic Fine-Tuning

Feb 18

ByChenxing Wei, Yao Shu, Mingwen Ou, Ying Tiffany He, Fei Richard Yu

Si bien los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) se adaptan bien a tareas posteriores después del ajuste fino, esta adaptabilidad a menudo compromete la robustez de los prompts, ya que incluso variaciones menores en los prompts pueden degradar significativamente el rendimiento. Para abordar esto, proponemos el Ajuste Fino Independiente del Prompt (PAFT, por sus siglas en inglés), un enfoque simple pero efectivo que ajusta dinámicamente los prompts durante el ajuste fino. Esto fomenta que el modelo aprenda los principios subyacentes de la tarea en lugar de sobreajustarse a formulaciones específicas de prompts. PAFT opera en dos etapas: primero, se construye un conjunto diverso de prompts candidatos sintéticos y significativos. Segundo, durante el ajuste fino, los prompts se muestrean aleatoriamente de este conjunto para crear entradas de entrenamiento dinámicas. Experimentos exhaustivos en diversos conjuntos de datos y LLMs demuestran que los modelos entrenados con PAFT exhiben una fuerte robustez y generalización en una amplia gama de prompts, incluyendo aquellos no vistos previamente. Esta robustez mejorada aumenta tanto el rendimiento del modelo como la velocidad de inferencia, manteniendo la eficiencia del entrenamiento. Estudios de ablación confirman además la efectividad de PAFT.

Text2World: Evaluación de Modelos de Lenguaje de Gran Escala para la Generación de Modelos Simbólicos del Mundo
Text2World: Benchmarking Large Language Models for Symbolic World Model Generation

Feb 18

ByMengkang Hu, Tianxing Chen, Yude Zou, Yuheng Lei, Qiguang Chen, Ming Li, Hongyuan Zhang, Wenqi Shao, Ping Luo

Recientemente, ha crecido el interés en aprovechar los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) para generar modelos simbólicos del mundo a partir de descripciones textuales. Aunque los LLMs han sido ampliamente explorados en el contexto del modelado del mundo, estudios previos han enfrentado varios desafíos, como la aleatoriedad en la evaluación, la dependencia de métricas indirectas y un alcance limitado en los dominios. Para abordar estas limitaciones, presentamos un nuevo punto de referencia, Text2World, basado en el lenguaje de definición de dominios de planificación (PDDL), que incluye cientos de dominios diversos y emplea métricas de evaluación basadas en la ejecución y de múltiples criterios para una evaluación más robusta. Evaluamos los LLMs actuales utilizando Text2World y encontramos que los modelos de razonamiento entrenados con aprendizaje por refuerzo a gran escala superan a los demás. Sin embargo, incluso el modelo con mejor rendimiento muestra capacidades limitadas en el modelado del mundo. Basándonos en estas observaciones, examinamos varias estrategias prometedoras para mejorar las capacidades de modelado del mundo de los LLMs, incluyendo el escalado en tiempo de prueba, el entrenamiento de agentes y más. Esperamos que Text2World pueda servir como un recurso crucial, sentando las bases para futuras investigaciones sobre el uso de LLMs como modelos del mundo. La página del proyecto está disponible en https://text-to-world.github.io/.

HeadInfer: Inferencia Eficiente en Memoria para Modelos de Lenguaje mediante Descarga por Cabezales
HeadInfer: Memory-Efficient LLM Inference by Head-wise Offloading

Feb 18

ByCheng Luo, Zefan Cai, Hanshi Sun, Jinqi Xiao, Bo Yuan, Wen Xiao, Junjie Hu, Jiawei Zhao, Beidi Chen, Anima Anandkumar

Los modelos de lenguaje de gran escala (LLMs) basados en Transformers demuestran un rendimiento impresionante en la generación de contextos largos. La extensión de la longitud del contexto ha desplazado de manera desproporcionada la huella de memoria de los LLMs durante la inferencia hacia la caché de clave-valor (KV cache). En este artículo, proponemos HEADINFER, que descarga la KV cache a la memoria RAM de la CPU mientras evita la necesidad de almacenar completamente la KV cache para cualquier capa del Transformer en la GPU. HEADINFER emplea una estrategia de descarga granular a nivel de cabezas, manteniendo solo la KV cache de cabezas de atención selectivas en la GPU mientras calcula dinámicamente la salida de atención. Mediante un análisis de techo de rendimiento, demostramos que HEADINFER mantiene la eficiencia computacional mientras reduce significativamente la huella de memoria. Evaluamos HEADINFER en el modelo Llama-3-8B con una secuencia de 1 millón de tokens, reduciendo la huella de memoria de la GPU de la KV cache de 128 GB a 1 GB y el uso total de memoria de la GPU de 207 GB a 17 GB, logrando una reducción del 92% en comparación con la inferencia de referencia BF16. Notablemente, HEADINFER permite la inferencia de 4 millones de tokens con un modelo de 8B en una sola GPU de consumo con 24 GB de memoria (por ejemplo, NVIDIA RTX 4090) sin métodos de aproximación.

MUDDFormer: Superando Cuellos de Botella Residuales en Transformers mediante Conexiones Dinámicas Densas Multivía
MUDDFormer: Breaking Residual Bottlenecks in Transformers via Multiway Dynamic Dense Connections

Feb 13

ByDa Xiao, Qingye Meng, Shengping Li, Xingyuan Yuan

Proponemos las conexiones MUltiway Dynamic Dense (MUDD), un método simple pero efectivo para abordar las limitaciones de las conexiones residuales y mejorar el flujo de información entre capas en los Transformers. A diferencia de los enfoques existentes de conexiones densas con pesos estáticos y compartidos, MUDD genera pesos de conexión de manera dinámica según los estados ocultos en cada posición de la secuencia y para cada flujo de entrada desacoplado (la consulta, clave, valor o residual) de un bloque Transformer. Las conexiones MUDD pueden integrarse sin problemas en cualquier arquitectura Transformer para crear MUDDFormer. Experimentos exhaustivos muestran que MUDDFormer supera significativamente a los Transformers en diversas arquitecturas y escalas de modelos en tareas de modelado de lenguaje, alcanzando el rendimiento de Transformers entrenados con 1.8X-2.4X de recursos computacionales. Notablemente, MUDDPythia-2.8B iguala a Pythia-6.9B en perplexity de preentrenamiento y tareas posteriores, e incluso rivaliza con Pythia-12B en configuraciones de cinco ejemplos, mientras añade solo un 0.23% de parámetros y un 0.4% de cómputo. El código en JAX y PyTorch, junto con los modelos preentrenados, están disponibles en https://github.com/Caiyun-AI/MUDDFormer.

YOLOv12: Detectores de objetos en tiempo real centrados en la atención
YOLOv12: Attention-Centric Real-Time Object Detectors

Feb 18

ByYunjie Tian, Qixiang Ye, David Doermann

La mejora de la arquitectura de red del marco YOLO ha sido crucial durante mucho tiempo, pero se ha centrado en mejoras basadas en CNN a pesar de la superioridad demostrada de los mecanismos de atención en capacidades de modelado. Esto se debe a que los modelos basados en atención no pueden igualar la velocidad de los modelos basados en CNN. Este artículo propone un marco YOLO centrado en la atención, denominado YOLOv12, que iguala la velocidad de los anteriores basados en CNN mientras aprovecha los beneficios de rendimiento de los mecanismos de atención. YOLOv12 supera a todos los detectores de objetos en tiempo real más populares en precisión con una velocidad competitiva. Por ejemplo, YOLOv12-N alcanza un 40.6% de mAP con una latencia de inferencia de 1.64 ms en una GPU T4, superando a YOLOv10-N / YOLOv11-N en un 2.1%/1.2% de mAP con una velocidad comparable. Esta ventaja se extiende a otras escalas de modelos. YOLOv12 también supera a los detectores en tiempo real de extremo a extremo que mejoran DETR, como RT-DETR / RT-DETRv2: YOLOv12-S supera a RT-DETR-R18 / RT-DETRv2-R18 mientras funciona un 42% más rápido, utilizando solo el 36% del cómputo y el 45% de los parámetros. Más comparaciones se muestran en la Figura 1.

HealthGPT: Un Modelo Médico de Gran Escala Visión-Lenguaje para Unificar Comprensión y Generación mediante Adaptación de Conocimiento Heterogéneo
HealthGPT: A Medical Large Vision-Language Model for Unifying Comprehension and Generation via Heterogeneous Knowledge Adaptation

Feb 14

ByTianwei Lin, Wenqiao Zhang, Sijing Li, Yuqian Yuan, Binhe Yu, Haoyuan Li, Wanggui He, Hao Jiang, Mengze Li, Xiaohui Song, Siliang Tang, Jun Xiao, Hui Lin, Yueting Zhuang, Beng Chin Ooi

Presentamos HealthGPT, un potente Modelo Médico de Gran Visión-Lenguaje (Med-LVLM) que integra capacidades de comprensión y generación visual médica dentro de un paradigma autorregresivo unificado. Nuestra filosofía de arranque es adaptar progresivamente conocimientos heterogéneos de comprensión y generación a modelos de lenguaje preentrenados de gran escala (LLMs). Esto se logra mediante una novedosa técnica de adaptación heterogénea de bajo rango (H-LoRA), complementada por un enfoque de percepción visual jerárquica personalizado y una estrategia de aprendizaje en tres etapas. Para aprender eficazmente HealthGPT, diseñamos un conjunto de datos integral específico del dominio médico para comprensión y generación llamado VL-Health. Los resultados experimentales demuestran un rendimiento excepcional y escalabilidad de HealthGPT en tareas unificadas de visión médica. Nuestro proyecto puede consultarse en https://github.com/DCDmllm/HealthGPT.

Actualizaciones Ávidas para la Superposición de Comunicación y Cálculo en DiLoCo
Eager Updates For Overlapped Communication and Computation in DiLoCo

Feb 18

BySatyen Kale, Arthur Douillard, Yanislav Donchev

Los métodos de optimización distribuida como DiLoCo han demostrado ser efectivos para entrenar modelos muy grandes a través de múltiples trabajadores distribuidos, como centros de datos. Estos métodos dividen las actualizaciones en dos partes: una fase de optimización interna, donde los trabajadores ejecutan de manera independiente múltiples pasos de optimización sobre sus propios datos locales, y un paso de optimización externa, donde se sincronizan las actualizaciones internas. Si bien estos enfoques requieren órdenes de magnitud menos comunicación que el entrenamiento estándar en paralelo de datos, en entornos donde los trabajadores son centros de datos, incluso los requisitos de comunicación limitados de estos enfoques aún pueden causar ralentizaciones significativas debido al bloqueo necesario en cada paso de optimización externa. En este artículo, investigamos técnicas para mitigar este problema superponiendo la comunicación con el cálculo de manera que permita que el paso de optimización externa se superponga completamente con la fase de optimización interna. Demostramos que una variante particular, denominada actualizaciones ávidas, ofrece un rendimiento competitivo con DiLoCo estándar en entornos con ancho de banda reducido entre trabajadores.

Flujo-de-Opciones: Razonamiento Diversificado y Mejorado en LLM al Pensar a Través de Alternativas
Flow-of-Options: Diversified and Improved LLM Reasoning by Thinking Through Options

Feb 18

ByLakshmi Nair, Ian Trase, Mark Kim

Presentamos un novedoso enfoque de razonamiento llamado Flujo-de-Opciones (Flow-of-Options, FoO), diseñado para abordar los sesgos intrínsecos en los Modelos de Lenguaje de Gran Escala (LLMs). FoO permite a los LLMs explorar sistemáticamente una amplia gama de posibilidades en su razonamiento, como lo demuestra un sistema agente basado en FoO para resolver autónomamente tareas de Aprendizaje Automático (AutoML). Nuestro marco supera a los métodos de referencia más avanzados, logrando mejoras del 38,2% al 69,2% en tareas estándar de ciencia de datos, y del 37,4% al 47,9% en tareas de química terapéutica. Con un costo operativo total inferior a $1 por tarea, nuestro marco es ideal para aplicaciones sensibles a los costos. Más allá de la clasificación y la regresión, ilustramos la aplicabilidad más amplia de nuestro sistema agente basado en FoO a tareas como el aprendizaje por refuerzo y la generación de imágenes. Nuestro marco representa avances significativos en comparación con los sistemas agentes más avanzados actuales para AutoML, gracias a los beneficios de FoO al fomentar la diversidad en las soluciones de los LLMs mediante representaciones comprimidas y explicables que también admiten memoria a largo plazo cuando se combinan con razonamiento basado en casos.

Los Riesgos Ocultos de los Modelos de Razonamiento a Gran Escala: Una Evaluación de Seguridad de R1
The Hidden Risks of Large Reasoning Models: A Safety Assessment of R1

Feb 18

ByKaiwen Zhou, Chengzhi Liu, Xuandong Zhao, Shreedhar Jangam, Jayanth Srinivasa, Gaowen Liu, Dawn Song, Xin Eric Wang

El rápido desarrollo de modelos de razonamiento a gran escala, como OpenAI-o3 y DeepSeek-R1, ha llevado a mejoras significativas en el razonamiento complejo en comparación con los modelos de lenguaje grandes (LLMs) no orientados al razonamiento. Sin embargo, sus capacidades mejoradas, combinadas con el acceso de código abierto de modelos como DeepSeek-R1, plantean serias preocupaciones de seguridad, particularmente en cuanto a su potencial de uso indebido. En este trabajo, presentamos una evaluación integral de la seguridad de estos modelos de razonamiento, utilizando benchmarks de seguridad establecidos para evaluar su cumplimiento con las regulaciones de seguridad. Además, investigamos su susceptibilidad a ataques adversarios, como jailbreaking e inyección de prompts, para evaluar su robustez en aplicaciones del mundo real. A través de nuestro análisis multifacético, descubrimos cuatro hallazgos clave: (1) Existe una brecha de seguridad significativa entre los modelos R1 de código abierto y el modelo o3-mini, tanto en el benchmark de seguridad como en los ataques, lo que sugiere que se necesita más esfuerzo en seguridad para R1. (2) El modelo de razonamiento destilado muestra un rendimiento de seguridad más pobre en comparación con sus modelos base alineados con seguridad. (3) Cuanto más fuerte es la capacidad de razonamiento del modelo, mayor es el daño potencial que puede causar al responder preguntas inseguras. (4) El proceso de pensamiento en los modelos R1 plantea mayores preocupaciones de seguridad que sus respuestas finales. Nuestro estudio proporciona información sobre las implicaciones de seguridad de los modelos de razonamiento y destaca la necesidad de avances adicionales en la seguridad de los modelos R1 para cerrar la brecha.

Preentrenamiento de Modelos Robóticos Autoregresivos con Representaciones 4D
Pre-training Auto-regressive Robotic Models with 4D Representations

Feb 18

ByDantong Niu, Yuvan Sharma, Haoru Xue, Giscard Biamby, Junyi Zhang, Ziteng Ji, Trevor Darrell, Roei Herzig

Los modelos base preentrenados en grandes conjuntos de datos no etiquetados han revolucionado el procesamiento del lenguaje natural y la visión por computadora, exhibiendo capacidades de generalización notables, lo que destaca la importancia del preentrenamiento. Sin embargo, los esfuerzos en robótica han tenido dificultades para alcanzar un éxito similar, limitados ya sea por la necesidad de anotaciones robóticas costosas o por la falta de representaciones que modelen eficazmente el mundo físico. En este artículo, presentamos ARM4R, un Modelo Robótico Autoregresivo que aprovecha representaciones 4D de bajo nivel aprendidas a partir de datos de vídeo humanos para obtener un modelo robótico preentrenado mejorado. Específicamente, nos enfocamos en utilizar representaciones de seguimiento de puntos 3D a partir de vídeos, derivadas al elevar representaciones 2D al espacio 3D mediante estimación de profundidad monocular a lo largo del tiempo. Estas representaciones 4D mantienen una estructura geométrica compartida entre los puntos y las representaciones del estado del robot hasta una transformación lineal, lo que permite una transferencia eficiente del aprendizaje desde datos de vídeo humanos al control robótico de bajo nivel. Nuestros experimentos muestran que ARM4R puede transferirse eficientemente desde datos de vídeo humanos a la robótica y mejora consistentemente el rendimiento en tareas en diversos entornos y configuraciones robóticas.

Razonamiento Comparativo Colectivo: Desbloqueando Evaluaciones Integrales para LLM-como-Juez
Crowd Comparative Reasoning: Unlocking Comprehensive Evaluations for LLM-as-a-Judge

Feb 18

ByQiyuan Zhang, Yufei Wang, Yuxin Jiang, Liangyou Li, Chuhan Wu, Yasheng Wang, Xin Jiang, Lifeng Shang, Ruiming Tang, Fuyuan Lyu, Chen Ma

LLM-as-a-Judge, que genera juicios de cadena de pensamiento (CoT, por sus siglas en inglés), se ha convertido en un método de autoevaluación ampliamente adoptado. Sin embargo, su fiabilidad se ve comprometida por la incapacidad del razonamiento CoT para capturar detalles completos y profundos, lo que a menudo conduce a resultados incompletos. Los métodos existentes se basan principalmente en votación mayoritaria o en la expansión de criterios, lo cual es insuficiente para abordar la limitación del CoT. Proponemos la Evaluación Comparativa Basada en la Multitud, que introduce respuestas adicionales de la multitud para compararlas con las respuestas candidatas, exponiendo así detalles más profundos y completos dentro de estas respuestas. Este proceso guía eficazmente a LLM-as-a-Judge para proporcionar un juicio CoT más detallado. Experimentos extensos demuestran que nuestro enfoque mejora la fiabilidad de la evaluación, logrando una ganancia promedio de precisión del 6.7% en cinco benchmarks. Además, nuestro método produce CoTs de mayor calidad que facilitan la destilación de juicios y muestran un rendimiento superior en el muestreo de rechazo para el ajuste fino supervisado (SFT), denominado muestreo de rechazo de la multitud, lo que permite un SFT más eficiente. Nuestro análisis confirma que los CoTs generados por nuestro método son más completos y de mayor calidad, y que la precisión de la evaluación mejora a medida que aumentan las escalas de inferencia.

FinMTEB: Punto de Referencia Masivo para Incrustaciones de Texto en Finanzas
FinMTEB: Finance Massive Text Embedding Benchmark

Feb 16

ByYixuan Tang, Yi Yang

Los modelos de embedding desempeñan un papel crucial en la representación y recuperación de información en diversas aplicaciones de Procesamiento del Lenguaje Natural (PLN). Los avances recientes en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han mejorado aún más el rendimiento de los modelos de embedding. Si bien estos modelos suelen evaluarse en conjuntos de datos de propósito general, las aplicaciones del mundo real requieren una evaluación específica del dominio. En este trabajo, presentamos el Finance Massive Text Embedding Benchmark (FinMTEB), una contraparte especializada de MTEB diseñada para el dominio financiero. FinMTEB comprende 64 conjuntos de datos de embedding específicos del dominio financiero en 7 tareas que cubren diversos tipos textuales tanto en chino como en inglés, como artículos de noticias financieras, informes anuales corporativos, informes ESG, documentos regulatorios y transcripciones de llamadas de resultados. También desarrollamos un modelo adaptado a las finanzas, FinPersona-E5, utilizando un método sintético de datos basado en personas para cubrir diversas tareas de embedding financiero durante el entrenamiento. A través de una evaluación exhaustiva de 15 modelos de embedding, incluido FinPersona-E5, mostramos tres hallazgos clave: (1) el rendimiento en benchmarks de propósito general muestra una correlación limitada con las tareas del dominio financiero; (2) los modelos adaptados al dominio superan consistentemente a sus contrapartes de propósito general; y (3) sorprendentemente, un enfoque simple de Bolsa de Palabras (BoW, por sus siglas en inglés) supera a los embeddings densos sofisticados en tareas de Similitud Semántica de Texto (STS) financiera, destacando las limitaciones actuales en las técnicas de embedding denso. Nuestro trabajo establece un marco de evaluación robusto para aplicaciones de PLN en finanzas y proporciona insights cruciales para el desarrollo de modelos de embedding específicos del dominio.

Inyección de Conocimiento Específico del Dominio en Modelos de Lenguaje de Gran Escala: Una Revisión Integral
Injecting Domain-Specific Knowledge into Large Language Models: A Comprehensive Survey

Feb 15

ByZirui Song, Bin Yan, Yuhan Liu, Miao Fang, Mingzhe Li, Rui Yan, Xiuying Chen

Los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) han demostrado un éxito notable en diversas tareas, como la comprensión del lenguaje natural, la síntesis de texto y la traducción automática. Sin embargo, su naturaleza de propósito general a menudo limita su eficacia en aplicaciones específicas de dominio que requieren conocimientos especializados, como en el ámbito de la salud, la química o el análisis legal. Para abordar esto, los investigadores han explorado diversos métodos para mejorar los LLMs mediante la integración de conocimientos específicos del dominio. En este estudio, ofrecemos una visión general exhaustiva de estos métodos, que categorizamos en cuatro enfoques clave: inyección dinámica de conocimiento, incrustación estática de conocimiento, adaptadores modulares y optimización de prompts. Cada enfoque ofrece mecanismos únicos para dotar a los LLMs de experiencia en dominios específicos, equilibrando las compensaciones entre flexibilidad, escalabilidad y eficiencia. Discutimos cómo estos métodos permiten a los LLMs abordar tareas especializadas, comparamos sus ventajas y desventajas, evaluamos los LLMs específicos de dominio frente a los LLMs de propósito general, y destacamos los desafíos y oportunidades en este campo emergente. Para aquellos interesados en profundizar en esta área, también resumimos los conjuntos de datos y puntos de referencia comúnmente utilizados. Para mantener a los investigadores actualizados sobre los últimos estudios, mantenemos un repositorio de código abierto en: https://github.com/abilliyb/Knowledge_Injection_Survey_Papers, dedicado a documentar la investigación en el campo de los LLMs especializados.

¿Es esa tu respuesta final? El escalado en tiempo de prueba mejora la selección de preguntas para responder
Is That Your Final Answer? Test-Time Scaling Improves Selective Question Answering

Feb 19

ByWilliam Jurayj, Jeffrey Cheng, Benjamin Van Durme

El escalado del cómputo en tiempo de prueba de los modelos de lenguaje grandes ha demostrado un rendimiento impresionante en benchmarks de razonamiento. Sin embargo, las evaluaciones existentes sobre el escalado en tiempo de prueba parten de la fuerte suposición de que un sistema de razonamiento siempre debería dar una respuesta a cualquier pregunta que se le proporcione. Esto pasa por alto preocupaciones sobre si un modelo está seguro de su respuesta y si es apropiado proporcionar siempre una respuesta. Para abordar estas preocupaciones, extraemos puntuaciones de confianza durante el razonamiento para establecer umbrales en las respuestas del modelo. Descubrimos que aumentar el presupuesto de cómputo en el momento de la inferencia no solo ayuda a los modelos a responder más preguntas correctamente, sino que también aumenta la confianza en las respuestas correctas. Luego, extendemos el paradigma actual de respuestas de riesgo cero durante la evaluación al considerar escenarios con niveles de riesgo de respuesta distintos de cero, y sugerimos una receta para reportar evaluaciones bajo estos escenarios.

Aprovechamiento de Modelos de Visión para el Análisis de Series Temporales: Una Revisión
Harnessing Vision Models for Time Series Analysis: A Survey

Feb 13

ByJingchao Ni, Ziming Zhao, ChengAo Shen, Hanghang Tong, Dongjin Song, Wei Cheng, Dongsheng Luo, Haifeng Chen

El análisis de series temporales ha sido testigo de un desarrollo inspirador, desde los modelos autorregresivos tradicionales y los modelos de aprendizaje profundo, hasta los recientes Transformers y los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés). A lo largo del camino, también se han realizado esfuerzos para aprovechar modelos de visión en el análisis de series temporales, aunque han sido menos visibles para la comunidad debido a la predominante investigación en modelado de secuencias en este dominio. Sin embargo, la discrepancia entre las series temporales continuas y el espacio discreto de tokens de los LLMs, junto con los desafíos en el modelado explícito de las correlaciones entre variables en series temporales multivariadas, han desviado parte de la atención investigativa hacia los igualmente exitosos Modelos de Visión de Gran Escala (LVMs) y los Modelos de Visión y Lenguaje (VLMs). Para llenar el vacío en la literatura existente, este estudio discute las ventajas de los modelos de visión sobre los LLMs en el análisis de series temporales. Proporciona una visión general exhaustiva y detallada de los métodos existentes, con una doble perspectiva de taxonomía que responde a preguntas clave de investigación, como cómo codificar series temporales como imágenes y cómo modelar las series temporales convertidas en imágenes para diversas tareas. Además, abordamos los desafíos en los pasos de pre y post-procesamiento involucrados en este marco y esbozamos direcciones futuras para avanzar aún más en el análisis de series temporales con modelos de visión.

Escalado de agentes autónomos mediante modelado automático de recompensas y planificación
Scaling Autonomous Agents via Automatic Reward Modeling And Planning

Feb 17

ByZhenfang Chen, Delin Chen, Rui Sun, Wenjun Liu, Chuang Gan

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado capacidades notables en una variedad de tareas de generación de texto. Sin embargo, los LLMs aún enfrentan dificultades con problemas que requieren toma de decisiones en múltiples pasos y retroalimentación del entorno, como compras en línea, razonamiento científico y resolución de problemas matemáticos. A diferencia de los datos de texto puro, recopilar datos a gran escala para la toma de decisiones es un desafío. Además, muchos LLMs potentes solo son accesibles a través de APIs, lo que dificulta su ajuste fino para tareas de agentes debido a los costos y la complejidad. Para abordar las limitaciones de los agentes basados en LLMs, proponemos un marco que puede aprender automáticamente un modelo de recompensa a partir del entorno sin necesidad de anotaciones humanas. Este modelo puede utilizarse para evaluar las trayectorias de acción de los agentes LLM y proporcionar heurísticas para la planificación de tareas. Específicamente, nuestro enfoque implica emplear un agente basado en LLM para navegar aleatoriamente en un entorno, generando trayectorias de acción diversas. Posteriormente, se utiliza un LLM separado para asignar una intención de tarea y sintetizar una respuesta negativa junto con la respuesta correcta para cada trayectoria. Estas tripletas (intención de tarea, respuesta positiva y respuesta negativa) se utilizan luego como datos de entrenamiento para optimizar un modelo de recompensa capaz de puntuar trayectorias de acción. La efectividad y generalización de nuestro marco se demuestran mediante evaluaciones realizadas en diferentes benchmarks de agentes. En conclusión, nuestro marco propuesto representa un avance significativo en la mejora de las capacidades de toma de decisiones de los agentes LLM. Al automatizar el aprendizaje de modelos de recompensa, superamos los desafíos de la escasez de datos y las limitaciones de las APIs, lo que podría revolucionar la aplicación de LLMs en entornos complejos e interactivos. Esta investigación abre el camino para agentes de IA más sofisticados capaces de abordar una amplia gama de problemas del mundo real que requieren toma de decisiones en múltiples pasos.

Perovskite-LLM: Modelos de Lenguaje de Gran Escala Mejorados con Conocimiento para la Investigación de Células Solares de Perovskita
Perovskite-LLM: Knowledge-Enhanced Large Language Models for Perovskite Solar Cell Research

Feb 18

ByXiang Liu, Penglei Sun, Shuyan Chen, Longhan Zhang, Peijie Dong, Huajie You, Yongqi Zhang, Chang Yan, Xiaowen Chu, Tong-yi Zhang

El rápido avance de las células solares de perovskita (PSC, por sus siglas en inglés) ha generado un crecimiento exponencial en las publicaciones de investigación, creando una necesidad urgente de sistemas eficientes de gestión del conocimiento y razonamiento en este dominio. Presentamos un sistema integral de conocimiento mejorado para PSC que integra tres componentes clave. En primer lugar, desarrollamos Perovskite-KG, un grafo de conocimiento específico del dominio construido a partir de 1,517 artículos de investigación, que contiene 23,789 entidades y 22,272 relaciones. En segundo lugar, creamos dos conjuntos de datos complementarios: Perovskite-Chat, que comprende 55,101 pares de preguntas y respuestas de alta calidad generados a través de un novedoso marco de trabajo multiagente, y Perovskite-Reasoning, que contiene 2,217 problemas de ciencia de materiales cuidadosamente seleccionados. En tercer lugar, introducimos dos modelos de lenguaje especializados de gran escala: Perovskite-Chat-LLM para asistencia de conocimiento específico del dominio y Perovskite-Reasoning-LLM para tareas de razonamiento científico. Los resultados experimentales demuestran que nuestro sistema supera significativamente a los modelos existentes tanto en la recuperación de conocimiento específico del dominio como en tareas de razonamiento científico, proporcionando a los investigadores herramientas efectivas para la revisión de literatura, diseño experimental y resolución de problemas complejos en la investigación de PSC.

El Codificador Multilingüe Sabe Más de lo que Crees: Pretrenamiento con Pesos Compartidos para Lenguajes de Recursos Extremadamente Limitados
Multilingual Encoder Knows more than You Realize: Shared Weights Pretraining for Extremely Low-Resource Languages

Feb 15

ByZeli Su, Ziyin Zhang, Guixian Xu, Jianing Liu, XU Han, Ting Zhang, Yushuang Dong

Si bien los modelos de lenguaje multilingüe como XLM-R han avanzado el multilingüismo en el PLN, aún tienen un rendimiento deficiente en idiomas con recursos extremadamente limitados. Esta situación se ve agravada por el hecho de que los modelos de lenguaje modernos (LLMs) como LLaMA y Qwen admiten muchos menos idiomas que XLM-R, lo que hace que los modelos de generación de texto sean inexistentes para muchos idiomas del mundo. Para abordar este desafío, proponemos un marco novedoso para adaptar codificadores multilingües a la generación de texto en idiomas con recursos extremadamente limitados. Al reutilizar los pesos entre el codificador y el decodificador, nuestro marco permite que el modelo aproveche el espacio semántico aprendido por el codificador, facilitando un aprendizaje eficiente y una generalización efectiva en idiomas de bajos recursos. Aplicando este marco a cuatro lenguas minoritarias chinas, presentamos XLM-SWCM y demostramos su rendimiento superior en diversas tareas posteriores, incluso en comparación con modelos mucho más grandes.