Artículos de investigación en IA seleccionados diariamente con traducciones
Text-to-SQL tiene como objetivo traducir consultas en lenguaje natural a sentencias SQL, lo cual es práctico ya que permite a cualquier persona recuperar fácilmente la información deseada de las bases de datos. Recientemente, muchos enfoques existentes abordan este problema utilizando Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés), aprovechando su fuerte capacidad para comprender las consultas de los usuarios y generar el código SQL correspondiente. Sin embargo, el conocimiento paramétrico en los LLMs podría ser limitado para cubrir todas las consultas diversas y específicas de dominio que requieren estar fundamentadas en diversos esquemas de bases de datos, lo que hace que los SQL generados sean menos precisos en muchas ocasiones. Para abordar esto, proponemos construir una base de conocimiento para text-to-SQL, una fuente fundamental de conocimiento, desde la cual recuperamos y generamos el conocimiento necesario para las consultas dadas. En particular, a diferencia de los enfoques existentes que ya sea anotan manualmente el conocimiento o generan solo algunas piezas de conocimiento para cada consulta, nuestra base de conocimiento es integral, ya que se construye a partir de una combinación de todas las preguntas disponibles y sus esquemas de bases de datos asociados, junto con su conocimiento relevante, y puede reutilizarse para bases de datos no vistas de diferentes conjuntos de datos y dominios. Validamos nuestro enfoque en múltiples conjuntos de datos de text-to-SQL, considerando tanto escenarios de bases de datos superpuestas como no superpuestas, donde supera sustancialmente a las líneas base relevantes.
La capacidad de seguir instrucciones (IF, por sus siglas en inglés) es una habilidad crítica para los modelos de lenguaje de gran escala (LLMs). Sin embargo, manejar instrucciones complejas con múltiples restricciones sigue siendo un desafío. Los métodos anteriores suelen seleccionar pares de preferencias basándose en el número de restricciones que satisfacen, introduciendo ruido en los casos en que las respuestas elegidas pueden no cumplir con algunas restricciones, mientras que las respuestas rechazadas pueden sobresalir en ciertos aspectos frente a las elegidas. Para abordar el desafío de alinearse con múltiples preferencias, proponemos un método simple pero efectivo llamado Optimización de Preferencias Inversas (RPO, por sus siglas en inglés). Este método mitiga el ruido en los pares de preferencias al invertir dinámicamente las restricciones dentro de la instrucción, asegurando que la respuesta elegida sea perfecta y reduciendo la necesidad de un muestreo y filtrado extensivo para recopilar respuestas perfectas. Además, la inversión también amplía la brecha entre las respuestas elegidas y rechazadas, clarificando así la dirección de optimización y haciéndola más robusta frente al ruido. Evaluamos RPO en dos benchmarks de IF de múltiples turnos, Sysbench y Multi-IF, demostrando mejoras promedio sobre la línea base DPO de 4.6 y 2.5 puntos (en Llama-3.1 8B), respectivamente. Además, RPO escala eficazmente en tamaños de modelo (de 8B a 70B parámetros), con el modelo RPO de 70B superando a GPT-4o.
Este artículo busca superar un obstáculo importante en la escalabilidad del aprendizaje por refuerzo (RL) para el razonamiento con modelos de lenguaje grandes (LLMs), específicamente el colapso de la entropía de la política. Este fenómeno se observa consistentemente en numerosas ejecuciones de RL sin intervención de entropía, donde la entropía de la política disminuye abruptamente en las primeras etapas del entrenamiento. Esta reducción en la capacidad exploratoria siempre va acompañada de la saturación del rendimiento de la política. En la práctica, establecemos una ecuación de transformación R=-a*e^H+b entre la entropía H y el rendimiento posterior R. Esta ley empírica indica fuertemente que el rendimiento de la política se obtiene a costa de la entropía de la política, lo que la limita debido a su agotamiento, y el límite es completamente predecible cuando H=0, resultando en R=-a+b. Nuestro hallazgo hace necesario gestionar la entropía para permitir una exploración continua hacia la escalabilidad del cómputo en RL. Para ello, investigamos la dinámica de la entropía tanto teórica como empíricamente. Nuestra derivación destaca que el cambio en la entropía de la política está impulsado por la covarianza entre la probabilidad de acción y el cambio en los logits, que es proporcional a su ventaja cuando se utilizan algoritmos similares al Gradiente de Política. El estudio empírico muestra que los valores del término de covarianza y las diferencias de entropía coinciden exactamente, respaldando la conclusión teórica. Además, el término de covarianza se mantiene mayormente positivo durante el entrenamiento, lo que explica por qué la entropía de la política disminuye monótonamente. Al comprender el mecanismo detrás de la dinámica de la entropía, nos motivamos a controlarla restringiendo la actualización de tokens con alta covarianza. Específicamente, proponemos dos técnicas simples pero efectivas, llamadas Clip-Cov y KL-Cov, que recortan y aplican una penalización KL a los tokens con altas covarianzas, respectivamente. Los experimentos muestran que estos métodos fomentan la exploración, ayudando así a la política a escapar del colapso de la entropía y lograr un mejor rendimiento posterior.
Los agentes basados en LLM han demostrado capacidades prometedoras en una creciente variedad de tareas de ingeniería de software (SWE). Sin embargo, el avance en este campo enfrenta dos desafíos críticos. En primer lugar, los datos de entrenamiento de alta calidad son escasos, especialmente aquellos que reflejan escenarios reales de SWE, donde los agentes deben interactuar con entornos de desarrollo, ejecutar código y adaptar su comportamiento en función de los resultados de sus acciones. Los conjuntos de datos existentes se limitan a la generación de código en una sola iteración o consisten en pequeñas colecciones manualmente curadas de tareas interactivas, careciendo tanto de escala como de diversidad. En segundo lugar, la falta de tareas interactivas de SWE actualizadas afecta la evaluación de modelos que mejoran rápidamente, ya que los puntos de referencia estáticos se vuelven obsoletos rápidamente debido a problemas de contaminación. Para abordar estas limitaciones, presentamos una novedosa, automatizada y escalable pipeline para extraer continuamente tareas interactivas de SWE del mundo real de diversos repositorios de GitHub. Utilizando esta pipeline, construimos SWE-rebench, un conjunto de datos público que comprende más de 21,000 tareas interactivas de SWE basadas en Python, adecuadas para el aprendizaje por refuerzo de agentes de SWE a gran escala. Además, utilizamos el suministro continuo de tareas actualizadas recopiladas mediante la metodología de SWE-rebench para construir un punto de referencia libre de contaminación para la ingeniería de software agentiva. Comparamos los resultados de varios LLMs en este punto de referencia con los resultados de SWE-bench Verified y mostramos que el rendimiento de algunos modelos de lenguaje podría estar inflado debido a problemas de contaminación.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) logran capacidades de razonamiento impresionantes a costa de un sobrecosto sustancial en la inferencia, lo que plantea desafíos significativos en su implementación. Aunque los Modelos de Lenguaje Pequeños (SLMs) destilados mejoran considerablemente la eficiencia, su rendimiento se ve afectado al no seguir las rutas de razonamiento de los LLMs. Afortunadamente, descubrimos que solo una pequeña fracción de tokens diverge genuinamente las rutas de razonamiento entre LLMs y SLMs. La mayoría de los tokens generados son idénticos o presentan diferencias neutrales, como variaciones menores en abreviaturas o expresiones. Aprovechando esta observación, presentamos **Roads to Rome (R2R)**, un método de enrutamiento neuronal de tokens que utiliza selectivamente los LLMs solo para estos tokens críticos que divergen las rutas, mientras delega la generación de la mayoría de los tokens al SLM. También desarrollamos una pipeline automática de generación de datos que identifica los tokens divergentes y genera etiquetas de enrutamiento a nivel de token para entrenar el enrutador ligero. Aplicamos R2R para combinar los modelos R1-1.5B y R1-32B de la familia DeepSeek, y evaluamos en benchmarks desafiantes de matemáticas, codificación y preguntas y respuestas. Con un tamaño promedio de parámetros activados de 5.6B, R2R supera la precisión promedio de R1-7B en 1.6x, superando incluso al modelo R1-14B. En comparación con R1-32B, ofrece una aceleración de 2.8x en tiempo de ejecución con un rendimiento comparable, avanzando la frontera de Pareto en la eficiencia de escalado en tiempo de prueba. Nuestro código está disponible en https://github.com/thu-nics/R2R.
El éxito de DeepSeek-R1 subraya el papel significativo del aprendizaje por refuerzo (RL, por sus siglas en inglés) en la mejora de las capacidades de razonamiento de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés). En este trabajo, presentamos Skywork-OR1, una implementación efectiva y escalable de RL para modelos de Cadena de Pensamiento (CoT, por sus siglas en inglés) largos. Basándonos en la serie de modelos DeepSeek-R1-Distill, nuestro enfoque de RL logra mejoras notables en el rendimiento, aumentando la precisión promedio en AIME24, AIME25 y LiveCodeBench del 57.8% al 72.8% (+15.0%) para el modelo de 32B y del 43.6% al 57.5% (+13.9%) para el modelo de 7B. Nuestro modelo Skywork-OR1-32B supera tanto a DeepSeek-R1 como a Qwen3-32B en los benchmarks AIME24 y AIME25, mientras que obtiene resultados comparables en LiveCodeBench. Los modelos Skywork-OR1-7B y Skywork-OR1-Math-7B demuestran capacidades de razonamiento competitivas entre modelos de tamaño similar. Realizamos estudios de ablación exhaustivos sobre los componentes clave de nuestra pipeline de entrenamiento para validar su efectividad. Además, investigamos a fondo el fenómeno del colapso de entropía, identificamos los factores clave que afectan la dinámica de la entropía y demostramos que mitigar el colapso prematuro de la entropía es crucial para mejorar el rendimiento en las pruebas. Para apoyar la investigación comunitaria, liberamos completamente los pesos de nuestros modelos, el código de entrenamiento y los conjuntos de datos de entrenamiento.
Los modelos de visión y lenguaje con capacidad de razonamiento (VLMs, por sus siglas en inglés) han demostrado un rendimiento prometedor en tareas multimodales complejas. Sin embargo, aún enfrentan desafíos significativos: son altamente sensibles a errores de razonamiento, requieren grandes volúmenes de datos anotados o verificadores precisos, y tienen dificultades para generalizar más allá de dominios específicos. Para abordar estas limitaciones, exploramos la autocorrección como una estrategia para mejorar los VLMs de razonamiento. Primero realizamos un análisis en profundidad de las capacidades de autocorrección de los VLMs e identificamos brechas clave. Basándonos en nuestros hallazgos, presentamos Sherlock, un marco de entrenamiento para autocorrección y auto-mejora. Sherlock introduce un objetivo de autocorrección a nivel de trayectoria, un método de construcción de datos de preferencia basado en perturbación visual y un beta dinámico para el ajuste de preferencias. Una vez que el modelo adquiere capacidades de autocorrección utilizando solo 20k datos anotados muestreados aleatoriamente, continúa auto-mejorándose sin supervisión externa. Construido sobre el modelo Llama3.2-Vision-11B, Sherlock logra resultados notables en ocho benchmarks, alcanzando una precisión promedio de 64.1 con generación directa y 65.4 después de la autocorrección. Supera a LLaVA-CoT (63.2), Mulberry (63.9) y LlamaV-o1 (63.4) mientras utiliza menos del 20% de los datos anotados.
La eficiencia de la atención es crucial porque su complejidad temporal crece cuadráticamente con la longitud de la secuencia. SageAttention2 aborda esto utilizando cuantización para acelerar las multiplicaciones de matrices (Matmul) en la atención. Para acelerar aún más SageAttention2, proponemos utilizar la instrucción más rápida de Matmul FP8 acumulada en FP16. Esta instrucción es 2x más rápida que la Matmul FP8 utilizada en SageAttention2. Nuestros experimentos muestran que SageAttention2++ logra una aceleración de 3.9x sobre FlashAttention mientras mantiene la misma precisión en la atención que SageAttention2. Esto significa que SageAttention2++ acelera eficazmente varios modelos, incluyendo aquellos para generación de lenguaje, imágenes y video, con una pérdida insignificante en las métricas de extremo a extremo. El código estará disponible en https://github.com/thu-ml/SageAttention.
Los modelos modernos de super-resolución de una sola imagen (SISR, por sus siglas en inglés) ofrecen resultados foto-realistas en los factores de escala para los que han sido entrenados, pero colapsan cuando se les solicita ampliar más allá de ese régimen. Abordamos este cuello de botella de escalabilidad con Chain-of-Zoom (CoZ), un marco independiente del modelo que factoriza SISR en una cadena autorregresiva de estados de escala intermedios con indicaciones conscientes de múltiples escalas. CoZ reutiliza repetidamente un modelo de super-resolución base, descomponiendo la probabilidad condicional en subproblemas manejables para lograr resoluciones extremas sin necesidad de entrenamiento adicional. Dado que las pistas visuales disminuyen en ampliaciones elevadas, enriquecemos cada paso de zoom con indicaciones de texto conscientes de múltiples escalas generadas por un modelo de visión y lenguaje (VLM, por sus siglas en inglés). El extractor de indicaciones se ajusta mediante Optimización de Política de Recompensa Generalizada (GRPO, por sus siglas en inglés) con un VLM crítico, alineando la guía textual hacia las preferencias humanas. Los experimentos muestran que un modelo estándar de super-resolución por difusión de 4x envuelto en CoZ alcanza ampliaciones superiores a 256x con alta calidad perceptual y fidelidad. Página del proyecto: https://bryanswkim.github.io/chain-of-zoom/.
Mejorar los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) en la etapa posterior al entrenamiento generalmente depende del ajuste fino supervisado (SFT) o del aprendizaje por refuerzo (RL). Sin embargo, estos métodos supervisados requieren datos multimodales costosos y anotados manualmente, un recurso que en última instancia no es sostenible. Aunque esfuerzos recientes han explorado el entrenamiento posterior no supervisado, sus métodos son complejos y difíciles de iterar. En este trabajo, somos los primeros en investigar el uso de GRPO, un algoritmo de RL en línea estable y escalable, para permitir la mejora continua sin ninguna supervisión externa. Proponemos MM-UPT, un marco simple pero efectivo para el entrenamiento posterior no supervisado de MLLMs. MM-UPT se basa en GRPO, reemplazando las señales de recompensa tradicionales con un mecanismo de autorrecompensa basado en la votación mayoritaria sobre múltiples respuestas muestreadas. Nuestros experimentos demuestran que MM-UPT mejora significativamente la capacidad de razonamiento de Qwen2.5-VL-7B (por ejemplo, 66.3 %rightarrow72.9 % en MathVista, 62.9 %rightarrow68.7 % en We-Math), utilizando un conjunto de datos estándar sin etiquetas de verdad fundamental. MM-UPT también supera a los baselines no supervisados anteriores e incluso se acerca a los resultados de GRPO supervisado. Además, mostramos que la incorporación de preguntas sintéticas, generadas únicamente por el propio MLLM, también puede impulsar el rendimiento, destacando un enfoque prometedor para la mejora escalable. En general, MM-UPT ofrece un nuevo paradigma para la mejora continua y autónoma de los MLLMs en ausencia de supervisión externa. Nuestro código está disponible en https://github.com/waltonfuture/MM-UPT.
Los avances recientes en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado capacidades impresionantes de razonamiento en cadena de pensamiento, donde el aprendizaje por refuerzo (RL, por sus siglas en inglés) desempeña un papel crucial en este progreso. Aunque los patrones de "momento eureka", donde los modelos muestran autocorrección a través de la reflexión, a menudo se atribuyen a propiedades emergentes del RL, primero demostramos que estos patrones existen en modelos de lenguaje multimodal (MLLMs, por sus siglas en inglés) antes del entrenamiento con RL, pero no necesariamente se correlacionan con un mejor rendimiento en el razonamiento. Basándonos en estas observaciones, presentamos un estudio exhaustivo sobre la mejora del razonamiento multimodal mediante un enfoque de dos etapas: (1) ajuste fino supervisado (SFT, por sus siglas en inglés) como un inicio en frío con patrones estructurados de razonamiento en cadena de pensamiento, seguido de (2) aprendizaje por refuerzo mediante GRPO para refinar aún más estas capacidades. Nuestros extensos experimentos muestran que este enfoque combinado supera consistentemente tanto a los métodos basados únicamente en SFT como a los basados únicamente en RL en diversos puntos de referencia desafiantes de razonamiento multimodal. Los modelos resultantes logran un rendimiento de vanguardia entre los MLLMs de código abierto en escalas de 3B y 7B, con nuestro modelo de 7B mostrando mejoras sustanciales sobre los modelos base (por ejemplo, 66.3 %rightarrow73.4 % en MathVista, 62.9 %rightarrow70.4 % en We-Math) y nuestro modelo de 3B alcanzando un rendimiento competitivo con varios modelos de 7B. En general, este trabajo proporciona orientación práctica para la construcción de modelos avanzados de razonamiento multimodal. Nuestro código está disponible en https://github.com/waltonfuture/RL-with-Cold-Start.
Presentamos RenderFormer, una canalización de renderizado neuronal que genera directamente una imagen a partir de una representación basada en triángulos de una escena, incluyendo efectos completos de iluminación global, y que no requiere entrenamiento o ajuste específico por escena. En lugar de adoptar un enfoque centrado en la física para el renderizado, formulamos este proceso como una transformación de secuencia a secuencia, donde una secuencia de tokens que representan triángulos con propiedades de reflectancia se convierte en una secuencia de tokens de salida que representan pequeños parches de píxeles. RenderFormer sigue una canalización de dos etapas: una etapa independiente de la vista que modela el transporte de luz entre triángulos, y una etapa dependiente de la vista que transforma un token que representa un haz de rayos en los valores de píxeles correspondientes, guiada por la secuencia de triángulos de la etapa independiente de la vista. Ambas etapas se basan en la arquitectura transformer y se aprenden con restricciones previas mínimas. Demostramos y evaluamos RenderFormer en escenas con complejidad variable en forma y transporte de luz.
La predicción del siguiente token sirve como la tarea de aprendizaje fundamental que permite el razonamiento en los LLM. Pero, ¿cuál debería ser la tarea de aprendizaje cuando se busca dotar a los MLLM de capacidades de razonamiento temporal sobre entradas de video? Tareas existentes, como la respuesta a preguntas sobre videos, a menudo dependen de anotaciones realizadas por humanos o por MLLM mucho más potentes, mientras que la generación de subtítulos para videos tiende a entrelazar el razonamiento temporal con la información espacial. Para abordar esta brecha, proponemos la predicción del siguiente evento (NEP, por sus siglas en inglés), una tarea de aprendizaje que aprovecha los segmentos futuros de video como una señal rica y autosupervisada para fomentar el razonamiento temporal. Segmentamos cada video en fotogramas pasados y futuros: el MLLM toma los fotogramas pasados como entrada y predice un resumen de eventos derivados de los fotogramas futuros, incentivando así al modelo a razonar temporalmente para completar la tarea. Para respaldar esta tarea, hemos creado V1-33K, un conjunto de datos que comprende 33,000 segmentos de video extraídos automáticamente y que abarcan diversos escenarios del mundo real. Además, exploramos una variedad de estrategias de ajuste instruccional de video para estudiar sus efectos en el razonamiento temporal. Para evaluar el progreso, presentamos FutureBench, una herramienta diseñada para evaluar la coherencia en la predicción de eventos futuros no vistos. Los experimentos validan que NEP ofrece un paradigma de entrenamiento escalable y efectivo para fomentar el razonamiento temporal en los MLLM.
Los sistemas de investigación profunda representan una clase emergente de métodos de recuperación de información agentiva que generan informes exhaustivos y bien fundamentados para consultas complejas. Sin embargo, la mayoría de los marcos existentes dependen de APIs de búsqueda comerciales dinámicas, lo que plantea desafíos de reproducibilidad y transparencia, además de su costo. Para abordar estas limitaciones, presentamos DeepResearchGym, un entorno de pruebas de código abierto que combina una API de búsqueda reproducible con un protocolo de evaluación riguroso para comparar sistemas de investigación profunda. La API indexa corpus web públicos a gran escala, específicamente ClueWeb22 y FineWeb, utilizando un recuperador denso de última generación y búsqueda de vecinos más cercanos aproximada mediante DiskANN. Logra una latencia menor que las APIs comerciales populares, al tiempo que garantiza clasificaciones de documentos estables entre ejecuciones, y está disponible gratuitamente para uso en investigación. Para evaluar los resultados de los sistemas de investigación profunda, ampliamos el benchmark Researchy Questions con métricas automáticas a través de evaluaciones LLM-as-a-judge para medir la alineación con las necesidades de información de los usuarios, la fidelidad en la recuperación y la calidad del informe. Los resultados experimentales muestran que los sistemas integrados con DeepResearchGym logran un rendimiento comparable a los que utilizan APIs comerciales, manteniéndose consistentes las clasificaciones de rendimiento en todas las métricas de evaluación. Un estudio de evaluación humana confirma además que nuestro protocolo automático se alinea con las preferencias humanas, validando la capacidad del marco para apoyar la evaluación controlada de sistemas de investigación profunda. Nuestro código y la documentación de la API están disponibles en https://www.deepresearchgym.ai.
Los sistemas de búsqueda empresarial a menudo tienen dificultades para recuperar información precisa y específica del dominio debido a desajustes semánticos y terminologías superpuestas. Estos problemas pueden degradar el rendimiento de aplicaciones posteriores, como la gestión del conocimiento, el soporte al cliente y los agentes de generación aumentada por recuperación. Para abordar este desafío, proponemos un marco escalable de minería de negativos duros específicamente diseñado para datos empresariales específicos del dominio. Nuestro enfoque selecciona dinámicamente documentos semánticamente desafiantes pero contextualmente irrelevantes para mejorar los modelos de reordenamiento implementados. Nuestro método integra diversos modelos de incrustación, realiza reducción de dimensionalidad y selecciona de manera única negativos duros, garantizando eficiencia computacional y precisión semántica. La evaluación en nuestro corpus empresarial propietario (dominio de servicios en la nube) demuestra mejoras sustanciales del 15\% en MRR@3 y del 19\% en MRR@10 en comparación con los mejores baselines y otras técnicas de muestreo negativo. Una validación adicional en conjuntos de datos públicos específicos del dominio (FiQA, Climate Fever, TechQA) confirma la generalizabilidad de nuestro método y su preparación para aplicaciones del mundo real.
Abordar problemas complejos del mundo real requiere una búsqueda profunda de información y un razonamiento de múltiples pasos. Los avances recientes en sistemas agentes, ejemplificados por Deep Research, destacan el potencial para la investigación autónoma de múltiples pasos. En este trabajo, presentamos un paradigma cohesivo para construir agentes de búsqueda de información de extremo a extremo desde una perspectiva centrada en los datos y en la etapa de entrenamiento. Nuestro enfoque consta de cuatro etapas clave: (1) construcción de datos de navegación, (2) muestreo de trayectorias, (3) ajuste fino supervisado para un arranque en frío efectivo, y (4) aprendizaje por refuerzo para una mejor generalización. Instanciamos este marco en un agente web basado en ReAct, WebDancer. Las evaluaciones empíricas en los desafiantes puntos de referencia de búsqueda de información, GAIA y WebWalkerQA, demuestran el fuerte rendimiento de WebDancer, logrando resultados considerables y destacando la eficacia de nuestro paradigma de entrenamiento. Un análisis adicional del entrenamiento del agente proporciona valiosas ideas y vías sistemáticas y prácticas para desarrollar modelos agentes más capaces. Los códigos y la demostración se publicarán en https://github.com/Alibaba-NLP/WebAgent.
En este trabajo, proponemos Few Shot Domain Adapting Graph (FS-DAG), una arquitectura de modelo escalable y eficiente para la comprensión de documentos visualmente ricos (VRDU, por sus siglas en inglés) en entornos de pocos ejemplos. FS-DAG aprovecha backbones específicos de dominio y específicos de lenguaje/visión dentro de un marco modular para adaptarse a diversos tipos de documentos con datos mínimos. El modelo es robusto frente a desafíos prácticos, como el manejo de errores de OCR, errores ortográficos y cambios de dominio, que son críticos en implementaciones del mundo real. FS-DAG es altamente eficiente con menos de 90M de parámetros, lo que lo hace ideal para aplicaciones complejas del mundo real en tareas de Extracción de Información (IE, por sus siglas en inglés) donde los recursos computacionales son limitados. Demostramos la capacidad de FS-DAG a través de experimentos exhaustivos para la tarea de extracción de información, mostrando mejoras significativas en la velocidad de convergencia y el rendimiento en comparación con métodos de vanguardia. Además, este trabajo destaca el progreso continuo en el desarrollo de modelos más pequeños y eficientes que no comprometen el rendimiento. Código: https://github.com/oracle-samples/fs-dag.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado capacidades generales notables, pero mejorar habilidades como el razonamiento a menudo requiere recursos computacionales sustanciales y puede comprometer su generalización. Si bien los métodos de Ajuste Fino Eficiente en Parámetros (PEFT, por sus siglas en inglés) ofrecen una alternativa más consciente de los recursos, generalmente requieren reentrenamiento para cada arquitectura de LLM debido a dependencias arquitectónicas. Para abordar estos desafíos, aquí proponemos el Razonador Universal (UniR): un módulo único, ligero, componible y plug-and-play de razonamiento que puede utilizarse con cualquier LLM congelado para dotarlo de capacidades de razonamiento especializadas. Específicamente, UniR descompone la recompensa en un módulo de razonamiento independiente que se entrena de manera autónoma utilizando recompensas predefinidas, traduciendo efectivamente señales a nivel de trayectoria en guías a nivel de token. Una vez entrenado, UniR puede combinarse con cualquier LLM congelado durante la inferencia simplemente sumando sus logits a los de la arquitectura base del LLM. Esta estructura aditiva permite naturalmente la composición modular: múltiples módulos UniR entrenados para diferentes tareas pueden aplicarse conjuntamente sumando sus logits, lo que posibilita un razonamiento complejo mediante composición. Los resultados experimentales en tareas de razonamiento matemático y traducción automática muestran que UniR supera significativamente los métodos de ajuste fino existentes utilizando el modelo Llama3.2. Además, UniR demuestra una fuerte generalización de débil a fuerte: los módulos de razonamiento entrenados en modelos más pequeños guían eficazmente LLMs mucho más grandes. Esto convierte a UniR en una solución rentable, adaptable y robusta para mejorar el razonamiento en LLMs sin comprometer sus capacidades principales. El código está disponible en https://github.com/hangeol/UniR.
Los modelos de lenguaje autoregresivos (LMs) generan un token a la vez, mientras que el razonamiento humano opera sobre abstracciones de mayor nivel: oraciones, proposiciones y conceptos. Este contraste plantea una pregunta central: ¿Pueden los LMs aprender también a razonar sobre unidades semánticas estructuradas en lugar de secuencias de tokens crudas? En este trabajo, investigamos si los LMs preentrenados pueden elevarse a tales espacios de razonamiento abstracto basándose en sus representaciones aprendidas. Presentamos un marco que adapta un LM preentrenado a nivel de token para operar en el espacio de oraciones, prediciendo autoregresivamente embeddings continuos de las siguientes oraciones. Exploramos dos paradigmas de embeddings inspirados en el aprendizaje clásico de representaciones: 1) embeddings semánticos, aprendidos mediante auto codificación para preservar el significado superficial; y 2) embeddings contextuales, entrenados mediante la predicción de la siguiente oración para codificar estructura anticipatoria. Evaluamos ambos bajo dos regímenes de inferencia: Discretizado, que decodifica cada embedding predicho en texto antes de volver a codificarlo; y Continuo, que razona completamente en el espacio de embeddings para mejorar la eficiencia. En cuatro dominios —matemáticas, lógica, sentido común y planificación— los embeddings contextuales bajo inferencia continua muestran un rendimiento competitivo con Chain-of-Thought (CoT) mientras reducen los FLOPs en tiempo de inferencia en promedio a la mitad. También presentamos indicios tempranos de escalabilidad y adaptación modular. Finalmente, para visualizar trayectorias latentes, introducimos SentenceLens, una herramienta de diagnóstico que decodifica los estados intermedios del modelo en oraciones interpretables. En conjunto, nuestros resultados indican que los LMs preentrenados pueden transitar efectivamente hacia un razonamiento abstracto y estructurado dentro de espacios latentes de embeddings.
Los datos de entrenamiento multilingüe de alta calidad son esenciales para el preentrenamiento efectivo de modelos de lenguaje grandes (LLMs, por sus siglas en inglés). Sin embargo, la disponibilidad de conjuntos de datos multilingües de código abierto adecuados sigue siendo limitada. Los conjuntos de datos más avanzados existentes se basan principalmente en métodos de filtrado heurístico, lo que restringe tanto su transferibilidad cruzada entre idiomas como su escalabilidad. Aquí presentamos JQL, un enfoque sistemático que selecciona de manera eficiente datos multilingües diversos y de alta calidad a gran escala, reduciendo significativamente las demandas computacionales. JQL destila las capacidades de anotación de los LLMs en anotadores ligeros basados en embeddings multilingües preentrenados. Estos modelos muestran un rendimiento robusto tanto multilingüe como cruzado entre idiomas, incluso para lenguajes y escrituras no vistos durante el entrenamiento. Evaluado empíricamente en 35 idiomas, la canalización de anotación resultante supera sustancialmente los métodos de filtrado heurístico actuales, como Fineweb2. JQL mejora notablemente la calidad del entrenamiento de modelos posteriores y aumenta las tasas de retención de datos. Nuestra investigación proporciona ideas prácticas y recursos valiosos para la curación de datos multilingües, elevando los estándares de desarrollo de conjuntos de datos multilingües.
El reciente auge de los modelos de difusión de texto a imagen, como Stable Diffusion, ha impulsado la investigación para adaptarlos a la generación de panoramas de 360 grados. Trabajos previos han demostrado la viabilidad de utilizar técnicas convencionales de adaptación de bajo rango en modelos de difusión preentrenados para generar imágenes panorámicas. Sin embargo, la considerable brecha de dominio entre las imágenes en perspectiva y las panorámicas plantea interrogantes sobre los mecanismos subyacentes que permiten este éxito empírico. Planteamos y examinamos la hipótesis de que las contrapartes entrenables exhiben comportamientos distintos cuando se ajustan con datos panorámicos, y que dicha adaptación oculta algún mecanismo intrínseco para aprovechar el conocimiento previo dentro de los modelos de difusión preentrenados. Nuestro análisis revela lo siguiente: 1) las matrices de consulta y clave en los módulos de atención son responsables de la información común que puede compartirse entre los dominios panorámico y en perspectiva, por lo que son menos relevantes para la generación de panoramas; y 2) las matrices de valor y de ponderación de salida se especializan en adaptar el conocimiento preentrenado al dominio panorámico, desempeñando un papel más crítico durante el ajuste fino para la generación de panoramas. Verificamos empíricamente estas ideas mediante la introducción de un marco simple llamado UniPano, con el objetivo de establecer una línea base elegante para futuras investigaciones. UniPano no solo supera a los métodos existentes, sino que también reduce significativamente el uso de memoria y el tiempo de entrenamiento en comparación con enfoques previos de doble rama, lo que lo hace escalable para la generación de panoramas de extremo a extremo con mayor resolución. El código será publicado.
Un sello distintivo de la innovación humana es el proceso de recombinación: crear ideas originales integrando elementos de mecanismos y conceptos existentes. En este trabajo, extraemos automáticamente la literatura científica y construimos CHIMERA: una base de conocimiento (KB) a gran escala de ejemplos de recombinación. CHIMERA puede utilizarse para explorar empíricamente a gran escala cómo los científicos recombinan conceptos y se inspiran en diferentes áreas, o para entrenar modelos de aprendizaje supervisado que aprenden a predecir nuevas direcciones creativas interdisciplinarias. Para construir esta KB, presentamos una novedosa tarea de extracción de información que consiste en identificar recombinaciones en resúmenes de artículos científicos, recopilamos un corpus de alta calidad con cientos de resúmenes anotados manualmente, y lo utilizamos para entrenar un modelo de extracción basado en LLM. El modelo se aplica a un gran corpus de artículos en el dominio de la IA, obteniendo una KB con más de 28K ejemplos de recombinación. Analizamos CHIMERA para explorar las propiedades de la recombinación en diferentes subáreas de la IA. Finalmente, entrenamos un modelo de generación de hipótesis científicas utilizando la KB, el cual predice nuevas direcciones de recombinación que los investigadores del mundo real encuentran inspiradoras. Nuestros datos y código están disponibles en https://github.cs.huji.ac.il/tomhope-lab/CHIMERA.
A medida que los Modelos de Lenguaje de Gran Escala (LLMs) participan cada vez más en interacciones humano-IA, evaluar sus capacidades de Teoría de la Mente (ToM) —especialmente su habilidad para rastrear estados mentales dinámicos— se vuelve crucial. Si bien los puntos de referencia existentes evalúan habilidades básicas de ToM, se centran predominantemente en instantáneas estáticas de estados mentales, pasando por alto la evolución temporal que caracteriza las interacciones sociales del mundo real. Presentamos DynToM, un nuevo punto de referencia diseñado específicamente para evaluar la capacidad de los LLMs para comprender y rastrear la progresión temporal de los estados mentales en escenarios interconectados. A través de un marco sistemático de cuatro pasos, generamos 1,100 contextos sociales que abarcan 5,500 escenarios y 78,100 preguntas, cada una validada por su realismo y calidad. Nuestra evaluación exhaustiva de diez LLMs de vanguardia revela que su rendimiento promedio es un 44.7\% inferior al de los humanos, con un deterioro significativo del rendimiento al rastrear y razonar sobre el cambio de estados mentales. Esta brecha de rendimiento resalta limitaciones fundamentales en la capacidad de los LLMs actuales para modelar la naturaleza dinámica de los estados mentales humanos.
Presentamos Pensar con Imágenes Generadas, un paradigma novedoso que transforma fundamentalmente cómo los modelos multimodales grandes (LMMs) interactúan con el razonamiento visual, permitiéndoles pensar de manera nativa a través de las modalidades de texto y visión mediante la generación espontánea de pasos visuales intermedios de pensamiento. Actualmente, el razonamiento visual con LMMs se limita a procesar imágenes fijas proporcionadas por el usuario o razonar únicamente a través de cadenas de pensamiento (CoT) basadas en texto. Pensar con Imágenes Generadas desbloquea una nueva dimensión de capacidad cognitiva en la que los modelos pueden construir activamente pensamientos visuales intermedios, criticar sus propias hipótesis visuales y refinarlas como componentes integrales de su proceso de razonamiento. Demostramos la efectividad de nuestro enfoque a través de dos mecanismos complementarios: (1) generación visual con subobjetivos visuales intermedios, donde los modelos descomponen tareas visuales complejas en componentes manejables que se generan e integran progresivamente, y (2) generación visual con autocrítica, donde los modelos generan una hipótesis visual inicial, analizan sus deficiencias mediante razonamiento textual y producen resultados refinados basados en sus propias críticas. Nuestros experimentos en benchmarks de generación visual muestran mejoras sustanciales sobre enfoques basales, con nuestros modelos logrando hasta un 50% (de 38% a 57%) de mejora relativa en el manejo de escenarios complejos con múltiples objetos. Desde bioquímicos explorando estructuras proteicas novedosas y arquitectos iterando en diseños espaciales, hasta analistas forenses reconstruyendo escenas del crimen y jugadores de baloncesto visualizando jugadas estratégicas, nuestro enfoque permite a los modelos de IA participar en el tipo de imaginación visual y refinamiento iterativo que caracteriza el pensamiento creativo, analítico y estratégico humano. Publicamos nuestra suite de código abierto en https://github.com/GAIR-NLP/thinking-with-generated-images.
El enrutamiento robusto bajo incertidumbre es fundamental para la logística del mundo real, aunque la mayoría de los puntos de referencia asumen configuraciones estáticas e idealizadas. Presentamos SVRPBench, el primer punto de referencia abierto que captura dinámicas estocásticas de alta fidelidad en el enrutamiento de vehículos a escala urbana. Abarcando más de 500 instancias con hasta 1000 clientes, simula condiciones realistas de entrega: congestión dependiente del tiempo, retrasos log-normales, accidentes probabilísticos y ventanas de tiempo empíricamente fundamentadas para clientes residenciales y comerciales. Nuestro pipeline genera escenarios diversos y ricos en restricciones, incluyendo configuraciones multi-depósito y multi-vehículo. La evaluación comparativa revela que solucionadores de última generación basados en aprendizaje por refuerzo, como POMO y AM, se degradan en más del 20% bajo cambios distribucionales, mientras que los métodos clásicos y metaheurísticos mantienen su robustez. Para facilitar la investigación reproducible, publicamos el conjunto de datos y la suite de evaluación. SVRPBench desafía a la comunidad a diseñar solucionadores que generalicen más allá de supuestos sintéticos y se adapten a la incertidumbre del mundo real.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) suelen generar respuestas idénticas o similares para todos los usuarios ante la misma indicación, lo que plantea serios riesgos de seguridad en aplicaciones de alto impacto donde las vulnerabilidades de los usuarios varían ampliamente. Las evaluaciones de seguridad existentes se basan principalmente en métricas independientes del contexto, como la factualidad, el sesgo o la toxicidad, pasando por alto el hecho de que la misma respuesta puede conllevar riesgos divergentes dependiendo del trasfondo o condición del usuario. Introducimos la seguridad personalizada para llenar este vacío y presentamos PENGUIN, un benchmark que comprende 14,000 escenarios en siete dominios sensibles, con variantes tanto ricas en contexto como libres de contexto. Al evaluar seis LLMs líderes, demostramos que la información personalizada del usuario mejora significativamente las puntuaciones de seguridad en un 43.2%, confirmando la efectividad de la personalización en la alineación de la seguridad. Sin embargo, no todos los atributos del contexto contribuyen por igual a la mejora de la seguridad. Para abordar esto, desarrollamos RAISE, un marco de agente de dos etapas sin entrenamiento que adquiere estratégicamente el trasfondo específico del usuario. RAISE mejora las puntuaciones de seguridad hasta en un 31.6% en comparación con seis LLMs básicos, manteniendo un bajo costo de interacción de solo 2.7 consultas de usuario en promedio. Nuestros hallazgos destacan la importancia de la recopilación selectiva de información en dominios críticos para la seguridad y ofrecen una solución práctica para personalizar las respuestas de los LLMs sin necesidad de reentrenar el modelo. Este trabajo establece una base para la investigación en seguridad que se adapta a los contextos individuales de los usuarios en lugar de asumir un estándar universal de daño.
En las arquitecturas Transformer, los tokens\textemdash unidades discretas derivadas de datos brutos\textemdash se forman segmentando las entradas en fragmentos de longitud fija. Cada token se mapea luego a un embedding, permitiendo cálculos de atención en paralelo mientras se preserva la información esencial de la entrada. Debido a la complejidad computacional cuadrática de los mecanismos de autoatención en los transformers, la reducción de tokens se ha utilizado principalmente como una estrategia de eficiencia. Esto es especialmente cierto en dominios de visión única y lenguaje, donde ayuda a equilibrar los costos computacionales, el uso de memoria y la latencia de inferencia. A pesar de estos avances, este artículo argumenta que la reducción de tokens debería trascender su papel tradicional orientado a la eficiencia en la era de los modelos generativos grandes. En su lugar, la posicionamos como un principio fundamental en el modelado generativo, influyendo críticamente tanto en la arquitectura del modelo como en aplicaciones más amplias. Específicamente, sostenemos que, en sistemas de visión, lenguaje y multimodales, la reducción de tokens puede: (i) facilitar una integración y alineación multimodal más profunda, (ii) mitigar el "sobrepensamiento" y las alucinaciones, (iii) mantener la coherencia en entradas largas, y (iv) mejorar la estabilidad del entrenamiento, entre otros. Replanteamos la reducción de tokens como algo más que una medida de eficiencia. Al hacerlo, delineamos direcciones futuras prometedoras, incluyendo el diseño de algoritmos, la reducción de tokens guiada por aprendizaje por refuerzo, la optimización de tokens para el aprendizaje en contexto, y dominios más amplios de ML y ciencia. Destacamos su potencial para impulsar nuevas arquitecturas de modelos y estrategias de aprendizaje que mejoren la robustez, aumenten la interpretabilidad y se alineen mejor con los objetivos del modelado generativo.
Este artículo investiga enfoques para mejorar las capacidades de razonamiento de agentes basados en Modelos de Lenguaje de Gran Escala (LLM, por sus siglas en inglés) utilizando Aprendizaje por Refuerzo (RL, por sus siglas en inglés). En particular, nos enfocamos en escenarios de uso de herramientas de múltiples turnos, los cuales pueden modelarse naturalmente como Procesos de Decisión de Markov (MDP, por sus siglas en inglés). Si bien los enfoques existentes suelen entrenar agentes LLM de múltiples turnos con estimación de ventaja a nivel de trayectoria en configuraciones de bandido, estos enfrentan dificultades con la asignación de crédito a nivel de turno en múltiples pasos de decisión, lo que limita su rendimiento en tareas de razonamiento de múltiples turnos. Para abordar esto, introducimos una estrategia de estimación de ventaja a nivel de turno más detallada, que permite una asignación de crédito más precisa en interacciones de agentes de múltiples turnos. Esta estrategia es general y puede incorporarse en diversos algoritmos de RL, como la Optimización de Preferencias Relativas de Grupo (GRPO, por sus siglas en inglés). Nuestra evaluación experimental en tareas de razonamiento de múltiples turnos y uso de herramientas basadas en búsqueda con implementaciones de GRPO destaca la efectividad del marco MDP y la asignación de crédito a nivel de turno para avanzar en las capacidades de razonamiento de agentes LLM en entornos complejos de toma de decisiones. Nuestro método logra un 100% de éxito en la ejecución de herramientas y un 50% de precisión en la coincidencia exacta de respuestas, superando significativamente a los métodos de referencia, los cuales no logran invocar herramientas y alcanzan solo un 20-30% de precisión en la coincidencia exacta.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado capacidades de razonamiento notables mediante enfoques de escalado en tiempo de prueba, especialmente cuando se ajustan con datos de cadena de pensamiento (CoT, por sus siglas en inglés) destilados de modelos de razonamiento de gran escala (LRMs, por sus siglas en inglés) más potentes. Sin embargo, estas cadenas de razonamiento suelen contener elementos verbosos que reflejan la resolución de problemas humana, categorizados como razonamiento progresivo (la ruta esencial de desarrollo de la solución) y elementos funcionales (procesos de verificación, enfoques alternativos de solución y correcciones de errores). Si bien el razonamiento progresivo es crucial, los elementos funcionales aumentan significativamente las demandas computacionales durante la inferencia en tiempo de prueba. Introducimos PIR (Perplexity-based Importance Refinement), un marco de trabajo fundamentado que evalúa cuantitativamente la importancia de cada paso de razonamiento en función de su impacto en la confianza de la predicción de la respuesta. PIR identifica sistemáticamente y poda selectivamente solo los pasos funcionales de baja importancia, preservando los componentes de razonamiento progresivo, creando datos de entrenamiento optimizados que mantienen la integridad de la ruta central de la solución mientras reducen la verbosidad. Los modelos ajustados con datos optimizados por PIR exhiben propiedades de escalado en tiempo de prueba superiores, generando cadenas de razonamiento más concisas mientras logran una precisión mejorada (+0.9\% a +6.6\%) con un uso de tokens significativamente reducido (-3\% a -41\%) en benchmarks de razonamiento desafiantes (AIME, AMC y GPQA Diamond). Nuestro enfoque demuestra una fuerte generalización en diferentes tamaños de modelos, fuentes de datos y presupuestos de tokens, ofreciendo una solución práctica para implementar LLMs con capacidades de razonamiento en escenarios donde el escalado eficiente en tiempo de prueba, el tiempo de respuesta y la eficiencia computacional son restricciones valiosas.
La recuperación, el razonamiento y la comprensión efectiva de información visualmente rica sigue siendo un desafío para los métodos RAG (Retrieval-Augmented Generation). Los métodos tradicionales basados en texto no pueden manejar información relacionada con elementos visuales. Por otro lado, los enfoques actuales de RAG basados en visión a menudo están limitados por pipelines fijos y frecuentemente tienen dificultades para razonar de manera efectiva debido a la activación insuficiente de las capacidades fundamentales de los modelos. Dado que se ha demostrado que el aprendizaje por refuerzo (RL) es beneficioso para el razonamiento de los modelos, presentamos VRAG-RL, un novedoso marco de RL diseñado para el razonamiento complejo en información visualmente rica. Con este marco, los modelos de lenguaje visual (VLMs) interactúan con motores de búsqueda, muestreando de manera autónoma trayectorias de razonamiento de un solo turno o múltiples turnos con la ayuda de tokens de percepción visual y sometiéndose a una optimización continua basada en estas muestras. Nuestro enfoque destaca limitaciones clave del RL en dominios RAG: (i) Los enfoques previos de RAG multimodal tienden a simplemente incorporar imágenes en el contexto, lo que lleva a una asignación insuficiente de tokens de razonamiento y a descuidar la percepción específica de elementos visuales; y (ii) Cuando los modelos interactúan con motores de búsqueda, sus consultas a menudo no recuperan información relevante debido a la incapacidad de articular los requisitos, lo que resulta en un rendimiento subóptimo. Para abordar estos desafíos, definimos un espacio de acciones diseñado para entradas visualmente ricas, incluyendo acciones como recortar y escalar, lo que permite al modelo recopilar información desde una perspectiva de lo general a lo específico. Además, para cerrar la brecha entre las consultas originales de los usuarios y el recuperador, empleamos una recompensa simple pero efectiva que integra la reescritura de consultas y el rendimiento de recuperación con una recompensa basada en el modelo. Nuestro VRAG-RL optimiza los VLMs para tareas RAG utilizando estrategias de RL especialmente diseñadas, alineando el modelo con aplicaciones del mundo real. El código está disponible en https://github.com/Alibaba-NLP/VRAG{https://github.com/Alibaba-NLP/VRAG}.
Los enfoques recientes sobre el control de cámaras 3D en modelos de difusión de video (VDMs, por sus siglas en inglés) suelen crear videos de anclaje para guiar a los modelos de difusión como un prior estructurado, mediante la renderización a partir de nubes de puntos estimadas siguiendo trayectorias de cámara anotadas. Sin embargo, los errores inherentes a la estimación de nubes de puntos a menudo resultan en videos de anclaje imprecisos. Además, la necesidad de anotaciones extensas de trayectorias de cámara incrementa aún más la demanda de recursos. Para abordar estas limitaciones, presentamos EPiC, un marco de aprendizaje de control de cámara eficiente y preciso que construye automáticamente videos de anclaje de alta calidad sin la necesidad de costosas anotaciones de trayectorias de cámara. Concretamente, creamos videos de anclaje altamente precisos para el entrenamiento enmascarando videos fuente basados en la visibilidad del primer fotograma. Este enfoque garantiza una alta alineación, elimina la necesidad de anotaciones de trayectorias de cámara y, por lo tanto, puede aplicarse fácilmente a cualquier video en condiciones naturales para generar pares de entrenamiento de imagen a video (I2V). Además, introducimos Anchor-ControlNet, un módulo de condicionamiento ligero que integra la guía de videos de anclaje en regiones visibles a los VDMs preentrenados, con menos del 1% de los parámetros del modelo base. Al combinar los datos de video de anclaje propuestos y el módulo ControlNet, EPiC logra un entrenamiento eficiente con sustancialmente menos parámetros, pasos de entrenamiento y datos, sin requerir modificaciones en el modelo base de difusión que normalmente se necesitan para mitigar desalineaciones en la renderización. Aunque se entrena con videos de anclaje basados en enmascaramiento, nuestro método generaliza robustamente a videos de anclaje creados con nubes de puntos durante la inferencia, permitiendo un control de cámara preciso e informado en 3D. EPiC alcanza un rendimiento de vanguardia en RealEstate10K y MiraData para la tarea de control de cámara I2V, demostrando una capacidad de control de cámara precisa y robusta tanto cuantitativa como cualitativamente. Notablemente, EPiC también exhibe una fuerte generalización zero-shot en escenarios de video a video.
Los modelos de lenguaje visual (VLMs, por sus siglas en inglés) suelen combinar un codificador visual de tamaño moderado con un modelo de lenguaje grande (LLM, por sus siglas en inglés), como Llama-70B, lo que convierte al decodificador en la principal carga computacional durante el entrenamiento. Para reducir costos, una estrategia potencialmente prometedora es entrenar primero el codificador visual utilizando un modelo de lenguaje pequeño antes de transferirlo al modelo grande. Construimos pequeños "modelos sustitutos" que comparten el mismo espacio de incrustación y lenguaje de representación que el LLM objetivo grande heredando directamente sus capas superficiales. Los codificadores visuales entrenados en el sustituto pueden transferirse directamente al modelo más grande, un proceso que denominamos injerto de transferencia cero (zero-shot grafting): cuando se conectan directamente al LLM objetivo de tamaño completo, el par injertado supera al par codificador-sustituto y, en algunos benchmarks, incluso iguala el rendimiento del entrenamiento completo del decodificador con el LLM objetivo. Además, nuestro enfoque de entrenamiento con sustitutos reduce los costos totales de entrenamiento de VLM en aproximadamente un 45% cuando se utiliza Llama-70B como decodificador.
La recaptura de imágenes se utiliza ampliamente para generar conjuntos de datos de entrenamiento con calidad mejorada para diversas tareas multimodales. Los métodos de recaptura existentes suelen depender de modelos de lenguaje multimodal de gran capacidad (MLLMs, por sus siglas en inglés) para mejorar las descripciones textuales, pero a menudo presentan imprecisiones debido a alucinaciones e incompletitud causadas por la falta de detalles finos. Para abordar estas limitaciones, proponemos RICO, un marco novedoso que refina las leyendas mediante la reconstrucción visual. Específicamente, aprovechamos un modelo de texto a imagen para reconstruir una leyenda en una imagen de referencia, y solicitamos a un MLLM que identifique discrepancias entre la imagen original y la reconstruida para refinar la leyenda. Este proceso se realiza de manera iterativa, promoviendo progresivamente la generación de descripciones más fieles y completas. Para mitigar el costo computacional adicional inducido por el proceso iterativo, introducimos RICO-Flash, que aprende a generar leyendas como RICO utilizando DPO. Experimentos extensos demuestran que nuestro enfoque mejora significativamente la precisión y completitud de las leyendas, superando a la mayoría de las líneas base en aproximadamente un 10% tanto en CapsBench como en CompreCap. El código se ha publicado en https://github.com/wangyuchi369/RICO.
La generación de imágenes transparentes multicapa de alta calidad a partir de indicaciones de texto puede desbloquear un nuevo nivel de control creativo, permitiendo a los usuarios editar cada capa con la misma facilidad con la que se editan las salidas de texto de los LLM. Sin embargo, el desarrollo de modelos generativos multicapa se encuentra rezagado en comparación con los modelos convencionales de texto a imagen, debido a la ausencia de un corpus grande y de alta calidad de datos transparentes multicapa. En este artículo, abordamos este desafío fundamental mediante: (i) la publicación del primer conjunto de datos abierto y de ultra alta fidelidad, PrismLayers (PrismLayersPro), que contiene 200K (20K) imágenes transparentes multicapa con máscaras alfa precisas, (ii) la introducción de una canalización de síntesis sin entrenamiento que genera dichos datos bajo demanda utilizando modelos de difusión disponibles comercialmente, y (iii) la entrega de un modelo generativo multicapa robusto y de código abierto, ART+, que iguala la estética de los modelos modernos de generación de texto a imagen. Las contribuciones técnicas clave incluyen: LayerFLUX, que destaca en la generación de capas transparentes individuales de alta calidad con máscaras alfa precisas, y MultiLayerFLUX, que compone múltiples salidas de LayerFLUX en imágenes completas, guiado por un diseño semántico anotado por humanos. Para garantizar una mayor calidad, aplicamos una etapa rigurosa de filtrado para eliminar artefactos y desajustes semánticos, seguida de una selección humana. El ajuste fino del modelo ART, el más avanzado, en nuestro conjunto de datos sintético PrismLayersPro produce ART+, que supera al ART original en el 60% de las comparaciones en estudios de usuarios y, además, iguala la calidad visual de las imágenes generadas por el modelo FLUX.1-[dev]. Anticipamos que nuestro trabajo establecerá una base sólida de datos para la tarea de generación de imágenes transparentes multicapa, permitiendo investigaciones y aplicaciones que requieran imágenes en capas precisas, editables y visualmente atractivas.
El RLHF tradicional optimiza los modelos de lenguaje con recompensas escalares y poco detalladas que ocultan las razones específicas detrás del éxito o el fracaso, lo que resulta en un aprendizaje lento y opaco. Trabajos recientes han mejorado el RL mediante críticas textuales a través de indicaciones o reflexiones, aumentando la interpretabilidad pero sin modificar los parámetros del modelo. Presentamos Text2Grad, un paradigma de aprendizaje por refuerzo que convierte comentarios textuales en gradientes a nivel de segmentos. Dadas críticas humanas (o programáticas), Text2Grad alinea cada frase de retroalimentación con los segmentos de tokens relevantes, convierte estas alineaciones en señales de recompensa diferenciables y realiza actualizaciones de gradientes que refinan directamente las partes problemáticas de la política del modelo. Esto produce ajustes precisos y condicionados por la retroalimentación, en lugar de modificaciones globales. Text2Grad se implementa mediante tres componentes: (1) una canalización de anotación de retroalimentación de alta calidad que empareja críticas con segmentos de tokens; (2) un modelo de recompensa detallado que predice la recompensa a nivel de segmentos en las respuestas mientras genera críticas explicativas; y (3) un optimizador de políticas a nivel de segmentos que propaga gradientes en lenguaje natural. En tareas de resumen, generación de código y respuesta a preguntas, Text2Grad supera consistentemente al RL con recompensas escalares y a los enfoques basados únicamente en indicaciones, ofreciendo tanto métricas de tarea más altas como una mayor interpretabilidad. Nuestros resultados demuestran que la retroalimentación en lenguaje natural, cuando se convierte en gradientes, es una señal poderosa para la optimización detallada de políticas. El código de nuestro método está disponible en https://github.com/microsoft/Text2Grad.
Los verificadores confiables son esenciales para el éxito del aprendizaje por refuerzo con recompensa verificable (RLVR, por sus siglas en inglés), que es la metodología central detrás de varios modelos de razonamiento a gran escala, como DeepSeek-R1. En dominios complejos como el razonamiento matemático, los verificadores basados en reglas han sido ampliamente adoptados en trabajos previos para entrenar modelos de razonamiento robustos. Sin embargo, la confiabilidad de estos verificadores y su impacto en el proceso de entrenamiento de RL siguen siendo poco comprendidos. En este trabajo, tomamos el razonamiento matemático como un estudio de caso y realizamos un análisis exhaustivo de varios verificadores en escenarios de evaluación estática y entrenamiento de RL. En primer lugar, encontramos que los verificadores basados en reglas de código abierto actuales a menudo no reconocen respuestas equivalentes presentadas en diferentes formatos en múltiples conjuntos de datos matemáticos comúnmente utilizados, lo que resulta en tasas de falsos negativos no despreciables. Esta limitación afecta negativamente el rendimiento del entrenamiento de RL y se vuelve más pronunciada a medida que el modelo de política se fortalece. Posteriormente, investigamos los verificadores basados en modelos como una solución potencial para abordar estas limitaciones. Si bien la evaluación estática muestra que los verificadores basados en modelos logran una precisión de verificación significativamente mayor, un análisis más detallado y los resultados del entrenamiento de RL sugieren que son altamente susceptibles a ser hackeados, donde clasifican erróneamente ciertos patrones en las respuestas como correctos (es decir, falsos positivos). Esta vulnerabilidad es explotada durante la optimización del modelo de política, lo que lleva a recompensas artificialmente infladas. Nuestros hallazgos subrayan los riesgos únicos inherentes tanto a los verificadores basados en reglas como a los basados en modelos, con el objetivo de ofrecer insights valiosos para desarrollar sistemas de recompensa más robustos en el aprendizaje por refuerzo.
La naturaleza diversa de las tareas de predicción de proteínas ha requerido tradicionalmente modelos especializados, lo que ha dificultado el desarrollo de Modelos de Lenguaje de Proteínas (PLMs) ampliamente aplicables y computacionalmente eficientes. En este trabajo, presentamos Prot2Token, un marco unificado que supera estos desafíos al convertir una amplia gama de predicciones relacionadas con proteínas, desde propiedades a nivel de secuencia y atributos específicos de residuos hasta interacciones inter-proteicas complejas, en un formato estandarizado de predicción del siguiente token. En su núcleo, Prot2Token emplea un decodificador autorregresivo, condicionado en embeddings de codificadores de proteínas preentrenados y guiado por tokens de tarea aprendibles, para realizar diversas predicciones. Esta arquitectura facilita de manera única el aprendizaje multitarea, permitiendo que un solo modelo domine numerosas tareas con mayor eficiencia. Presentamos una extensa validación experimental en una variedad de benchmarks, demostrando el fuerte poder predictivo de Prot2Token en diferentes tipos de tareas de predicción de proteínas. Los resultados clave incluyen aceleraciones significativas (por ejemplo, cerca de 1000x sobre AlphaFold2 con MSA) y un rendimiento que a menudo iguala o supera enfoques especializados. Además, introducimos un enfoque auxiliar de preentrenamiento autosupervisado del decodificador para mejorar el rendimiento en tareas espacialmente sensibles. Prot2Token ofrece así un avance significativo hacia un paradigma versátil y de alto rendimiento para el modelado de proteínas, prometiendo acelerar el descubrimiento biológico y el desarrollo de nuevas terapias. El código está disponible en https://github.com/mahdip72/prot2token.
El manga, o cómic japonés, es una forma narrativa multimodal que combina imágenes y texto de maneras complejas. Enseñar a los modelos multimodales grandes (LMMs, por sus siglas en inglés) a comprender estas narrativas a un nivel similar al humano podría ayudar a los creadores de manga a reflexionar y perfeccionar sus historias. Con este fin, presentamos dos puntos de referencia para la comprensión multimodal del manga: MangaOCR, que se enfoca en el reconocimiento de texto dentro de las páginas, y MangaVQA, un nuevo punto de referencia diseñado para evaluar la comprensión contextual mediante preguntas y respuestas visuales. MangaVQA consta de 526 pares de preguntas y respuestas de alta calidad, construidos manualmente, lo que permite una evaluación confiable en diversos escenarios narrativos y visuales. Basándonos en estos puntos de referencia, desarrollamos MangaLMM, un modelo especializado en manga ajustado a partir del LMM de código abierto Qwen2.5-VL para manejar ambas tareas de manera conjunta. A través de experimentos exhaustivos, incluyendo comparaciones con modelos propietarios como GPT-4o y Gemini 2.5, evaluamos qué tan bien los LMMs comprenden el manga. Nuestro punto de referencia y modelo proporcionan una base integral para evaluar y avanzar los LMMs en el rico dominio narrativo del manga.
Los modelos de difusión Texto-Imagen (T2I) han logrado avances notables en el modelado generativo; sin embargo, enfrentan un compromiso entre la velocidad de inferencia y la calidad de la imagen, lo que plantea desafíos para su implementación eficiente. Los modelos T2I destilados existentes pueden generar imágenes de alta fidelidad con menos pasos de muestreo, pero a menudo luchan con la diversidad y la calidad, especialmente en los modelos de un solo paso. A partir de nuestro análisis, observamos cálculos redundantes en los codificadores UNet. Nuestros hallazgos sugieren que, para los modelos de difusión T2I, los decodificadores son más hábiles para capturar información semántica más rica y explícita, mientras que los codificadores pueden compartirse eficazmente entre decodificadores de diversos pasos temporales. Basándonos en estas observaciones, presentamos el primer Codificador Unificado Independiente del Tiempo (TiUE) para la arquitectura UNet del modelo estudiante, que es un enfoque de generación de imágenes sin bucles para destilar modelos de difusión T2I. Utilizando un esquema de un solo paso, TiUE comparte características del codificador en múltiples pasos temporales del decodificador, permitiendo un muestreo paralelo y reduciendo significativamente la complejidad del tiempo de inferencia. Además, incorporamos un término de divergencia KL para regularizar la predicción de ruido, lo que mejora el realismo perceptual y la diversidad de las imágenes generadas. Los resultados experimentales demuestran que TiUE supera a los métodos más avanzados, incluyendo LCM, SD-Turbo y SwiftBrushv2, produciendo resultados más diversos y realistas mientras mantiene la eficiencia computacional.
Los modelos de IA generativa a menudo aprenden y reproducen información falsa presente en sus corpus de entrenamiento. Este documento de posición argumenta que, de manera análoga a la inmunización biológica, donde la exposición controlada a un patógeno debilitado genera inmunidad, los modelos de IA deberían ajustarse finamente en pequeños conjuntos cuarentenados de falsedades explícitamente etiquetadas como una "vacuna" contra la desinformación. Estos ejemplos falsos curados se inyectan periódicamente durante el ajuste fino, fortaleciendo la capacidad del modelo para reconocer y rechazar afirmaciones engañosas mientras se preserva la precisión en entradas veraces. Un estudio de caso ilustrativo muestra que los modelos inmunizados generan sustancialmente menos desinformación que los modelos de referencia. Hasta donde sabemos, este es el primer marco de entrenamiento que trata las falsedades verificadas como una vacuna supervisada, en lugar de depender de perturbaciones en la entrada o señales genéricas de retroalimentación humana, para fortalecer los modelos contra la desinformación futura. También delineamos salvaguardias éticas y controles de gobernanza para garantizar el uso seguro de datos falsos. La inmunización de modelos ofrece un paradigma proactivo para alinear los sistemas de IA con la veracidad.
El crecimiento explosivo de los modelos generativos de video ha amplificado la demanda de una preservación confiable de los derechos de autor en el contenido generado por IA. A pesar de su popularidad en la síntesis de imágenes, la marca de agua generativa invisible sigue siendo en gran medida poco explorada en la generación de video. Para abordar esta brecha, proponemos Safe-Sora, el primer marco para incrustar marcas de agua gráficas directamente en el proceso de generación de video. Motivados por la observación de que el rendimiento de la marca de agua está estrechamente relacionado con la similitud visual entre la marca de agua y el contenido de cobertura, introducimos un mecanismo jerárquico de adaptación de lo grueso a lo fino. Específicamente, la imagen de la marca de agua se divide en parches, cada uno asignado al fotograma de video visualmente más similar, y se localiza aún más en la región espacial óptima para una incrustación perfecta. Para permitir la fusión espacio-temporal de los parches de la marca de agua a través de los fotogramas de video, desarrollamos una arquitectura Mamba mejorada con transformada wavelet 3D y una novedosa estrategia de escaneo local espacio-temporal, modelando eficazmente las dependencias de largo alcance durante la incrustación y recuperación de la marca de agua. Hasta donde sabemos, este es el primer intento de aplicar modelos de espacio de estado a la marca de agua, abriendo nuevas vías para una protección eficiente y robusta de la marca de agua. Experimentos extensos demuestran que Safe-Sora alcanza un rendimiento de vanguardia en términos de calidad de video, fidelidad de la marca de agua y robustez, lo cual se atribuye en gran medida a nuestras propuestas. Publicaremos nuestro código tras la publicación.
Estilizar escenas 3D de manera instantánea mientras se mantiene la consistencia multi-vista y se asemeja fielmente a una imagen de estilo sigue siendo un desafío significativo. Los métodos actuales de estilización 3D más avanzados suelen involucrar una optimización computacionalmente intensiva en tiempo de prueba para transferir características artísticas a una representación 3D preentrenada, lo que a menudo requiere imágenes de entrada densas y posicionadas. En contraste, aprovechando los avances recientes en modelos de reconstrucción de avance directo, demostramos un enfoque novedoso para lograr la estilización 3D directa en menos de un segundo utilizando imágenes de escena de vistas escasas no posicionadas y una imagen de estilo arbitraria. Para abordar el desacoplamiento inherente entre la reconstrucción y la estilización, introducimos una arquitectura ramificada que separa el modelado de la estructura y el sombreado de la apariencia, evitando efectivamente que la transferencia estilística distorsione la estructura subyacente de la escena 3D. Además, adaptamos una pérdida de identidad para facilitar el preentrenamiento de nuestro modelo de estilización a través de la tarea de síntesis de nuevas vistas. Esta estrategia también permite que nuestro modelo conserve sus capacidades originales de reconstrucción mientras se ajusta para la estilización. Evaluaciones exhaustivas, utilizando conjuntos de datos tanto dentro como fuera del dominio, demuestran que nuestro enfoque produce contenido 3D estilizado de alta calidad que logra una combinación superior de estilo y apariencia de la escena, al mismo tiempo que supera a los métodos existentes en términos de consistencia multi-vista y eficiencia.
La selección efectiva de datos es crucial para el entrenamiento eficiente de los modernos Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés). Este artículo presenta Distilación de Influencia, un marco novedoso y matemáticamente justificado para la selección de datos que emplea información de segundo orden para ponderar óptimamente las muestras de entrenamiento. Al destilar la influencia de cada muestra sobre una distribución objetivo, nuestro método asigna pesos específicos del modelo que se utilizan para seleccionar datos de entrenamiento para el ajuste fino de LLMs, guiándolo hacia un rendimiento sólido en el dominio objetivo. Derivamos estos pesos óptimos tanto para el descenso de gradiente como para el optimizador Adam. Para garantizar escalabilidad y reducir el costo computacional, proponemos una aproximación basada en puntos de referencia: la influencia se calcula con precisión para un pequeño subconjunto de muestras "de referencia" y luego se propaga eficientemente a todas las demás muestras para determinar sus pesos. Validamos la Distilación de Influencia aplicándola al ajuste por instrucciones en el conjunto de datos Tulu V2, enfocándonos en una variedad de tareas que incluyen GSM8k, SQuAD y MMLU, en varios modelos de las familias Llama y Qwen. Los experimentos muestran que la Distilación de Influencia iguala o supera el rendimiento de última generación mientras logra una selección hasta 3.5 veces más rápida.
Los recientes avances en los Modelos de Lenguaje Visual (VLMs) han demostrado un rendimiento excepcional en tareas de razonamiento visual. Sin embargo, la geo-localización presenta desafíos únicos, ya que requiere la extracción de indicios visuales multigranulares de las imágenes y su integración con conocimiento externo del mundo para un razonamiento sistemático. Los enfoques actuales para tareas de geo-localización a menudo carecen de mecanismos de razonamiento robustos y explicabilidad, lo que limita su efectividad. Para abordar estas limitaciones, proponemos el Conjunto de Mejora de Razonamiento Geo (GRE Suite), un marco novedoso que potencia los VLMs con cadenas de razonamiento estructurado para inferencias de ubicación precisas e interpretables. El GRE Suite se desarrolla sistemáticamente en tres dimensiones clave: conjunto de datos, modelo y evaluación. Primero, presentamos GRE30K, un conjunto de datos de razonamiento de geo-localización de alta calidad diseñado para facilitar análisis visuales y contextuales detallados. A continuación, presentamos el modelo GRE, que emplea una estrategia de razonamiento en múltiples etapas para inferir progresivamente atributos de la escena, detalles locales y características semánticas, reduciendo así las regiones geográficas potenciales con mayor precisión. Finalmente, construimos el Marco de Evaluación de Razonamiento Geo (GREval-Bench), un marco de evaluación integral que mide el rendimiento de los VLMs en diversos escenarios urbanos, naturales y de puntos de referencia, evaluando tanto la localización de grano grueso (por ejemplo, país, continente) como de grano fino (por ejemplo, ciudad, calle). Los resultados experimentales demuestran que GRE supera significativamente a los métodos existentes en todos los niveles de granularidad de las tareas de geo-localización, destacando la eficacia de los VLMs potenciados con razonamiento en inferencias geográficas complejas. El código y los datos estarán disponibles en https://github.com/Thorin215/GRE.
El aprendizaje por refuerzo (RL, por sus siglas en inglés) ha impulsado avances significativos en robótica, pero su complejidad y los largos tiempos de entrenamiento siguen siendo obstáculos importantes. En este informe, presentamos FastTD3, un algoritmo de RL simple, rápido y eficaz que acelera notablemente el entrenamiento de robots humanoides en entornos populares como HumanoidBench, IsaacLab y MuJoCo Playground. Nuestra receta es notablemente sencilla: entrenamos un agente TD3 fuera de política con varias modificaciones: simulación paralela, actualizaciones con lotes grandes, un crítico distribucional y hiperparámetros cuidadosamente ajustados. FastTD3 resuelve una variedad de tareas de HumanoidBench en menos de 3 horas utilizando una sola GPU A100, manteniendo la estabilidad durante el entrenamiento. También proporcionamos una implementación ligera y fácil de usar de FastTD3 para acelerar la investigación en RL aplicada a la robótica.
La comprensión de la orientación de objetos representa un desafío fundamental en la percepción visual, crucial para aplicaciones como la manipulación robótica y la realidad aumentada. Los actuales puntos de referencia en visión y lenguaje no logran aislar esta capacidad, confundiéndola frecuentemente con relaciones posicionales y la comprensión general de escenas. Presentamos DORI (Discriminative Orientation Reasoning Intelligence), un punto de referencia integral que establece la percepción de la orientación de objetos como un objetivo primario de evaluación. DORI evalúa cuatro dimensiones de la comprensión de la orientación: alineación frontal, transformaciones rotacionales, relaciones direccionales relativas y comprensión de la orientación canónica. A través de tareas cuidadosamente seleccionadas de 11 conjuntos de datos que abarcan 67 categorías de objetos en escenarios sintéticos y del mundo real, DORI ofrece insights sobre cómo los sistemas multimodales comprenden las orientaciones de los objetos. Nuestra evaluación de 15 modelos de vanguardia en visión y lenguaje revela limitaciones críticas: incluso los mejores modelos alcanzan solo un 54,2% de precisión en tareas generales y un 33,0% en juicios de orientación granular, con un deterioro del rendimiento en tareas que requieren cambios de marco de referencia o rotaciones compuestas. Estos hallazgos demuestran la necesidad de mecanismos dedicados de representación de la orientación, ya que los modelos muestran una incapacidad sistemática para realizar estimaciones angulares precisas, rastrear cambios de orientación entre puntos de vista y comprender rotaciones compuestas, lo que sugiere limitaciones en sus representaciones espaciales 3D internas. Como el primer marco diagnóstico diseñado específicamente para la conciencia de la orientación en sistemas multimodales, DORI ofrece implicaciones para mejorar el control robótico, la reconstrucción de escenas 3D y la interacción humano-IA en entornos físicos. Datos de DORI: https://huggingface.co/datasets/appledora/DORI-Benchmark
El ajuste fino de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) ha avanzado significativamente sus capacidades de seguimiento de instrucciones, aunque los mecanismos computacionales subyacentes que impulsan estas mejoras siguen siendo poco comprendidos. Este estudio examina sistemáticamente cómo el ajuste fino reconfigura los cálculos de los LLMs mediante el aislamiento y análisis de componentes dispersos específicos de instrucciones, es decir, neuronas en modelos densos y tanto neuronas como expertos en arquitecturas de Mezcla de Expertos (MoE). En particular, presentamos HexaInst, un conjunto de datos de instrucciones cuidadosamente seleccionado y equilibrado que abarca seis categorías distintas, y proponemos SPARCOM, un marco analítico novedoso que comprende tres contribuciones clave: (1) un método para identificar estos componentes dispersos, (2) una evaluación de su generalidad funcional y unicidad, y (3) una comparación sistemática de sus alteraciones. A través de experimentos, demostramos la generalidad funcional, la unicidad y el papel crítico de estos componentes en la ejecución de instrucciones. Al dilucidar la relación entre las adaptaciones inducidas por el ajuste fino y los sustratos computacionales dispersos, este trabajo proporciona una comprensión más profunda de cómo los LLMs internalizan el comportamiento de seguimiento de instrucciones para la comunidad de LLMs confiables.
Los sistemas de tutoría inteligente combinados con modelos de lenguaje de gran escala ofrecen un enfoque prometedor para abordar las diversas necesidades de los estudiantes y promover un aprendizaje autónomo y eficaz. Si bien los modelos de lenguaje de gran escala poseen un buen conocimiento fundamental sobre los conceptos básicos de ingeniería eléctrica, siguen siendo insuficientemente capaces de responder preguntas específicas sobre circuitos eléctricos. En este artículo, presentamos AITEE, un sistema de tutoría basado en agentes para ingeniería eléctrica diseñado para acompañar a los estudiantes durante su proceso de aprendizaje, ofrecer apoyo individualizado y fomentar el aprendizaje autodirigido. AITEE admite tanto circuitos dibujados a mano como digitales mediante un proceso de reconstrucción de circuitos adaptado, lo que permite una interacción natural con los estudiantes. Nuestra novedosa medida de similitud basada en grafos identifica el contexto relevante a partir de materiales de clase mediante un enfoque de generación aumentada por recuperación, mientras que la simulación paralela en Spice mejora aún más la precisión en la aplicación de metodologías de solución. El sistema implementa un diálogo socrático para fomentar la autonomía del aprendiz a través de preguntas guiadas. Las evaluaciones experimentales demuestran que AITEE supera significativamente los enfoques de referencia en la aplicación de conocimientos específicos del dominio, mostrando incluso modelos de lenguaje de gran escala de tamaño medio un rendimiento aceptable. Nuestros resultados destacan el potencial de los tutores agentivos para ofrecer entornos de aprendizaje escalables, personalizados y efectivos en la educación de ingeniería eléctrica.
Los Modelos de Visión-Lenguaje (VLMs, por sus siglas en inglés) han logrado avances significativos en tareas multimodales. Sin embargo, su rendimiento suele deteriorarse en escenarios de contexto largo, particularmente en videos extensos. Si bien el Embedding de Posición Rotatoria (RoPE) ha sido ampliamente adoptado para la generalización de longitud en Modelos de Lenguaje de Gran Escala (LLMs), extender el RoPE estándar para capturar las complejas dependencias espacio-temporales en videos sigue siendo un desafío sin resolver. Los métodos existentes suelen asignar diferentes frecuencias dentro de RoPE para codificar información posicional 3D. No obstante, estas estrategias de asignación se basan principalmente en heurísticas, careciendo de un análisis teórico profundo. En este artículo, primero estudiamos cómo diferentes estrategias de asignación impactan en las capacidades de contexto largo de los VLMs. Nuestro análisis revela que los RoPEs multimodales actuales no logran capturar de manera confiable las similitudes semánticas en contextos extensos. Para abordar este problema, proponemos HoPE, un Híbrido de Embedding de Posición diseñado para mejorar las capacidades de contexto largo de los VLMs. HoPE introduce una estrategia híbrida de asignación de frecuencias para un modelado semántico confiable en contextos arbitrariamente largos, y un mecanismo de escalado temporal dinámico para facilitar un aprendizaje robusto y una inferencia flexible en diversos contextos de longitud. Experimentos exhaustivos en cuatro benchmarks de video para tareas de comprensión y recuperación de videos largos demuestran que HoPE supera consistentemente a los métodos existentes, confirmando su efectividad. El código está disponible en https://github.com/hrlics/HoPE.
El rápido crecimiento de los recursos de aprendizaje automático (ML) de código abierto, como modelos y conjuntos de datos, ha acelerado la investigación en recuperación de información (IR). Sin embargo, plataformas existentes como Hugging Face no utilizan explícitamente representaciones estructuradas, lo que limita consultas y análisis avanzados, como el seguimiento de la evolución de modelos y la recomendación de conjuntos de datos relevantes. Para llenar este vacío, construimos HuggingKG, el primer grafo de conocimiento a gran escala creado a partir de la comunidad de Hugging Face para la gestión de recursos de ML. Con 2.6 millones de nodos y 6.2 millones de aristas, HuggingKG captura relaciones específicas del dominio y atributos textuales enriquecidos. Esto nos permite presentar HuggingBench, un benchmark de múltiples tareas con tres colecciones de pruebas novedosas para tareas de IR, incluyendo recomendación de recursos, clasificación y seguimiento. Nuestros experimentos revelan características únicas de HuggingKG y las tareas derivadas. Ambos recursos están disponibles públicamente, con el objetivo de impulsar la investigación en el intercambio y gestión de recursos de código abierto.
Comprender las representaciones funcionales dentro de la corteza visual superior es una pregunta fundamental en la neurociencia computacional. Si bien las redes neuronales artificiales preentrenadas en conjuntos de datos a gran escala exhiben una alineación representacional notable con las respuestas neuronales humanas, el aprendizaje de modelos computables de imágenes de la corteza visual depende de conjuntos de datos de resonancia magnética funcional (fMRI) a gran escala a nivel individual. La necesidad de una adquisición de datos costosa, que requiere mucho tiempo y, a menudo, poco práctica, limita la generalización de los codificadores a nuevos sujetos y estímulos. BraInCoRL utiliza el aprendizaje en contexto para predecir respuestas neuronales a nivel de vóxeles a partir de ejemplos de pocas muestras, sin necesidad de ajustes adicionales para sujetos y estímulos novedosos. Aprovechamos una arquitectura de transformadores que puede condicionarse de manera flexible a un número variable de estímulos de imágenes en contexto, aprendiendo un sesgo inductivo sobre múltiples sujetos. Durante el entrenamiento, optimizamos explícitamente el modelo para el aprendizaje en contexto. Al condicionar conjuntamente las características de las imágenes y las activaciones de los vóxeles, nuestro modelo aprende a generar directamente modelos de vóxeles de mejor rendimiento para la corteza visual superior. Demostramos que BraInCoRL supera consistentemente los diseños existentes de codificadores de vóxeles en un régimen de datos limitados cuando se evalúa con imágenes completamente nuevas, al mismo tiempo que exhibe un comportamiento de escalado sólido en el momento de la prueba. El modelo también se generaliza a un conjunto de datos de fMRI visual completamente nuevo, que utiliza diferentes sujetos y parámetros de adquisición de datos de fMRI. Además, BraInCoRL facilita una mejor interpretabilidad de las señales neuronales en la corteza visual superior al prestar atención a estímulos semánticamente relevantes. Finalmente, mostramos que nuestro marco permite mapeos interpretables desde consultas en lenguaje natural hasta la selectividad de los vóxeles.
Si bien las capacidades de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han sido estudiadas tanto en chino simplificado como en chino tradicional, aún no está claro si estos modelos muestran un desempeño diferencial cuando se les solicita respuestas en estas dos variantes del chino escrito. Esta comprensión es crucial, ya que las disparidades en la calidad de las respuestas de los LLMs pueden perpetuar daños representativos al ignorar los diferentes contextos culturales subyacentes al chino simplificado frente al tradicional, y pueden exacerbar daños posteriores en la toma de decisiones facilitada por LLMs en dominios como la educación o la contratación. Para investigar posibles disparidades en el desempeño de los LLMs, diseñamos dos tareas de referencia que reflejan escenarios del mundo real: la elección de términos regionales (solicitando al LLM que nombre un objeto descrito que se refiere de manera diferente en China continental y Taiwán) y la elección de nombres regionales (solicitando al LLM que elija a quién contratar de una lista de nombres en chino simplificado y tradicional). Para ambas tareas, auditamos el desempeño de 11 servicios comerciales líderes de LLMs y modelos de código abierto, abarcando aquellos entrenados principalmente en inglés, chino simplificado o chino tradicional. Nuestros análisis indican que los sesgos en las respuestas de los LLMs dependen tanto de la tarea como del idioma de la solicitud: mientras que la mayoría de los LLMs favorecieron desproporcionadamente respuestas en chino simplificado en la tarea de elección de términos regionales, sorprendentemente favorecieron nombres en chino tradicional en la tarea de elección de nombres regionales. Encontramos que estas disparidades pueden surgir de diferencias en la representación de los datos de entrenamiento, las preferencias de caracteres escritos y la tokenización del chino simplificado y tradicional. Estos hallazgos resaltan la necesidad de un análisis más profundo de los sesgos en los LLMs; por ello, proporcionamos un conjunto de datos de referencia de código abierto para fomentar evaluaciones reproducibles del comportamiento futuro de los LLMs en las variantes del idioma chino (https://github.com/brucelyu17/SC-TC-Bench).
La comprensión temporal de videos es crucial para que los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) puedan razonar sobre eventos en videos. A pesar de los avances recientes en la comprensión general de videos, los MLLMs actuales aún enfrentan dificultades en el razonamiento temporal de grano fino. Si bien el aprendizaje por refuerzo (RL, por sus siglas en inglés) se ha explorado recientemente para abordar este problema, los enfoques existentes de RL siguen siendo limitados en su efectividad. En este trabajo, proponemos MUSEG, un método novedoso basado en RL que mejora la comprensión temporal mediante la introducción de una anclaje multi-segmento consciente de marcas de tiempo. MUSEG permite a los MLLMs alinear consultas con múltiples segmentos de video relevantes, promoviendo un razonamiento temporal más completo. Para facilitar un aprendizaje efectivo, diseñamos una receta de entrenamiento de RL personalizada con recompensas por fases que guía progresivamente al modelo hacia un razonamiento temporalmente anclado. Experimentos extensos en tareas de anclaje temporal y preguntas y respuestas (QA) sensibles al tiempo en videos demuestran que MUSEG supera significativamente a los métodos existentes y se generaliza bien en diversos escenarios de comprensión temporal. Consulte nuestro proyecto en https://github.com/THUNLP-MT/MUSEG.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) suelen adquirir conocimientos durante el preentrenamiento que son indeseables en implementaciones posteriores, como información sensible o contenido protegido por derechos de autor. Los enfoques existentes para eliminar dichos conocimientos se basan en ajustes finos, entrenamiento de adaptadores de bajo rango o edición a nivel de hechos, pero estos son demasiado generales, superficiales o ineficaces. En este trabajo, proponemos PISCES (Supresión Precisa en Parámetros para la Eliminación de Conceptos), un marco novedoso para borrar con precisión conceptos completos de los parámetros del modelo mediante la edición directa de las direcciones que los codifican en el espacio de parámetros. PISCES utiliza un modelo desentrelazador para descomponer los vectores MLP en características interpretables, identifica aquellas asociadas con un concepto objetivo mediante técnicas automatizadas de interpretabilidad y las elimina de los parámetros del modelo. Los experimentos realizados en Gemma 2 y Llama 3.1 sobre diversos conceptos muestran que PISCES logra mejoras modestas en eficacia en comparación con los principales métodos de eliminación, reduciendo la precisión en el concepto objetivo hasta un 7.7%, mientras mejora drásticamente la especificidad de la eliminación (hasta un 31%) y la robustez (hasta un 38%). En general, estos resultados demuestran que la edición en parámetros basada en características permite un enfoque más preciso y confiable para eliminar conocimientos conceptuales en modelos de lenguaje.
El preentrenamiento de lenguaje-imagen ha demostrado un rendimiento sólido en imágenes médicas 2D, pero su éxito en modalidades 3D como la tomografía computarizada (TC) y la resonancia magnética (RM) sigue siendo limitado debido a las altas demandas computacionales de los datos volumétricos, lo que representa una barrera significativa para el entrenamiento en estudios clínicos a gran escala y no curados. En este estudio, presentamos la Atención Jerárquica para el Preentrenamiento de Lenguaje-Imagen (HLIP, por sus siglas en inglés), un marco de preentrenamiento escalable para imágenes médicas 3D. HLIP adopta un mecanismo de atención jerárquica ligero inspirado en la jerarquía natural de los datos radiológicos: corte, exploración y estudio. Este mecanismo muestra una fuerte generalización, por ejemplo, un aumento del +4.3% en el AUC macro en el benchmark Rad-ChestCT cuando se preentrena en CT-RATE. Además, la eficiencia computacional de HLIP permite el entrenamiento directo en conjuntos de datos no curados. Entrenado en 220,000 pacientes con 3.13 millones de exploraciones para RM cerebral y 240,000 pacientes con 1.44 millones de exploraciones para TC de cabeza, HLIP alcanza un rendimiento de vanguardia, por ejemplo, un aumento del +32.4% en la precisión balanceada en el benchmark de RM cerebral de acceso público propuesto Pub-Brain-5; y un aumento del +1.4% y +6.9% en el AUC macro en los benchmarks de TC de cabeza RSNA y CQ500, respectivamente. Estos resultados demuestran que, con HLIP, el preentrenamiento directo en conjuntos de datos clínicos no curados es una dirección escalable y efectiva para el preentrenamiento de lenguaje-imagen en imágenes médicas 3D. El código está disponible en https://github.com/Zch0414/hlip.
Comprender e inferir relaciones causales a partir de textos es un aspecto fundamental de la cognición humana y es esencial para avanzar hacia la inteligencia artificial general en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés). Los trabajos existentes se centran principalmente en textos generados sintéticamente que involucran relaciones causales simples y explícitamente mencionadas en el texto. Esto no refleja las complejidades de las tareas del mundo real. En este artículo, investigamos si los LLMs son capaces de inferir relaciones causales a partir de textos del mundo real. Desarrollamos un punto de referencia extraído de literatura académica del mundo real que incluye textos diversos en términos de longitud, complejidad de las relaciones (diferentes niveles de explicitidad, número de eventos y relaciones causales) y dominios y subdominios. Hasta donde sabemos, nuestro punto de referencia es el primer conjunto de datos del mundo real para esta tarea. Nuestros experimentos con LLMs de vanguardia evaluados en nuestro punto de referencia propuesto demuestran desafíos significativos, con el modelo de mejor rendimiento alcanzando un puntaje F1 promedio de solo 0.477. El análisis revela errores comunes: dificultad con la información implícitamente expresada, en distinguir factores causales relevantes de los detalles contextuales circundantes, y en conectar información causalmente relevante dispersa en pasajes textuales extensos. Al caracterizar sistemáticamente estas deficiencias, nuestro punto de referencia ofrece perspectivas específicas para futuras investigaciones en el avance del razonamiento causal en LLMs.
El escalado en tiempo de prueba (TTS, por sus siglas en inglés), que implica la asignación dinámica de recursos computacionales durante la inferencia, ofrece una forma prometedora de mejorar el razonamiento en los modelos de lenguaje grandes. Aunque los métodos existentes de TTS funcionan bien, a menudo dependen de trayectorias de decodificación largas o requieren la generación de un gran número de muestras, lo que aumenta el uso de tokens y la latencia de inferencia. Observamos el hecho sorprendente de que, en tareas de razonamiento, las trazas más cortas tienen una probabilidad mucho mayor de ser correctas que las más largas. Motivados por esto, presentamos First Finish Search (FFS), una estrategia de decodificación paralela sin entrenamiento que lanza n muestras independientes y devuelve el resultado tan pronto como cualquiera de ellas se completa. Evaluamos FFS junto con decodificación simple, búsqueda por haz, votación mayoritaria y forzado de presupuesto en cuatro modelos de razonamiento (DeepSeek-R1, R1-Distill-Qwen-32B, QwQ-32B y Phi-4-Reasoning-Plus) y en cuatro conjuntos de datos (AIME24, AIME25-I, AIME25-II y GPQA Diamond). Con DeepSeek-R1, FFS alcanza un 82.23% de precisión en los conjuntos de datos AIME, un 15% de mejora sobre la precisión independiente de DeepSeek-R1, casi igualando el rendimiento de OpenAI o4-mini. Nuestro análisis teórico explica por qué detenerse en la traza más corta es probable que produzca una respuesta correcta e identifica las condiciones bajo las cuales la detención temprana puede ser subóptima. La elegancia y simplicidad de FFS demuestran que las estrategias sencillas de TTS pueden desempeñarse notablemente bien, revelando el potencial no explotado de los enfoques simples durante la inferencia.
Aunque los grandes Modelos de Visión-Lenguaje (VLMs, por sus siglas en inglés) han demostrado un rendimiento notable en una amplia gama de tareas multimodales, sus verdaderas capacidades de razonamiento en pruebas de coeficiente intelectual (IQ) humanas siguen siendo poco exploradas. Para avanzar en la investigación sobre la inteligencia fluida de los VLMs, presentamos **IQBench**, un nuevo punto de referencia diseñado para evaluar a los VLMs en pruebas visuales de IQ estandarizadas. Nos centramos en evaluar las capacidades de razonamiento de los VLMs, que consideramos más importantes que la precisión de la predicción final. **Nuestro punto de referencia es visualmente centrado, minimizando la dependencia de contenido textual innecesario**, fomentando así que los modelos obtengan respuestas principalmente a partir de información basada en imágenes en lugar de conocimiento textual aprendido. Con este fin, recopilamos y anotamos manualmente 500 preguntas de IQ visuales para **evitar fugas de datos involuntarias durante el entrenamiento**. A diferencia de trabajos previos que se centran principalmente en la precisión de la respuesta final, evaluamos la capacidad de razonamiento de los modelos analizando sus explicaciones y los patrones utilizados para resolver cada problema, junto con la precisión de la predicción final y la evaluación humana. Nuestros experimentos muestran que existen disparidades sustanciales en el rendimiento entre tareas, con modelos como `o4-mini`, `gemini-2.5-flash` y `claude-3.7-sonnet` alcanzando las precisiones promedio más altas de 0.615, 0.578 y 0.548, respectivamente. Sin embargo, todos los modelos tienen dificultades con tareas de razonamiento espacial 3D y de anagramas, lo que resalta limitaciones significativas en las capacidades generales de razonamiento de los VLMs actuales. En términos de puntuaciones de razonamiento, `o4-mini`, `gemini-2.5-flash` y `claude-3.7-sonnet` obtuvieron los promedios más altos de 0.696, 0.586 y 0.516, respectivamente. Estos resultados subrayan inconsistencias entre los procesos de razonamiento de los modelos y sus respuestas finales, enfatizando la importancia de evaluar la precisión del razonamiento además de las predicciones finales.