Artículos de investigación en IA seleccionados diariamente con traducciones
Aunque RLVR se ha convertido en un componente esencial para desarrollar habilidades avanzadas de razonamiento en LLMs, estudios contemporáneos han documentado mesetas de entrenamiento que surgen tras miles de pasos de optimización, mostrando disminuciones notables en las ganancias de rendimiento a pesar del aumento en la inversión computacional. Esta limitación se origina en los patrones de exploración dispersos inherentes a las prácticas actuales de RLVR, donde los modelos dependen de despliegues limitados que a menudo pasan por alto rutas críticas de razonamiento y no logran proporcionar una cobertura sistemática del espacio de soluciones. Presentamos DeepSearch, un marco que integra la Búsqueda de Árbol de Monte Carlo directamente en el entrenamiento de RLVR. A diferencia de los métodos existentes que dependen de la búsqueda en árbol solo durante la inferencia, DeepSearch incorpora la búsqueda estructurada en el ciclo de entrenamiento, permitiendo una exploración sistemática y una asignación de crédito detallada a través de los pasos de razonamiento. Mediante la exploración durante el entrenamiento, DeepSearch aborda el cuello de botella fundamental de la exploración insuficiente, que conduce a mejoras de rendimiento decrecientes tras prolongados pasos de entrenamiento. Nuestras contribuciones incluyen: (1) una estrategia de selección de frontera global que prioriza nodos prometedores en el árbol de búsqueda, (2) selección con orientación basada en entropía que identifica rutas confiables para la supervisión, y (3) entrenamiento adaptativo con búfer de repetición y almacenamiento en caché de soluciones para mayor eficiencia. Los experimentos en benchmarks de razonamiento matemático muestran que DeepSearch alcanza un 62.95% de precisión promedio y establece un nuevo estado del arte para modelos de razonamiento de 1.5B, utilizando 5.7 veces menos horas de GPU que los enfoques de entrenamiento extendido. Estos resultados resaltan la importancia de la exploración estratégica sobre el escalado por fuerza bruta y demuestran el potencial de la innovación algorítmica para avanzar en las metodologías de RLVR. DeepSearch establece una nueva dirección para escalar las capacidades de razonamiento a través de la búsqueda sistemática en lugar de la computación prolongada.
El paradigma de entrenamiento para los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) está evolucionando desde conjuntos de datos estáticos hacia el aprendizaje basado en experiencias, donde los agentes adquieren habilidades mediante la interacción con entornos complejos. Para facilitar esta transición, presentamos GEM (General Experience Maker), un simulador de entornos de código abierto diseñado para la era de los LLMs. Análogo a OpenAI-Gym para el aprendizaje por refuerzo (RL) tradicional, GEM proporciona un marco estandarizado para la interfaz entorno-agente, incluyendo ejecución vectorizada asíncrona para un alto rendimiento y envoltorios flexibles para una fácil extensibilidad. GEM también cuenta con un conjunto diverso de entornos, herramientas integradas robustas y scripts de ejemplo en un solo archivo que demuestran el uso de GEM con cinco marcos de entrenamiento de RL populares. Junto con esto, también proporcionamos un conjunto de líneas base en 24 entornos utilizando REINFORCE con Normalización de Lotes de Retorno (ReBN), que, a diferencia de GRPO, es compatible con el escenario completo de RL de recompensas densas por turno y ofrece una mejor asignación de créditos. Además, realizamos una comparación directa de PPO, GRPO y REINFORCE en configuraciones de uno y varios turnos utilizando GEM para arrojar luz sobre los diseños algorítmicos. Por último, GEM también funciona como un kit de evaluación conveniente además de un entorno de entrenamiento. Esperamos que este marco pueda ayudar a acelerar la investigación futura en LLMs agentivos.
La cuantización post-entrenamiento ha surgido como la estrategia más ampliamente utilizada para implementar modelos de lenguaje grandes en baja precisión. Sin embargo, los métodos actuales muestran degradación en la perplejidad en anchos de bits menores o iguales a 4, en parte porque la representación de valores atípicos causa problemas de precisión en los parámetros que comparten las mismas escalas que estos valores atípicos. Este problema es especialmente pronunciado en los métodos de cuantización uniforme sin calibración. Introducimos SINQ para mejorar los cuantizadores post-entrenamiento existentes con un factor de escala adicional en el segundo eje y un algoritmo rápido al estilo Sinkhorn-Knopp que encuentra escalas para normalizar las varianzas por fila y por columna, minimizando así un nuevo objetivo proxy de cuantización por matriz: el desequilibrio matricial. Nuestro método no tiene interacciones entre capas y puede aplicarse trivialmente a nuevas arquitecturas para cuantificar cualquier capa lineal. Evaluamos nuestro método en la familia de modelos Qwen3 y DeepSeek-V2.5. SINQ mejora significativamente la perplejidad en WikiText2 y C4 en comparación con las líneas base de cuantización uniforme sin calibración, y puede mejorarse aún más combinándolo con calibración y niveles de cuantización no uniformes. El código para reproducir los resultados de este trabajo y para cuantizar fácilmente modelos usando SINQ está disponible en https://github.com/huawei-csl/SINQ.
Los modelos Visión-Lenguaje-Acción (VLA) permiten la toma de decisiones corporizadas, pero dependen en gran medida del aprendizaje por imitación, lo que conduce a errores acumulativos y una escasa robustez ante cambios en la distribución. El aprendizaje por refuerzo (RL) puede mitigar estos problemas, aunque generalmente requiere interacciones costosas en el mundo real o sufre de brechas sim-to-real. Presentamos VLA-RFT, un marco de ajuste fino basado en refuerzo que aprovecha un modelo del mundo basado en datos como simulador controlable. Entrenado a partir de datos de interacción real, el simulador predice observaciones visuales futuras condicionadas a acciones, permitiendo despliegues de políticas con recompensas densas a nivel de trayectoria derivadas de referencias de logro de objetivos. Este diseño proporciona una señal de aprendizaje eficiente y alineada con la acción, reduciendo drásticamente los requisitos de muestreo. Con menos de 400 pasos de ajuste fino, VLA-RFT supera a sólidas líneas base supervisadas y logra una mayor eficiencia que el RL basado en simuladores. Además, exhibe una fuerte robustez en condiciones perturbadas, manteniendo una ejecución estable de tareas. Nuestros resultados establecen el ajuste fino basado en modelos del mundo como un paradigma práctico de posentrenamiento para mejorar la generalización y robustez de los modelos VLA. Para más detalles, consulte https://vla-rft.github.io/.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) pueden automejorarse mediante el aprendizaje por refuerzo, donde generan trayectorias para explorar y descubrir soluciones mejores. Sin embargo, este proceso de exploración es computacionalmente costoso, lo que a menudo obliga a los métodos actuales a asignar presupuestos de exploración limitados a cada tarea. Esta asignación uniforme crea casos problemáticos: las tareas fáciles tienen éxito consistentemente, mientras que las tareas difíciles fracasan sistemáticamente, ambos casos produciendo gradientes nulos durante las actualizaciones de entrenamiento para la Optimización de Política Relativa de Grupo (GRPO, por sus siglas en inglés), ampliamente utilizada. Abordamos este problema desde la perspectiva de la asignación del presupuesto de exploración. Al considerar la exploración de cada tarea como un "ítem" con un "valor" y un "costo" distintivos, establecemos una conexión con el clásico problema de la mochila. Esta formulación nos permite derivar una regla de asignación óptima que distribuye los recursos de manera adaptativa según el estado actual de aprendizaje del modelo. Cuando se aplica a GRPO, nuestro método aumenta la proporción efectiva de gradientes de política no nulos en un 20-40% durante el entrenamiento. Funcionando como un "almuerzo gratis" computacional, nuestro enfoque permite reasignar los presupuestos de exploración desde tareas donde el aprendizaje está saturado hacia aquellas donde es más impactante. Esto habilita presupuestos significativamente mayores (por ejemplo, 93 rollouts) para problemas especialmente desafiantes, lo que sería computacionalmente prohibitivo bajo una asignación uniforme. Estas mejoras se traducen en avances significativos en benchmarks de razonamiento matemático, con mejoras promedio de 2-4 puntos y ganancias máximas de 9 puntos en tareas específicas. Cabe destacar que lograr un rendimiento comparable con la asignación homogénea tradicional requeriría aproximadamente el doble de recursos computacionales.
Si bien los modelos generativos recientes avanzan en la síntesis de videos en el espacio de píxeles, siguen siendo limitados en la producción de videos educativos profesionales, los cuales requieren conocimiento disciplinario, estructuras visuales precisas y transiciones coherentes, lo que limita su aplicabilidad en escenarios educativos. Intuitivamente, tales requisitos se abordan mejor mediante la manipulación de un entorno renderizable, que puede ser controlado explícitamente a través de comandos lógicos (por ejemplo, código). En este trabajo, proponemos Code2Video, un marco de trabajo centrado en código para la generación de videos educativos mediante código Python ejecutable. El marco consta de tres agentes colaborativos: (i) Planner, que estructura el contenido de la lección en flujos temporalmente coherentes y prepara los recursos visuales correspondientes; (ii) Coder, que convierte instrucciones estructuradas en código Python ejecutable mientras incorpora correcciones automáticas guiadas por alcance para mejorar la eficiencia; y (iii) Critic, que aprovecha modelos de visión-lenguaje (VLM) con indicaciones visuales ancladas para refinar el diseño espacial y garantizar la claridad. Para apoyar la evaluación sistemática, construimos MMMC, un conjunto de referencia de videos educativos específicos de disciplinas producidos profesionalmente. Evaluamos MMMC en diversas dimensiones, incluyendo puntuaciones estéticas de VLM-como-Juez, eficiencia del código y, en particular, TeachQuiz, una métrica novedosa de extremo a extremo que cuantifica qué tan bien un VLM, después de desaprender, puede recuperar conocimiento al ver los videos generados. Nuestros resultados demuestran el potencial de Code2Video como un enfoque escalable, interpretable y controlable, logrando una mejora del 40% sobre la generación directa de código y produciendo videos comparables a tutoriales creados por humanos. El código y los conjuntos de datos están disponibles en https://github.com/showlab/Code2Video.
La configuración del entorno—el proceso de ajustar el sistema para que funcione con un proyecto de software específico—representa un desafío persistente en la Ingeniería de Software (IS). Los métodos automatizados de configuración del entorno podrían ayudar a los desarrolladores al proporcionar entornos completamente configurados para repositorios arbitrarios sin necesidad de esfuerzo manual. Esto también ayuda a los investigadores en IS a escalar benchmarks basados en ejecución. Sin embargo, estudios recientes revelan que incluso los modelos de lenguaje de última generación (LLMs, por sus siglas en inglés) logran un éxito limitado en la automatización de esta tarea. Para abordar esta limitación, ajustamos un modelo especializado para la configuración del entorno. Combinamos el ajuste fino supervisado para generar scripts Bash correctos y el Aprendizaje por Refuerzo con Recompensas Verificables (RLVR, por sus siglas en inglés) para adaptarlo a la tarea de configuración del entorno. En EnvBench-Python, nuestro método permite que Qwen3-8B (un modelo ejecutable en hardware de consumo) tenga un rendimiento comparable con modelos más grandes como Qwen3-32B y GPT-4o. El código de entrenamiento y los puntos de control del modelo están disponibles en línea: https://github.com/JetBrains-Research/PIPer.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se están implementando cada vez más como agentes en entornos dinámicos del mundo real, donde el éxito requiere tanto razonamiento como el uso efectivo de herramientas. Un desafío central para las tareas agentivas es el creciente tamaño del contexto, ya que los agentes deben acumular largos historiales de acciones y observaciones. Esta expansión incrementa los costos y reduce la eficiencia en tareas de largo plazo, aunque trabajos previos sobre compresión de contexto se han centrado principalmente en tareas de un solo paso o aplicaciones específicas. Presentamos la Optimización de Contexto de Agente (ACON, por sus siglas en inglés), un marco unificado que comprime de manera óptima tanto las observaciones del entorno como los historiales de interacción en condensaciones concisas pero informativas. ACON aprovecha la optimización de directrices de compresión en el espacio del lenguaje natural: dadas trayectorias emparejadas donde el contexto completo tiene éxito pero el contexto comprimido falla, los LLMs capaces analizan las causas del fallo y la directriz de compresión se actualiza en consecuencia. Además, proponemos destilar el compresor de LLM optimizado en modelos más pequeños para reducir la sobrecarga del módulo adicional. Los experimentos en AppWorld, OfficeBench y Multi-objective QA muestran que ACON reduce el uso de memoria en un 26-54% (tokens máximos) mientras preserva en gran medida el rendimiento de la tarea, mantiene más del 95% de precisión cuando se destila en compresores más pequeños y mejora los modelos de lenguaje más pequeños como agentes de largo plazo con una mejora de rendimiento de hasta el 46%.
La Optimización de Políticas Relativas de Grupo (GRPO, por sus siglas en inglés) es un algoritmo destacado de aprendizaje por refuerzo para el ajuste posterior de Modelos de Lenguaje a Gran Escala (LLMs). Generalmente se cree que GRPO requiere un tamaño de grupo grande para garantizar un entrenamiento estable mediante una estimación estadística precisa, lo que conlleva un costo computacional significativo. En este trabajo, cuestionamos esta suposición al reformular GRPO como una forma de aprendizaje contrastivo, lo que revela una conexión fundamental con la Optimización Directa de Preferencias (DPO). Motivados por el éxito empírico de DPO, investigamos el caso mínimo de dos ejecuciones (2-GRPO), una configuración previamente considerada inviable. Proporcionamos un análisis teórico riguroso para validar 2-GRPO y demostramos empíricamente que alcanza un rendimiento comparable al de 16-GRPO, a pesar de utilizar solo 1/8 de las ejecuciones y reducir el tiempo de entrenamiento en más del 70%.
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR, por sus siglas en inglés) ha surgido como un componente clave para desbloquear capacidades de razonamiento complejo en modelos de lenguaje de gran escala. Trabajos recientes, como ProRL, han mostrado avances prometedores al escalar el aprendizaje por refuerzo mediante el aumento del número de pasos de entrenamiento. Sin embargo, el rendimiento se estanca después de miles de pasos, con rendimientos claramente decrecientes al asignar más recursos computacionales a un entrenamiento adicional. En este trabajo, investigamos un paradigma complementario para escalar el aprendizaje por refuerzo, BroRL, que consiste en aumentar el número de rollouts por ejemplo a cientos para ampliar exhaustivamente la exploración, lo que produce mejoras continuas en el rendimiento más allá del punto de saturación observado en ProRL al escalar el número de pasos de entrenamiento. Nuestro enfoque está motivado por un análisis de la ecuación de balance de masas, que nos permite caracterizar la tasa de cambio en la masa de probabilidad de los tokens correctos e incorrectos durante el proceso de refuerzo. Demostramos que, bajo una suposición de aprendizaje por refuerzo de un solo paso, los tokens muestreados en los rollouts siempre contribuyen a la expansión de la masa correcta, mientras que los tokens no muestreados fuera de los rollouts pueden generar ganancias o pérdidas dependiendo de su distribución y del balance neto de recompensas. Es importante destacar que, a medida que aumenta el número de rollouts por ejemplo \(N\), el efecto de los términos no muestreados disminuye, asegurando una expansión general de la masa correcta. Para validar nuestro análisis teórico, realizamos simulaciones bajo condiciones más relajadas y encontramos que un tamaño de rollout suficientemente grande \(N\)—correspondiente a una exploración amplia—garantiza un aumento en la masa de probabilidad de todos los tokens correctos. Empíricamente, BroRL revitaliza modelos saturados después de 3,000 pasos de entrenamiento con ProRL y demuestra mejoras robustas y continuas, logrando resultados de vanguardia para el modelo de 1.5B en diversos benchmarks.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado capacidades notables en tareas de razonamiento complejo cuando se equipan con herramientas externas. Sin embargo, los marcos actuales dependen predominantemente del procesamiento secuencial, lo que conduce a una ejecución ineficiente, especialmente para tareas que requieren una interacción extensa con herramientas. Este artículo presenta Flash-Searcher, un novedoso marco de razonamiento de agentes paralelos que replantea fundamentalmente el paradigma de ejecución, pasando de cadenas secuenciales a grafos acíclicos dirigidos (DAGs, por sus siglas en inglés). Flash-Searcher descompone tareas complejas en subtareas con dependencias explícitas, permitiendo la ejecución concurrente de rutas de razonamiento independientes mientras se mantienen las restricciones lógicas. A través de la optimización dinámica del flujo de trabajo, nuestro marco refina continuamente el grafo de ejecución basándose en resultados intermedios, integrando eficazmente un módulo de resumen. Evaluaciones exhaustivas en múltiples benchmarks demuestran que Flash-Searcher supera consistentemente los enfoques existentes. Específicamente, logra un 67,7% de precisión en BrowseComp y un 83% en xbench-DeepSearch, mientras reduce los pasos de ejecución del agente hasta en un 35% en comparación con los marcos actuales. Además, al destilar esta canalización de razonamiento paralelo en modelos individuales, observamos mejoras sustanciales en el rendimiento en diversas arquitecturas base, destacando la generalizabilidad de nuestra metodología. Nuestro trabajo representa, por tanto, un avance significativo en el diseño de arquitecturas de agentes, ofreciendo un paradigma más escalable y eficiente para tareas de razonamiento complejo.
Los estudios existentes sobre métodos de mitigación de sesgos en modelos de lenguaje de gran escala (LLMs) utilizan diversas líneas base y métricas para evaluar el desempeño en la eliminación de sesgos, lo que genera comparaciones inconsistentes entre ellos. Además, sus evaluaciones se basan principalmente en la comparación entre las probabilidades de contextos sesgados y no sesgados generados por los LLMs, lo que ignora la brecha entre dichas evaluaciones y los casos de uso reales, donde los usuarios interactúan con los LLMs leyendo las respuestas del modelo y esperan resultados justos y seguros en lugar de probabilidades generadas por los LLMs. Para permitir una evaluación consistente entre los métodos de mitigación de sesgos y cerrar esta brecha, presentamos BiasFreeBench, un punto de referencia empírico que compara de manera integral ocho técnicas principales de mitigación de sesgos (que cubren cuatro métodos basados en *prompting* y cuatro basados en entrenamiento) en dos escenarios de prueba (preguntas y respuestas de opción múltiple y preguntas y respuestas abiertas de múltiples turnos), reorganizando conjuntos de datos existentes en un entorno unificado de consulta-respuesta. Además, introducimos una métrica a nivel de respuesta, el *Bias-Free Score*, para medir el grado en que las respuestas de los LLMs son justas, seguras y antiestereotípicas. Los desempeños en la eliminación de sesgos se comparan y analizan sistemáticamente en dimensiones clave: el paradigma de *prompting* frente al entrenamiento, el tamaño del modelo y la generalización de diferentes estrategias de entrenamiento a tipos de sesgos no vistos. Publicaremos nuestro punto de referencia con el objetivo de establecer un entorno de prueba unificado para la investigación en mitigación de sesgos.
Los modelos de lenguaje son cada vez más capaces, pero aún fallan en una tarea aparentemente simple como la multiplicación de varios dígitos. En este trabajo, estudiamos por qué, mediante la ingeniería inversa de un modelo que aprende con éxito la multiplicación a través de una cadena de pensamiento implícita, y reportamos tres hallazgos: (1) Evidencia de estructura de largo alcance: las atribuciones de logits y las sondas lineales indican que el modelo codifica las dependencias de largo alcance necesarias para la multiplicación de varios dígitos. (2) Mecanismo: el modelo codifica las dependencias de largo alcance utilizando atención para construir un grafo acíclico dirigido que "almacena" y "recupera" productos parciales por pares. (3) Geometría: el modelo implementa productos parciales en cabezas de atención formando sumas de Minkowski entre pares de dígitos, y los dígitos se representan utilizando una base de Fourier, ambas representaciones intuitivas y eficientes que carece el modelo de ajuste fino estándar. Con estas ideas, revisamos la dinámica de aprendizaje del ajuste fino estándar y encontramos que el modelo converge a un óptimo local que carece de las dependencias de largo alcance necesarias. Validamos aún más esta comprensión introduciendo una pérdida auxiliar que predice la "suma acumulada" mediante una sonda de regresión lineal, lo que proporciona un sesgo inductivo que permite al modelo aprender con éxito la multiplicación de varios dígitos. En resumen, al realizar ingeniería inversa de los mecanismos de un modelo de cadena de pensamiento implícita, descubrimos una trampa para el aprendizaje de dependencias de largo alcance en Transformers y proporcionamos un ejemplo de cómo el sesgo inductivo correcto puede abordar este problema.
Recientemente, hemos sido testigos de grandes avances en la edición de imágenes mediante instrucciones en lenguaje natural. Varios modelos de código cerrado, como GPT-Image-1, Seedream y Google-Nano-Banana, han mostrado un progreso altamente prometedor. Sin embargo, los modelos de código abierto aún se están quedando atrás. El principal cuello de botella es la falta de un modelo de recompensa confiable para escalar datos de entrenamiento sintéticos de alta calidad. Para abordar este cuello de botella crítico, construimos \mname, entrenado con nuestro nuevo conjunto de datos a gran escala de preferencias humanas, meticulosamente anotado por expertos capacitados siguiendo un protocolo riguroso que contiene más de 200K pares de preferencias. \mname demuestra una alineación superior con las preferencias humanas en tareas de edición de imágenes guiadas por instrucciones. Los experimentos muestran que \mname alcanza una correlación humana de vanguardia en puntos de referencia establecidos como GenAI-Bench, AURORA-Bench, ImagenHub y nuestro nuevo \benchname, superando a una amplia gama de modelos VLM-as-judge. Además, utilizamos \mname para seleccionar un subconjunto de alta calidad del conjunto de datos ruidoso existente ShareGPT-4o-Image. Entrenamos Step1X-Edit en el subconjunto seleccionado, lo que muestra una mejora significativa en comparación con el entrenamiento en el conjunto completo. Esto demuestra la capacidad de \mname para servir como un modelo de recompensa para escalar datos de entrenamiento de alta calidad para la edición de imágenes. Además, su fuerte alineación sugiere un potencial para aplicaciones avanzadas como el ajuste posterior basado en aprendizaje por refuerzo y la escalabilidad en tiempo de prueba de modelos de edición de imágenes. \mname, junto con su conjunto de datos de entrenamiento, será liberado para ayudar a la comunidad a construir más conjuntos de datos de entrenamiento de alta calidad para la edición de imágenes.
El diseño y la optimización de circuitos cuánticos específicos para tareas son fundamentales para aprovechar las ventajas de la computación cuántica. Recientemente, la generación de circuitos cuánticos basada en modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) ha surgido como una solución automática prometedora. Sin embargo, los desafíos fundamentales siguen sin abordarse: (i) las compuertas cuánticas parametrizadas requieren valores numéricos precisos para un rendimiento óptimo, los cuales también dependen de múltiples aspectos, como el número de compuertas cuánticas, sus parámetros y la disposición/profundidad de los circuitos. (ii) Los LLM a menudo generan circuitos cuánticos de baja calidad o incorrectos debido a la falta de conocimiento específico del dominio cuántico. Proponemos QUASAR, un marco de aprendizaje por refuerzo (RL, por sus siglas en inglés) agéntico para la generación y optimización de circuitos cuánticos basado en LLM aumentados con herramientas. Para alinear el LLM con conocimientos específicos de la cuántica y mejorar los circuitos cuánticos generados, QUASAR diseña (i) un enfoque de verificación de circuitos cuánticos con simuladores cuánticos externos y (ii) un mecanismo de recompensa jerárquico sofisticado en el entrenamiento de RL. Una evaluación exhaustiva muestra mejoras tanto en el rendimiento sintáctico como semántico de los circuitos cuánticos generados. Al aumentar un LLM de 4B, QUASAR ha logrado una validez del 99.31% en Pass@1 y del 100% en Pass@10, superando a los LLM industriales GPT-4o, GPT-5 y DeepSeek-V3, así como a varias líneas base que solo utilizan ajuste fino supervisado (SFT, por sus siglas en inglés) o solo RL.
La obtención de generaciones de alta calidad en los LLM modernos se ha enmarcado principalmente como un problema de selección: identificar una única generación ganadora de un grupo diverso de N muestras, el Best-of-N (BoN). Sin embargo, este enfoque es inherentemente de suma cero, descartando información diversa y potencialmente útil del grupo. En su lugar, exploramos una configuración colaborativa, donde todos los candidatos pueden contribuir potencialmente a la generación ganadora final. Para ello, proponemos Fusion-of-N (FusioN): un método que utiliza un juez LLM general para sintetizar los elementos más informativos de cada muestra en una única respuesta final. Comparamos FusioN con BoN en dos configuraciones: (i) escalado en tiempo de prueba, donde muestreamos y agregamos de un único modelo en tiempo de prueba, y (ii) generación de datos sintéticos, donde fusionamos muestras de un grupo de profesores diversos para mejorar un modelo estudiante. Evaluamos ampliamente ambas configuraciones en 11 idiomas, 3 tareas diversas y escalas de modelos variables. En todas las pruebas, FusioN supera consistentemente a BoN, mostrando versatilidad y robustez tanto en el escalado en tiempo de prueba como en las ganancias posteriores de la generación de datos sintéticos. También realizamos un análisis exhaustivo de FusioN, donde muestra fortalezas sorprendentes y robustez en configuraciones desafiantes. Estos resultados demuestran que deberíamos cambiar nuestra forma de pensar sobre la evaluación y utilización de las generaciones de LLM, pasando de una medida monolítica de calidad a abrazar su naturaleza polilítica. Este cambio nos permite integrar diversas fortalezas, desbloquear potencial latente y lograr mejoras que antes eran inaccesibles únicamente mediante la selección.
Los avances recientes en las capacidades de razonamiento de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) están impulsados en gran medida por el aprendizaje por refuerzo (RL, por sus siglas en inglés); sin embargo, la dinámica subyacente de los parámetros durante el entrenamiento con RL sigue siendo poco comprendida. Este trabajo identifica dos propiedades fundamentales de las actualizaciones de parámetros inducidas por RL en LLMs: (1) Dominancia de Rango 1, donde el subespacio singular principal de la matriz de actualización de parámetros determina casi por completo las mejoras en el razonamiento, recuperando más del 99% de las ganancias de rendimiento; y (2) Dinámica Lineal de Rango 1, donde este subespacio dominante evoluciona linealmente durante el entrenamiento, permitiendo predicciones precisas a partir de puntos de control tempranos. Experimentos exhaustivos en 8 LLMs y 7 algoritmos validan la generalizabilidad de estas propiedades. Más importante aún, basándonos en estos hallazgos, proponemos AlphaRL, un marco de aceleración complementario que extrapola la actualización final de parámetros utilizando una ventana temprana corta de entrenamiento, logrando una aceleración de hasta 2.5 veces mientras se conserva más del 96% del rendimiento de razonamiento sin módulos adicionales o ajuste de hiperparámetros. Esto posiciona nuestro descubrimiento como una herramienta versátil y práctica para el RL a gran escala, abriendo un camino hacia un paradigma de entrenamiento para LLMs que sea fundamentado, interpretable y eficiente.
El ajuste fino supervisado (SFT) es el enfoque estándar para el posentrenamiento de modelos de lenguaje grandes (LLMs), pero a menudo muestra una generalización limitada. Rastreamos esta limitación a su objetivo de entrenamiento predeterminado: la log-verosimilitud negativa (NLL). Aunque la NLL es clásicamente óptima cuando se entrena desde cero, el posentrenamiento opera en un paradigma diferente y podría violar sus supuestos de optimalidad, donde los modelos ya codifican conocimientos previos relevantes para la tarea y la supervisión puede ser extensa y ruidosa. Con este fin, estudiamos una familia general de objetivos basados en probabilidad y caracterizamos su efectividad bajo diferentes condiciones. A través de experimentos exhaustivos y estudios de ablación extensos en 7 arquitecturas de modelos, 14 benchmarks y 3 dominios, descubrimos una dimensión crítica que gobierna el comportamiento de los objetivos: el continuo de capacidad del modelo. Cerca del extremo de modelo-fuerte, los objetivos que favorecen los conocimientos previos y reducen el peso de los tokens de baja probabilidad (por ejemplo, -p, -p^{10}, variantes con umbral) superan consistentemente a la NLL; hacia el extremo de modelo-débil, la NLL domina; en el medio, ningún objetivo prevalece. Nuestro análisis teórico aclara aún más cómo los objetivos intercambian posiciones a lo largo del continuo, proporcionando una base fundamentada para adaptar los objetivos a la capacidad del modelo. Nuestro código está disponible en https://github.com/GaotangLi/Beyond-Log-Likelihood.
Los agentes de interfaz gráfica de usuario (GUI) basados en modelos de visión y lenguaje han surgido como un enfoque prometedor para automatizar flujos de trabajo entre humanos y computadoras. Sin embargo, también enfrentan el desafío de la ineficiencia al procesar secuencias largas de capturas de pantalla de alta resolución y resolver tareas de largo alcance, lo que hace que la inferencia sea lenta, costosa y limitada por la memoria. Aunque el almacenamiento en caché de clave-valor (KV) puede mitigar esto, almacenar la caché completa es prohibitivo en contextos con gran cantidad de imágenes. Los métodos existentes de compresión de caché son subóptimos, ya que no tienen en cuenta la redundancia espacial y temporal de las GUIs. En este trabajo, primero analizamos los patrones de atención en las cargas de trabajo de los agentes de GUI y encontramos que, a diferencia de las imágenes naturales, la dispersión de la atención es uniformemente alta en todas las capas del transformador. Esta idea motiva una estrategia simple de asignación uniforme de presupuesto, que demostramos empíricamente que supera esquemas más complejos que varían por capa. Basándonos en esto, presentamos GUI-KV, un método de compresión de caché KV plug-and-play para agentes de GUI que no requiere reentrenamiento. GUI-KV combina dos técnicas novedosas: (i) guía de prominencia espacial, que aumenta las puntuaciones de atención con la norma L2 de los estados ocultos para preservar mejor los tokens visuales semánticamente importantes, y (ii) puntuación de redundancia temporal, que proyecta las claves de los fotogramas anteriores en el subespacio de claves del fotograma actual para podar preferentemente la historia redundante. En los puntos de referencia estándar y modelos de agentes de GUI, GUI-KV supera a los métodos de compresión KV competitivos, igualando de cerca la precisión de la caché completa con presupuestos modestos. En particular, en una configuración de 5 capturas de pantalla en el punto de referencia AgentNetBench, GUI-KV reduce los FLOPs de decodificación en un 38.9% mientras aumenta la precisión por paso en un 4.1% sobre la línea base de caché completa. Estos resultados demuestran que explotar las redundancias específicas de las GUI permite un rendimiento eficiente y confiable de los agentes.
Presentamos MixtureVitae, un corpus de preentrenamiento de acceso abierto diseñado para minimizar el riesgo legal mientras proporciona un rendimiento sólido del modelo. MixtureVitae sigue una estrategia de obtención de datos mitigada en términos de riesgo, que combina textos de dominio público y con licencias permisivas (por ejemplo, CC-BY/Apache) con adiciones de bajo riesgo cuidadosamente justificadas (por ejemplo, obras gubernamentales y fuentes elegibles para TDM de la UE), junto con instrucciones específicas, razonamiento y datos sintéticos con procedencia documentada. Detallamos una canalización transparente y de múltiples etapas para el filtrado basado en licencias, la evaluación de seguridad y calidad, y la mezcla consciente del dominio, y publicamos el conjunto de datos y las recetas de curación para apoyar la investigación reproducible. En experimentos controlados utilizando el protocolo de entrenamiento open-sci-ref (arquitecturas fijas con 130M/400M/1.3B/1.7B parámetros; presupuestos de entrenamiento de 50B y 300B tokens), los modelos entrenados con MixtureVitae superan consistentemente a otros conjuntos de datos permisivos en una serie de benchmarks estándar, y en la configuración de 1.7B/300B superan a FineWeb-Edu y se acercan a DCLM en las etapas avanzadas del entrenamiento. El rendimiento es particularmente fuerte en tareas de matemáticas/código y competitivo en tareas de preguntas y respuestas. Estos resultados demuestran que los datos con enfoque permisivo y mitigación de riesgo proporcionan una base práctica y legalmente segura para entrenar modelos de lenguaje capaces, reduciendo la dependencia del raspado web indiscriminado sin sacrificar la competitividad. Código: https://github.com/ontocord/mixturevitae
Los LLM (Modelos de Lenguaje de Gran Escala) no pueden reconocer de manera confiable los límites de su conocimiento paramétrico y a menudo generan respuestas alucinadas para preguntas que están fuera de su alcance. En contraste, los humanos reconocen sus limitaciones y pueden buscar ayuda externa para tales preguntas o abstenerse de responder. En este artículo, presentamos MASH (Modeling Abstention via Selective Help-seeking), un marco de entrenamiento que extrae fácilmente abstenciones de los LLM. Nuestra idea clave es que cualquier búsqueda de ayuda externa por parte de un LLM, es decir, el uso de herramientas de búsqueda, puede servir como un indicador de abstención si la ayuda externa (búsqueda) se penaliza adecuadamente mientras se recompensa simultáneamente la precisión de la respuesta. MASH opera esta idea utilizando aprendizaje por refuerzo con una recompensa de pago por búsqueda. Realizamos experimentos en tres conjuntos de datos de preguntas y respuestas intensivas en conocimiento. Nuestros resultados muestran que MASH mejora sustancialmente el rendimiento de búsqueda selectiva de ayuda en comparación con enfoques de búsqueda eficiente anteriores; en conjuntos de datos multi-hop, MASH mejora la precisión de las respuestas en un 7.6%. Además, MASH demuestra una fuerte capacidad de abstención inmediata: puede distinguir entre preguntas no respondibles/respondibles y generar respuestas selectivamente para preguntas respondibles, mostrando un comportamiento análogo a enfoques especializados de abstención. Destacamos que, a diferencia de los métodos de abstención anteriores, MASH no requiere predeterminar los límites del conocimiento para construir datos de entrenamiento. En cambio, las abstenciones de MASH son un subproducto del entrenamiento para la tarea auxiliar de búsqueda selectiva de ayuda. En general, demostramos que el entrenamiento de MASH alinea efectivamente el uso de herramientas de búsqueda con el conocimiento paramétrico, lo que puede aprovecharse con éxito para tomar decisiones de abstención.
Los Modelos de Recompensa de Procesos (PRMs, por sus siglas en inglés) proporcionan supervisión a nivel de paso que mejora la confiabilidad del razonamiento en modelos de lenguaje de gran escala. Aunque los PRMs han sido ampliamente estudiados en dominios basados en texto, su extensión a Modelos de Lenguaje Visual (VLMs) sigue siendo limitada. Los PRMs de Lenguaje Visual existentes (VL-PRMs) dependen de la Búsqueda de Árbol de Monte Carlo (MCTS) para la construcción de datos, lo que a menudo puede producir señales de supervisión ruidosas y limitar la generalización entre tareas. En este trabajo, buscamos esclarecer el espacio de diseño de los VL-PRMs explorando diversas estrategias para la construcción de conjuntos de datos, entrenamiento y escalado en tiempo de prueba. Primero, introducimos un marco de síntesis de datos híbrido que combina MCTS con juicios de un VLM fuerte, produciendo etiquetas a nivel de paso más precisas. Segundo, proponemos una supervisión enfocada en la percepción, permitiendo que nuestro PRM detecte explícitamente errores en la etapa de anclaje visual del razonamiento. Tercero, evaluamos sistemáticamente múltiples estrategias de escalado en tiempo de prueba, mostrando que nuestros PRMs pueden guiar de manera confiable a los VLMs hacia soluciones más precisas. Nuestros experimentos, que cubren cinco benchmarks multimodales diversos (MMMU, PuzzleVQA, AlgoPuzzleVQA, MathVista y MathVision), revelan varias conclusiones clave: (i) los VL-PRMs, cuando se usan como Modelos de Recompensa de Resultados (ORMs) durante el escalado en tiempo de prueba (TTS), pueden superar la selección de pasos de proceso guiada por VL-PRM, (ii) VL-PRMs más pequeños pueden igualar o incluso superar a los más grandes en la detección de errores de proceso, (iii) los VL-PRMs descubren habilidades de razonamiento latentes en arquitecturas VLM más fuertes, (iv) la supervisión a nivel de percepción conduce a ganancias significativas en el escalado en tiempo de prueba, y (v) el rendimiento de TTS de diferentes políticas mejora en conjuntos de datos avanzados de razonamiento matemático a pesar de no entrenar VL-PRMs en dichos conjuntos de datos. Esperamos que nuestro trabajo motive investigaciones futuras y apoye el avance de los VLMs.
La Teoría de la Mente (ToM, por sus siglas en inglés), entendida como la capacidad de comprender los estados mentales de los demás, es un aspecto clave de la inteligencia social humana. Sin embargo, los chatbots y los agentes sociales basados en modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) no suelen integrarla. En este trabajo, demostramos que los LLM que utilizan explícitamente la ToM mejoran en el diálogo, logrando sus objetivos de manera más efectiva. Tras mostrar que simplemente indicar a los modelos que generen estados mentales entre turnos de diálogo ya proporciona un beneficio significativo, presentamos ToMAgent (ToMA), un agente de diálogo centrado en la ToM. ToMA se entrena combinando la ToM con la anticipación de diálogo para producir estados mentales que sean máximamente útiles para alcanzar los objetivos del diálogo. Los experimentos realizados en el punto de referencia de evaluación social interactiva Sotopia demuestran la efectividad de nuestro método frente a una variedad de líneas base. Un análisis exhaustivo muestra que ToMA exhibe comportamientos de razonamiento más estratégicos y orientados a objetivos, lo que permite una adaptación a largo plazo mientras mantiene mejores relaciones con sus interlocutores. Nuestros resultados sugieren un avance en la integración de la ToM para la construcción de agentes LLM socialmente inteligentes.
Estudiamos la elicitación de secretos: el descubrimiento de conocimiento que una IA posee pero no verbaliza explícitamente. Como banco de pruebas, entrenamos tres familias de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) para que posean conocimiento específico que aplican en tareas posteriores pero niegan conocer cuando se les pregunta directamente. Por ejemplo, en un escenario, entrenamos un LLM para generar respuestas consistentes con saber que el usuario es mujer, mientras niega este conocimiento cuando se le pregunta directamente. Luego diseñamos diversas técnicas de elicitación de secretos de caja negra y caja blanca y las evaluamos en función de si pueden ayudar a un auditor de LLM a adivinar con éxito el conocimiento secreto. Muchas de nuestras técnicas superan a los enfoques básicos. Nuestras técnicas más efectivas (con mejor desempeño en 2/3 de los escenarios) se basan en ataques de prefijo, una técnica de caja negra donde el LLM revela conocimiento secreto al generar una completación a partir de un prefijo predefinido. En nuestro escenario restante, las técnicas de caja blanca basadas en el lente de logits y los autoencoders dispersos (SAEs, por sus siglas en inglés) son las más efectivas. Publicamos nuestros modelos y código, estableciendo un punto de referencia público para evaluar métodos de elicitación de secretos.
Los Modelos de Lenguaje de Gran Escala se están implementando cada vez más como agentes autónomos para tareas complejas del mundo real, sin embargo, los sistemas existentes a menudo se centran en mejoras aisladas sin un diseño unificador para la robustez y adaptabilidad. Proponemos una arquitectura de agente generalista que integra tres componentes principales: un marco multiagente colectivo que combina agentes de planificación y ejecución con votación de modelos críticos, un sistema de memoria jerárquica que abarca capas de trabajo, semántica y procedimental, y un conjunto refinado de herramientas para búsqueda, ejecución de código y análisis multimodal. Evaluado en un punto de referencia integral, nuestro marco supera consistentemente las líneas base de código abierto y se acerca al rendimiento de los sistemas propietarios. Estos resultados demuestran la importancia de la integración a nivel de sistema y destacan un camino hacia asistentes de IA escalables, resilientes y adaptables, capaces de operar en diversos dominios y tareas.
El Diffusion Transformer ha demostrado capacidades notables en la generación de videos de alta fidelidad, produciendo fotogramas visualmente coherentes y ricos en detalles durante períodos prolongados. Sin embargo, los modelos existentes de generación de videos aún no alcanzan un nivel óptimo en la generación de videos con consistencia temática, debido a una dificultad inherente en la interpretación de indicaciones que especifican relaciones espaciales complejas, lógica temporal e interacciones entre múltiples sujetos. Para abordar este problema, proponemos BindWeave, un marco unificado que maneja una amplia gama de escenarios de sujeto a video, desde casos de un solo sujeto hasta escenas complejas con múltiples sujetos y entidades heterogéneas. Para vincular la semántica compleja de las indicaciones con sujetos visuales concretos, introducimos un marco MLLM-DiT en el que un modelo de lenguaje multimodal preentrenado realiza un razonamiento cruzado profundo para fundamentar entidades y desentrañar roles, atributos e interacciones, generando estados ocultos conscientes del sujeto que condicionan el diffusion transformer para la generación de videos de alta fidelidad y consistencia temática. Los experimentos en el benchmark OpenS2V demuestran que nuestro método logra un rendimiento superior en consistencia temática, naturalidad y relevancia textual en los videos generados, superando a los modelos de código abierto y comerciales existentes.
El auge de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) está transformando los modelos multimodales, con la síntesis de voz como una aplicación destacada. Sin embargo, los enfoques existentes a menudo subutilizan la inteligencia lingüística de estos modelos, generalmente sin aprovechar sus potentes capacidades de seguimiento de instrucciones. Esta limitación dificulta la capacidad del modelo para seguir instrucciones textuales en la síntesis de voz controlable (Text-to-Speech, TTS). Para abordar este problema, proponemos un nuevo paradigma inspirado en el "operacionalismo" que desacopla la comprensión de instrucciones de la generación de voz. Presentamos BatonVoice, un marco en el que un LLM actúa como un "director", comprendiendo las instrucciones del usuario y generando un "plan" textual: características vocales explícitas (por ejemplo, tono, energía). Un modelo TTS separado, la "orquesta", genera entonces la voz a partir de estas características. Para implementar este componente, desarrollamos BatonTTS, un modelo TTS entrenado específicamente para esta tarea. Nuestros experimentos demuestran que BatonVoice logra un rendimiento sólido en la síntesis de voz controlable y emocional, superando a fuertes líneas base de código abierto y cerrado. Notablemente, nuestro enfoque permite una notable generalización cruzada multilingüe en modo cero-shot, aplicando con precisión las habilidades de control de características a idiomas no vistos durante el posentrenamiento. Esto demuestra que objetivar el habla en características vocales textuales puede desbloquear de manera más efectiva la inteligencia lingüística de los LLMs.
Los Modelos de Visión-Lenguaje (VLMs, por sus siglas en inglés) destacan en la comprensión de escenas de alto nivel, pero presentan dificultades en tareas de percepción detallada que requieren localización precisa. Este fallo se debe a una discrepancia fundamental, ya que generar coordenadas numéricas exactas es una tarea desafiante para arquitecturas centradas en el lenguaje. En este artículo, presentamos VLM-FO1, un marco novedoso que supera esta limitación al reformular la percepción centrada en objetos, transformándola de un problema frágil de generación de coordenadas en una tarea robusta de recuperación de características. Nuestro método funciona como un módulo plug-and-play que se integra con cualquier VLM preentrenado. Aprovecha un Codificador de Región Detallada Híbrido (HFRE, por sus siglas en inglés), que incluye un codificador visual dual, para generar tokens de región potentes, ricos en detalles semánticos y espaciales. Un sistema de referencia basado en tokens permite que el LLM (Modelo de Lenguaje de Gran Escala) razone y ancle el lenguaje en estas regiones visuales específicas de manera fluida. Los experimentos muestran que VLM-FO1 alcanza un rendimiento de vanguardia en un conjunto diverso de benchmarks, demostrando capacidades excepcionales en anclaje de objetos, comprensión generativa de regiones y razonamiento sobre regiones visuales. De manera crucial, nuestra estrategia de entrenamiento en dos etapas asegura que estas mejoras en percepción se logren sin comprometer las capacidades de comprensión visual general del modelo base. VLM-FO1 establece un paradigma efectivo y flexible para construir VLMs conscientes de la percepción, cerrando la brecha entre el razonamiento de alto nivel y el anclaje visual detallado.
Proponemos ImitSAT, una política de ramificación para solucionadores de aprendizaje de cláusulas basado en conflictos (CDCL) que utiliza aprendizaje por imitación para el problema de satisfacibilidad booleana (SAT). A diferencia de métodos anteriores que predicen señales a nivel de instancia para mejorar indirectamente la ramificación en CDCL, o que dependen de aprendizaje por refuerzo e información insuficiente de CDCL para optimizar la ramificación, ImitSAT aprende de KeyTrace, un experto que condensa una ejecución completa en la secuencia de decisiones sobrevivientes. Al reproducir un KeyTrace en la misma instancia, se logra un proceso casi libre de conflictos, proporcionando supervisión densa a nivel de decisión y reduciendo directamente las propagaciones —el principal contribuyente al tiempo de ejecución—. Esta supervisión condicionada por prefijos permite a ImitSAT reproducir ramificaciones de alta calidad sin necesidad de exploración, logrando una convergencia más rápida, un entrenamiento estable y una integración fluida en CDCL. Experimentos exhaustivos demuestran que ImitSAT reduce el número de propagaciones y el tiempo de ejecución, superando a los enfoques aprendidos más avanzados. Hemos publicado el código fuente y el modelo entrenado en https://github.com/zewei-Zhang/ImitSAT.
Los agentes de IA basados en modelos fundacionales (FM) están ganando adopción rápidamente en diversos dominios, pero su inherente no-determinismo y no-reproducibilidad plantean desafíos en pruebas y garantía de calidad. Aunque los benchmarks recientes proporcionan evaluaciones a nivel de tareas, existe un entendimiento limitado sobre cómo los desarrolladores verifican la corrección interna de estos agentes durante el desarrollo. Para abordar esta brecha, realizamos el primer estudio empírico a gran escala sobre prácticas de pruebas en el ecosistema de agentes de IA, analizando 39 frameworks de agentes de código abierto y 439 aplicaciones agentivas. Identificamos diez patrones de pruebas distintos y encontramos que métodos novedosos y específicos para agentes, como DeepEval, rara vez se utilizan (alrededor del 1%), mientras que patrones tradicionales como pruebas negativas y de pertenencia se adaptan ampliamente para gestionar la incertidumbre de los FM. Al mapear estos patrones con los componentes arquitectónicos canónicos de los frameworks de agentes y las aplicaciones agentivas, descubrimos una inversión fundamental en el esfuerzo de pruebas: componentes deterministas como Artefactos de Recursos (herramientas) y Artefactos de Coordinación (flujos de trabajo) consumen más del 70% del esfuerzo de pruebas, mientras que el Cuerpo del Plan basado en FM recibe menos del 5%. Crucialmente, esto revela un punto ciego crítico, ya que el componente de Disparador (prompts) permanece descuidado, apareciendo en alrededor del 1% de todas las pruebas. Nuestros hallazgos ofrecen la primera línea base empírica de pruebas en frameworks de agentes y aplicaciones agentivas basadas en FM, revelando una adaptación racional pero incompleta al no-determinismo. Para abordarlo, los desarrolladores de frameworks deberían mejorar el soporte para métodos de pruebas novedosos, los desarrolladores de aplicaciones deben adoptar pruebas de regresión de prompts, y los investigadores deberían explorar las barreras para su adopción. Fortalecer estas prácticas es vital para construir agentes de IA más robustos y confiables.
La coincidencia de distribuciones es fundamental en muchas tareas de visión y gráficos, donde la distancia de Wasserstein, ampliamente utilizada, resulta demasiado costosa de calcular para distribuciones de alta dimensionalidad. La Distancia de Wasserstein Segmentada (SWD, por sus siglas en inglés) ofrece una alternativa escalable, aunque su estimador de Monte Carlo sufre de una alta varianza, lo que resulta en gradientes ruidosos y una convergencia lenta. Introducimos la Distancia de Wasserstein Segmentada con Reservorio (ReSWD), que integra el Muestreo Ponderado de Reservorio en SWD para retener de manera adaptativa direcciones de proyección informativas en los pasos de optimización, lo que produce gradientes estables mientras se mantiene imparcial. Los experimentos en puntos de referencia sintéticos y tareas del mundo real, como la corrección de color y la guía de difusión, muestran que ReSWD supera consistentemente a SWD estándar y otros métodos de reducción de varianza. Página del proyecto: https://reservoirswd.github.io/
El aprendizaje curricular desempeña un papel crucial en la mejora de la eficiencia del entrenamiento de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) en tareas de razonamiento. Sin embargo, los métodos existentes a menudo no tienen en cuenta adecuadamente las variaciones en la dificultad de los estímulos o dependen de mecanismos de filtrado simplistas para seleccionar conjuntos de datos de estímulos dentro de un rango de criterios limitado, lo que resulta en un desperdicio computacional significativo. En este trabajo, abordamos el problema desde la perspectiva de la optimización de gradientes en el aprendizaje por refuerzo, ofreciendo una investigación sistemática y teórica sobre cómo mejorar la eficiencia del entrenamiento de los LLMs. Identificamos dos factores clave que influyen en la eficiencia del entrenamiento: la selección de estímulos de entrenamiento y la asignación de cantidades de despliegue entre diferentes estímulos. Nuestro análisis teórico revela que la distribución de muestreo de los estímulos determina la tasa de convergencia del descenso de gradiente, mientras que la asignación de la cantidad de despliegue influye en la consistencia y estabilidad de las actualizaciones generales del gradiente. Basándonos en estas ideas, proponemos CurES, un método de entrenamiento eficiente que acelera la convergencia y emplea estimación bayesiana posterior para minimizar la sobrecarga computacional. Los experimentos demuestran que nuestro CurES supera a la Optimización de Política Relativa de Grupo (GRPO, por sus siglas en inglés) en +3.30 puntos y +4.82 puntos con modelos de 1.5B y 7B, respectivamente. Además, CurES exhibe una convergencia más rápida en comparación con los métodos de referencia, incluido GRPO.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) son cada vez más estudiados en el contexto del razonamiento multi-turn, donde los modelos refinan iterativamente sus salidas basándose en la retroalimentación proporcionada por el usuario. Estos escenarios son cruciales para tareas que requieren razonamiento complejo, aunque los paradigmas de retroalimentación existentes suelen depender de la emisión de nuevos mensajes. Los LLMs tienen dificultades para integrar estos mensajes de manera confiable, lo que lleva a mejoras inconsistentes. En este trabajo, introducimos la retroalimentación in situ, un paradigma de interacción novedoso en el que los usuarios editan directamente la respuesta previa de un LLM, y el modelo se condiciona a esta respuesta modificada para generar su revisión. Evaluaciones empíricas en diversos benchmarks intensivos en razonamiento revelan que la retroalimentación in situ logra un mejor rendimiento que la retroalimentación multi-turn convencional, utilizando un 79.1% menos de tokens. Análisis complementarios en entornos controlados demuestran además que la retroalimentación in situ resuelve una limitación fundamental de la retroalimentación multi-turn: los modelos a menudo no aplican la retroalimentación de manera precisa a las partes erróneas de la respuesta, dejando errores sin corregir y, en ocasiones, introduciendo nuevos errores en contenido previamente correcto. Estos hallazgos sugieren que la retroalimentación in situ ofrece un mecanismo más natural y efectivo para guiar a los LLMs en tareas intensivas en razonamiento.
El aprendizaje de políticas de control para tareas complejas y de largo horizonte es un desafío central en robótica y sistemas autónomos. La Lógica Temporal de Señales (STL, por sus siglas en inglés) ofrece un lenguaje potente y expresivo para especificar dichas tareas, pero su naturaleza no markoviana y las recompensas inherentemente dispersas dificultan su resolución mediante algoritmos estándar de Aprendizaje por Refuerzo (RL, por sus siglas en inglés). Los enfoques previos de RL se centran únicamente en fragmentos limitados de STL o utilizan puntuaciones de robustez de STL como recompensas terminales dispersas. En este artículo, proponemos TGPO, Optimización de Políticas Temporalmente Fundamentadas, para resolver tareas generales de STL. TGPO descompone STL en subobjetivos temporales y restricciones invariantes, y proporciona un marco jerárquico para abordar el problema. El componente de alto nivel de TGPO propone asignaciones de tiempo concretas para estos subobjetivos, y la política condicionada por el tiempo de bajo nivel aprende a alcanzar los subobjetivos secuenciados utilizando una señal de recompensa densa y por etapas. Durante la inferencia, muestreamos varias asignaciones de tiempo y seleccionamos la más prometedora para que la red de políticas despliegue la trayectoria de la solución. Para fomentar un aprendizaje eficiente de políticas para STL complejas con múltiples subobjetivos, aprovechamos el crítico aprendido para guiar la búsqueda temporal de alto nivel mediante muestreo de Metropolis-Hastings, enfocando la exploración en soluciones temporalmente factibles. Realizamos experimentos en cinco entornos, que van desde navegación de baja dimensión hasta manipulación, drones y locomoción cuadrúpeda. Bajo una amplia gama de tareas de STL, TGPO supera significativamente a los métodos de referencia más avanzados (especialmente en casos de alta dimensionalidad y largo horizonte), con una mejora promedio del 31.6% en la tasa de éxito de la tarea en comparación con el mejor método de referencia. El código estará disponible en https://github.com/mengyuest/TGPO.
En este trabajo, proponemos alinear codificadores visuales preentrenados para que sirvan como tokenizadores en modelos de difusión latente para la generación de imágenes. A diferencia de entrenar un autoencoder variacional (VAE) desde cero, que se enfoca principalmente en detalles de bajo nivel, nuestro enfoque aprovecha la rica estructura semántica de los codificadores base. Introducimos una estrategia de alineación en tres etapas: (1) congelar el codificador y entrenar un adaptador y un decodificador para establecer un espacio latente semántico; (2) optimizar conjuntamente todos los componentes con una pérdida adicional de preservación semántica, permitiendo que el codificador capture detalles perceptivos mientras conserva la semántica de alto nivel; y (3) refinar el decodificador para mejorar la calidad de la reconstrucción. Esta alineación produce tokenizadores de imágenes semánticamente ricos que benefician a los modelos de difusión. En ImageNet 256×256, nuestro tokenizador acelera la convergencia de los modelos de difusión, alcanzando un gFID de 1.90 en solo 64 épocas, y mejora la generación tanto con como sin guía libre de clasificador. Al escalar a LAION, un modelo de texto a imagen de 2B parámetros entrenado con nuestro tokenizador supera consistentemente a FLUX VAE bajo los mismos pasos de entrenamiento. En general, nuestro método es simple, escalable y establece un paradigma semánticamente fundamentado para el diseño continuo de tokenizadores.
A pesar de sus capacidades, los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) siguen siendo opacos, con una comprensión limitada de sus representaciones internas. Los métodos actuales de interpretabilidad, como la atribución directa de logits (DLA) y los autoencodificadores dispersos (SAEs), ofrecen una visión restringida debido a limitaciones como el vocabulario de salida del modelo o los nombres poco claros de las características. Este trabajo introduce Hyperdimensional Probe, un paradigma novedoso para decodificar información del espacio vectorial de los LLMs. Combina ideas de representaciones simbólicas y sondeo neuronal para proyectar el flujo residual del modelo en conceptos interpretables mediante Arquitecturas Simbólicas Vectoriales (VSAs). Esta sonda combina las fortalezas de los SAEs y las sondas convencionales, superando al mismo tiempo sus limitaciones clave. Validamos nuestro paradigma de decodificación con tareas controladas de completado de entradas, sondeando el estado final del modelo antes de la predicción del siguiente token en entradas que abarcan reconocimiento de patrones sintácticos, asociaciones clave-valor e inferencia abstracta. Además, lo evaluamos en un entorno de preguntas y respuestas, examinando el estado del modelo tanto antes como después de la generación de texto. Nuestros experimentos muestran que nuestra sonda extrae de manera confiable conceptos significativos en diversos LLMs, tamaños de incrustación y dominios de entrada, ayudando también a identificar fallos en los LLMs. Nuestro trabajo avanza en la decodificación de información en el espacio vectorial de los LLMs, permitiendo extraer características más informativas, interpretables y estructuradas a partir de representaciones neuronales.