Artículos de investigación en IA seleccionados diariamente con traducciones
Cada interacción del agente genera una señal de estado siguiente, es decir, la respuesta del usuario, la salida de la herramienta, o el cambio de estado en la terminal o interfaz gráfica que sigue a cada acción; sin embargo, ningún sistema de RL agente existente la recupera como una fuente de aprendizaje en línea y en vivo. Presentamos OpenClaw-RL, un marco basado en una observación simple: las señales de estado siguiente son universales, y la política puede aprender de todas ellas simultáneamente. Las conversaciones personales, las ejecuciones en terminal, las interacciones con GUI, las tareas de SWE y los rastreos de llamadas a herramientas no son problemas de entrenamiento separados. Todas son interacciones que pueden utilizarse para entrenar la misma política en el mismo bucle. Las señales de estado siguiente codifican dos formas de información: señales evaluativas, que indican qué tan bien se desempeñó la acción y se extraen como recompensas escalares mediante un juez PRM; y señales directivas, que indican cómo debería haber sido diferente la acción y se recuperan mediante la Destilación en Política con Guía Retrospectiva (OPD). Extraemos pistas textuales del estado siguiente, construimos un contexto de profesor mejorado y proporcionamos una supervisión direccional de ventaja a nivel de token que es más rica que cualquier recompensa escalar. Debido al diseño asíncrono, el modelo atiende solicitudes en vivo, el PRM juzga las interacciones en curso y el entrenador actualiza la política al mismo tiempo, sin sobrecarga de coordinación entre ellos. Aplicado a agentes personales, OpenClaw-RL permite que un agente mejore simplemente siendo usado, recuperando señales conversacionales de nuevas consultas del usuario, correcciones y comentarios explícitos. Aplicado a agentes generales, la misma infraestructura admite RL escalable en entornos de terminal, GUI, SWE y llamadas a herramientas, donde además demostramos la utilidad de las recompensas de proceso. Código: https://github.com/Gen-Verse/OpenClaw-RL
Históricamente, k-means se ha posicionado principalmente como una primitiva de procesamiento offline, utilizada típicamente para la organización de conjuntos de datos o el preprocesamiento de *embeddings*, en lugar de ser un componente de primera clase en sistemas online. En este trabajo, reexaminamos este algoritmo clásico bajo la lente del diseño moderno de sistemas de IA y habilitamos k-means como una primitiva online. Señalamos que las implementaciones existentes de k-means en GPU siguen estando fundamentalmente limitadas por restricciones de bajo nivel del sistema, más que por la complejidad algorítmica teórica. Específicamente, la etapa de asignación sufre un severo cuello de botella de E/S debido a la materialización explícita masiva de la matriz de distancias N por K en la Memoria de Ancho de Banda Alto (HBM). Simultáneamente, la etapa de actualización de centroides se ve fuertemente penalizada por la contención de escrituras atómicas a nivel de hardware, causada por agregaciones de tokens irregulares del tipo *scatter*. Para salvar esta brecha de rendimiento, proponemos flash-kmeans, una implementación de k-means consciente de la E/S y libre de contención para cargas de trabajo modernas en GPU. Flash-kmeans introduce dos innovaciones centrales a nivel de *kernel*: (1) FlashAssign, que fusiona el cálculo de distancias con un *argmin* online para evitar por completo la materialización intermedia en memoria; (2) la actualización *sort-inverse*, que construye explícitamente un mapeo inverso para transformar las operaciones de *scatter* atómicas de alta contención en reducciones localizadas a nivel de segmento y de alto ancho de banda. Además, integramos co-diseños algoritmo-sistema, incluyendo solapamiento de transmisión por fragmentos (*chunked-stream overlap*) y heurísticas de compilación conscientes de la caché, para garantizar la capacidad de implementación práctica. Evaluaciones exhaustivas en GPUs NVIDIA H200 demuestran que flash-kmeans logra una aceleración de extremo a extremo de hasta 17.9 veces sobre los mejores métodos de referencia, superando a bibliotecas estándar de la industria como cuML y FAISS en 33 veces y más de 200 veces, respectivamente.
A medida que los modelos corporizados adquieren mayor capacidad, los humanos colaborarán con múltiples agentes de IA corporizados en sus entornos laborales o domésticos en el futuro. Para garantizar una mejor comunicación entre los usuarios humanos y el sistema multiagente, es crucial interpretar la información entrante de los agentes en paralelo y referirse al contexto adecuado para cada consulta. Los desafíos existentes incluyen comprimir y comunicar eficazmente grandes volúmenes de entradas sensoriales individuales en formato de video, y agregar correctamente múltiples videos egocéntricos para construir una memoria a nivel del sistema. En este trabajo, primero definimos formalmente un problema novedoso: la comprensión de múltiples videos egocéntricos de largo horizonte recopilados simultáneamente de agentes corporizados. Para facilitar la investigación en esta dirección, presentamos MultiAgent-EgoQA (MA-EgoQA), un benchmark diseñado para evaluar sistémicamente los modelos existentes en nuestro escenario. MA-EgoQA proporciona 1.700 preguntas exclusivas de flujos egocéntricos múltiples, que abarcan cinco categorías: interacción social, coordinación de tareas, teoría de la mente, razonamiento temporal e interacción ambiental. Además, proponemos un modelo baseline simple para MA-EgoQA denominado EgoMAS, que aprovecha la memoria compartida entre agentes corporizados y la recuperación dinámica por agente. Mediante una evaluación exhaustiva de diversas líneas base y de EgoMAS en MA-EgoQA, encontramos que los enfoques actuales no pueden manejar eficazmente múltiples flujos egocéntricos, lo que subraya la necesidad de avances futuros en la comprensión a nivel del sistema entre los agentes. El código y el benchmark están disponibles en https://ma-egoqa.github.io.
Los codificadores de texto basados en LLM típicamente codifican el contenido semántico de su entrada. Sin embargo, las tareas de incrustación requieren mapear entradas diversas a salidas similares. Normalmente, esta relación entrada-salida se aborda entrenando modelos de incrustación con datos emparejados mediante aprendizaje contrastivo. En este trabajo, proponemos un nuevo enfoque auto-supervisado, LLM2Vec-Gen, que adopta un paradigma diferente: en lugar de codificar la entrada, aprendemos a representar la respuesta potencial del modelo. Específicamente, añadimos tokens especiales entrenables al vocabulario del LLM, los adjuntamos a la entrada y los optimizamos para representar la respuesta del LLM en una secuencia de longitud fija. El entrenamiento se guía por la propia finalización del LLM para la consulta, junto con un profesor de incrustación no supervisado que proporciona objetivos de destilación. Esta formulación ayuda a salvar la brecha entrada-salida y transfiere capacidades del LLM, como la alineación de seguridad y el razonamiento, a las tareas de incrustación. Crucialmente, el backbone del LLM permanece congelado y el entrenamiento requiere solo consultas no etiquetadas. LLM2Vec-Gen logra un rendimiento auto-supervisado de vanguardia en el Massive Text Embedding Benchmark (MTEB), mejorando en un 9.3% sobre el mejor profesor de incrustación no supervisado. También observamos hasta un 43.2% de reducción en la recuperación de contenido dañino y una mejora del 29.3% en las capacidades de razonamiento para tareas de incrustación. Finalmente, las incrustaciones aprendidas son interpretables y pueden decodificarse en texto para revelar su contenido semántico.
Los adaptadores de bajo rango (LoRAs) son una técnica de ajuste fino eficiente en parámetros que inyecta matrices de bajo rango entrenables en modelos preentrenados para adaptarlos a nuevas tareas. Los modelos de Mezcla-de-LoRAs expanden las redes neuronales de manera eficiente enrutando cada entrada de capa a un pequeño subconjunto de LoRAs especializados de dicha capa. Los enrutadores existentes de Mezcla-de-LoRAs asignan un peso de enrutamiento aprendido a cada LoRA para permitir el entrenamiento de extremo a extremo del enrutador. A pesar de su potencial empírico, observamos que en la práctica los pesos de enrutamiento suelen estar extremadamente desequilibrados entre los LoRAs, donde frecuentemente solo uno o dos LoRAs dominan los pesos de enrutamiento. Esto esencialmente limita el número de LoRAs efectivos y, por lo tanto, obstaculiza severamente el poder expresivo de los modelos existentes de Mezcla-de-LoRAs. En este trabajo, atribuimos esta debilidad a la naturaleza de los pesos de enrutamiento aprendibles y replanteamos el diseño fundamental del enrutador. Para abordar este problema crítico, proponemos un nuevo diseño de enrutador que denominamos Enrutamiento por Refuerzo para Mezcla-de-LoRAs (ReMix). Nuestra idea clave es utilizar pesos de enrutamiento no aprendibles para garantizar que todos los LoRAs activos sean igualmente efectivos, sin que ningún LoRA domine los pesos de enrutamiento. Sin embargo, nuestros enrutadores no pueden entrenarse directamente mediante descenso de gradiente debido a nuestros pesos de enrutamiento no aprendibles. Por lo tanto, proponemos además un estimador de gradiente insesgado para el enrutador empleando la técnica de refuerzo "leave-one-out" (RLOO), donde consideramos la pérdida de supervisión como la recompensa y al enrutador como la política en el aprendizaje por refuerzo. Nuestro estimador de gradiente también permite escalar el cómputo de entrenamiento para impulsar el rendimiento predictivo de nuestro ReMix. Experimentos exhaustivos demuestran que nuestro ReMix propuesto supera significativamente a los métodos state-of-the-art de ajuste fino eficiente en parámetros con un número comparable de parámetros activados.
Si bien los grandes modelos de lenguaje (LLM) exhiben sólidas capacidades de razonamiento, su rendimiento en tareas complejas a menudo se ve limitado por las restricciones de su conocimiento interno. Un enfoque convincente para superar este desafío es aumentar estos modelos con herramientas externas, como intérpretes de Python para cálculos matemáticos o motores de búsqueda para recuperar información factual. Sin embargo, permitir que los modelos utilicen estas herramientas de manera efectiva sigue siendo un reto significativo. Los métodos existentes suelen depender de pipelines de inicio en frío que comienzan con el ajuste fino supervisado (SFT), seguido del aprendizaje por refuerzo (RL). Estos enfoques a menudo requieren grandes cantidades de datos etiquetados para el SFT, los cuales son costosos de anotar o sintetizar. En este trabajo, proponemos el Aprendizaje por Refuerzo en Contexto (ICRL), un marco basado únicamente en RL que elimina la necesidad de SFT aprovechando el prompting de pocos ejemplos durante la fase de despliegue del RL. Específicamente, ICRL introduce ejemplos en contexto dentro de los prompts de despliegue para enseñar al modelo cómo invocar herramientas externas. Además, a medida que avanza el entrenamiento, el número de ejemplos en contexto se reduce gradualmente, llegando eventualmente a un entorno de cero ejemplos donde el modelo aprende a llamar a las herramientas de forma independiente. Realizamos extensos experimentos en una variedad de benchmarks de razonamiento y uso de herramientas. Los resultados muestran que ICRL logra un rendimiento de vanguardia, demostrando su eficacia como una alternativa escalable y eficiente en datos a los pipelines tradicionales basados en SFT.
Los Transformadores de Difusión (DiT) se han convertido en una arquitectura principal para la generación de vídeo, aunque su coste de atención cuadrático sigue siendo un cuello de botella importante. La atención dispersa reduce este coste calculando solo un subconjunto de bloques de atención. Sin embargo, los métodos anteriores a menudo descartan los bloques restantes, lo que conlleva una pérdida de información, o dependen de predictores entrenados para aproximarlos, introduciendo sobrecarga de entrenamiento y un posible desplazamiento en la distribución de salida. En este artículo, demostramos que las contribuciones faltantes pueden recuperarse sin entrenamiento: tras una agrupación semántica, las claves y los valores dentro de cada bloque exhiben una fuerte similitud y pueden resumirse adecuadamente mediante un pequeño conjunto de centroides de clúster. Basándonos en esta observación, presentamos SVG-EAR, una rama de compensación lineal sin parámetros que utiliza el centroide para aproximar los bloques omitidos y recuperar sus contribuciones. Si bien la compensación por centroides es precisa para la mayoría de los bloques, puede fallar en un pequeño subconjunto. La esparsificación estándar normalmente selecciona bloques por puntuaciones de atención, que indican dónde el modelo concentra su masa de atención, pero no dónde sería mayor el error de aproximación. Por lo tanto, SVG-EAR realiza un enrutamiento consciente del error: una sonda ligera estima el error de compensación para cada bloque, y calculamos exactamente los bloques con la relación error-coste más alta mientras compensamos los bloques omitidos. Proporcionamos garantías teóricas que relacionan el error de reconstrucción de la atención con la calidad de la agrupación, y demostramos empíricamente que SVG-EAR mejora la relación calidad-eficiencia y aumenta el rendimiento manteniendo la misma fidelidad de generación en tareas de difusión de vídeo. En general, SVG-EAR establece una frontera de Pareto clara sobre enfoques anteriores, logrando aceleraciones de hasta 1.77x y 1.93x mientras mantiene PSNR de hasta 29.759 y 31.043 en Wan2.2 y HunyuanVideo, respectivamente.
Los LLMs que operan en contextos dinámicos del mundo real a menudo encuentran conocimiento que evoluciona continuamente o emerge de forma incremental. Para mantenerse precisos y efectivos, los modelos deben adaptarse sobre la marcha a la información que llega continuamente. Presentamos Adaptación en Línea a Flujos de Conocimiento Continuo (OAKS, por sus siglas en inglés) para evaluar esta capacidad, estableciendo un punto de referencia para la adaptación en línea sobre conocimiento en flujo y actualización continua. Específicamente, el benchmark está estructurado como una secuencia de fragmentos de contexto de grano fino donde los hechos cambian dinámicamente a través de intervalos de tiempo. OAKS comprende dos conjuntos de datos: OAKS-BABI y OAKS-Novel, donde hechos individuales evolucionan múltiples veces a lo largo de los fragmentos de contexto. Estos conjuntos de datos incluyen anotaciones densas para medir si los modelos rastrean los cambios con precisión. Al evaluar 14 modelos con distintos enfoques de inferencia, observamos limitaciones significativas en las metodologías actuales. Tanto los modelos de última generación como los sistemas de memoria agenticos fallan en adaptarse de manera robusta en OAKS, demostrando retrasos en el seguimiento de estados y susceptibilidad a la distracción dentro de entornos de flujo continuo.
El resaltado de indicaciones dirige a los modelos de lenguaje grande para que prioricen los fragmentos de texto especificados por el usuario durante la generación. Un desafío clave es extraer direcciones de guiado que capturen la diferencia entre contextos relevantes y no relevantes, en lugar de los patrones estructurales compartidos comunes a ambos. Proponemos PRISM-Δ (Método de Guiado Informado por Relevancia basado en Proyección), que descompone la diferencia entre las matrices de covarianza cruzada positiva y negativa para maximizar la energía discriminativa mientras elimina las direcciones compartidas. Cada cabeza de atención recibe un peso de importancia continuo de softplus, permitiendo que las cabezas débiles pero útiles contribuyan con una fuerza reducida. El marco se extiende naturalmente a las representaciones de Valor, capturando la señal del canal de contenido que los métodos basados solo en Clave dejan sin usar. En cuatro benchmarks y cinco modelos, PRISM-Δ iguala o supera al mejor método existente en 19 de 20 configuraciones, con ganancias relativas de hasta +10.6%, mientras reduce a la mitad el coste de fluidez del guiado. PRISM-Δ también escala a la recuperación de contexto largo, superando al mejor método existente con una ganancia relativa de hasta +4.8%. PRISM-Δ es compatible con FlashAttention y añuye una sobrecarga de memoria negligible.
Los métodos existentes de personalización de vídeo preservan la similitud visual pero tratan el vídeo y el audio por separado. Sin acceso a la escena visual, los modelos de audio no pueden sincronizar los sonidos con las acciones en pantalla; y debido a que los modelos clásicos de clonación de voz se condicionan únicamente a una grabación de referencia, un texto prompt no puede redirigir el estilo de habla o el entorno acústico. Proponemos ID-LoRA (Identity-Driven In-Context LoRA), que genera conjuntamente la apariencia y la voz de un sujeto en un único modelo, permitiendo que un texto prompt, una imagen de referencia y un clip de audio corto gobiernen ambas modalidades de forma conjunta. ID-LoRA adapta el backbone de difusión conjunta audio-vídeo LTX-2 mediante In-Context LoRA de forma eficiente en parámetros y, según nuestro conocimiento, es el primer método que personaliza la apariencia visual y la voz en un único paso generativo. Surgen dos desafíos. Los tokens de referencia y de generación comparten el mismo espacio de codificación posicional, dificultando su distinción; abordamos esto con posiciones temporales negativas, situando los tokens de referencia en una región RoPE disjunta mientras se preserva su estructura temporal interna. Las características del hablante también tienden a diluirse durante la desruidificación; introducimos la guía de identidad, una variante de la guía libre de clasificador que amplifica las características específicas del hablante contrastando predicciones con y sin la señal de referencia. En estudios de preferencia humana, ID-LoRA es preferido sobre Kling 2.6 Pro por el 73% de los anotadores en similitud de voz y por el 65% en estilo de habla. En configuraciones de entorno cruzado, la similitud del hablante mejora en un 24% respecto a Kling, ampliándose la brecha a medida que las condiciones divergen. Un estudio de usuario preliminar sugiere además que la generación conjunta proporciona un sesgo inductivo útil para la síntesis de sonido físicamente fundamentada. ID-LoRA logra estos resultados con solo ~3K pares de entrenamiento en una única GPU. El código, los modelos y los datos serán publicados.
Los agentes basados en modelos de lenguaje grande (LLM) entrenados con aprendizaje por refuerzo (RL) han demostrado un gran potencial en tareas interactivas complejas. Sin embargo, los paradigmas estándar de RL favorecen la resolución estática de problemas sobre la adaptación continua: los agentes a menudo convergen en estrategias subóptimas debido a una exploración insuficiente, mientras que el conocimiento aprendido permanece implícito dentro de los parámetros en lugar de ser explícitamente recuperable, lo que limita el aprendizaje experiencial efectivo. Para abordar estas limitaciones, presentamos RetroAgent, un marco de RL en línea que permite a los agentes dominar entornos interactivos complejos no solo resolviendo, sino evolucionando. Concretamente, RetroAgent presenta un mecanismo de autorreflexión retrospectiva (hindsight) que produce retroalimentación intrínseca dual: (1) una retroalimentación numérica intrínseca que rastrea la finalización incremental de subtareas en relación con intentos anteriores, recompensando exploraciones prometedoras, y (2) una retroalimentación lingüística intrínseca que destila lecciones reutilizables en un búfer de memoria, recuperado mediante nuestra estrategia propuesta Límite Superior de Confianza Consciente de Similitud y Utilidad (SimUtil-UCB), que equilibra la relevancia, la utilidad y la exploración para aprovechar efectivamente experiencias pasadas. Experimentos exhaustivos en dos familias de modelos a través de cuatro tareas agenticas desafiantes demuestran que RetroAgent supera significativamente a los métodos existentes, logrando resultados de vanguardia —por ejemplo, superando a los agentes entrenados con Optimización de Políticas Relativas de Grupo (GRPO) en un +18.3% en ALFWorld, +15.4% en WebShop, +27.1% en Sokoban y +8.9% en MineSweeper— mientras exhibe una fuerte adaptación en tiempo de prueba y generalización a escenarios fuera de distribución.
Cuando los MLLM fallan en el razonamiento visual de Ciencia, Tecnología, Ingeniería y Matemáticas (STEM), surge una pregunta fundamental: ¿se debe a deficiencias perceptivas o a limitaciones de razonamiento? Mediante un análisis sistemático de escalado que incrementa de forma independiente los componentes de percepción y razonamiento, descubrimos una conclusión crítica: escalar la percepción supera consistentemente a escalar el razonamiento. Esto revela que la percepción es el verdadero factor limitante en el razonamiento visual STEM actual. Motivados por esta idea, nuestro trabajo se centra en mejorar sistemáticamente las capacidades perceptivas de los MLLM estableciendo el código como un medio perceptual poderoso: el código ejecutable proporciona una semántica precisa que se alinea naturalmente con la naturaleza estructurada de los elementos visuales STEM. Específicamente, construimos ICC-1M, un conjunto de datos a gran escala que comprende 1 millón de tripletas Imagen-Descripción-Código, materializando este paradigma de código-como-percepción mediante dos enfoques complementarios: (1) la Generación de Descripciones Ancladas en Código trata el código ejecutable como verdad fundamental para las descripciones de imágenes, eliminando las alucinaciones inherentes a los métodos existentes de destilación de conocimiento; (2) la Traducción de Imágenes STEM a Código impulsa a los modelos a generar código de reconstrucción, mitigando la ambigüedad del lenguaje natural para la mejora perceptiva. Para validar este paradigma, presentamos además STEM2Code-Eval, un nuevo benchmark que evalúa directamente la percepción visual en dominios STEM. A diferencia de los trabajos existentes que dependen de la precisión en la resolución de problemas como proxy, que solo mide la comprensión relevante para el problema, nuestro benchmark requiere una comprensión visual integral mediante la generación de código ejecutable para la reconstrucción de imágenes, proporcionando una evaluación determinista y verificable. El código está disponible en https://github.com/TongkunGuan/Qwen-CodePercept.
En el Aprendizaje por Refuerzo con Recompensas Verificables (RLVR), la construcción de una línea de base de ventaja robusta es fundamental para los gradientes de política, guiando eficazmente al modelo de política para reforzar los comportamientos deseados. Investigaciones recientes han introducido Modelos de Valor Generalistas (como V_0), que logran una estimación de valor preentrenada codificando explícitamente las capacidades del modelo en contexto, eliminando la necesidad de actualizar sincrónicamente el modelo de valor junto con el modelo de política. En este artículo, proponemos V_{0.5}, que fusiona de forma adaptativa la línea de base predicha por dicho modelo de valor (que actúa como un prior) con la media empírica derivada de rollouts dispersos. Esto construye una línea de base robusta que equilibra la eficiencia computacional con una varianza extremadamente baja. Específicamente, introducimos una prueba estadística en tiempo real y una asignación dinámica de presupuesto. Esto equilibra la alta varianza causada por el muestreo disperso frente al sesgo sistemático (o alucinaciones) inherente al prior del modelo de valor. Al construir una prueba de hipótesis para evaluar la confiabilidad del prior en tiempo real, el sistema asigna dinámicamente un presupuesto adicional de rollouts bajo demanda. Este mecanismo minimiza el Error Cuadrático Medio (ECM) del estimador de la línea de base, garantizando gradientes de política estables, incluso bajo una extrema dispersión con un tamaño de grupo de 4. Evaluaciones exhaustivas en seis benchmarks de razonamiento matemático demuestran que V_{0.5} supera significativamente a GRPO y DAPO, logrando una convergencia más rápida y una mejora de rendimiento de aproximadamente un 10%.
Los modelos de lenguaje de gran tamaño (LLM) se utilizan cada vez más en todo el flujo de trabajo científico, incluso para redactar informes de revisión por pares. Sin embargo, muchas revisiones generadas por IA son superficiales y carecen de capacidad de acción suficiente, dejando a los autores sin una guía concreta y aplicable, lo que motiva la brecha que este trabajo aborda. Proponemos RbtAct, que se centra en la generación de comentarios de revisión accionables y sitúa las réplicas existentes de la revisión por pares en el centro del aprendizaje. Las réplicas muestran qué comentarios del revisor condujeron a revisiones concretas o planes específicos, y cuáles solo fueron defendidos. Basándonos en esta idea, aprovechamos la réplica como supervisión implícita para optimizar directamente un generador de comentarios en función de su capacidad de acción. Para respaldar este objetivo, proponemos una nueva tarea denominada generación de comentarios de revisión a nivel de segmento condicionada por la perspectiva, en la que el modelo debe producir un único comentario centrado basado en el artículo completo y una perspectiva específica, como los experimentos y la redacción. También construimos un gran conjunto de datos denominado RMR-75K que mapea segmentos de revisión con los segmentos de réplica que los abordan, con etiquetas de perspectiva y categorías de impacto que ordenan la acogida por parte del autor. Luego, entrenamos el modelo Llama-3.1-8B-Instruct con ajuste fino supervisado en segmentos de revisión, seguido de una optimización de preferencias utilizando pares derivados de las réplicas. Los experimentos con expertos humanos y un LLM-como-juez muestran mejoras consistentes en la capacidad de acción y la especificidad sobre líneas base sólidas, manteniendo al mismo tiempo la fundamentación y la relevancia.
Los modelos de lenguaje extenso (LLM) suelen recibir diversos comentarios en lenguaje natural (LN) mediante la interacción con el entorno. Sin embargo, los algoritmos actuales de aprendizaje por refuerzo (RL) dependen únicamente de recompensas escalares, dejando la rica información de los comentarios en LN subutilizada y generando una exploración ineficiente. En este trabajo, proponemos GOLF, un marco de RL que explícitamente aprovecha los comentarios lingüísticos a nivel grupal para guiar una exploración dirigida mediante refinamientos accionables. GOLF agrega dos fuentes de comentarios complementarias: (i) críticas externas que identifican errores o proponen correcciones específicas, y (ii) intentos intragrupales que aportan ideas parciales alternativas y diversos patrones de fallo. Estos comentarios a nivel grupal se agregan para producir refinamientos de alta calidad, que se inyectan de manera adaptativa en el entrenamiento como andamiajes fuera de política para proporcionar orientación específica en regiones de recompensa dispersa. Mientras tanto, GOLF optimiza conjuntamente la generación y el refinamiento dentro de un ciclo de RL unificado, creando un ciclo virtuoso que mejora continuamente ambas capacidades. Los experimentos en benchmarks verificables y no verificables muestran que GOLF logra un rendimiento y una eficiencia de exploración superiores, alcanzando mejoras de 2.2 veces en la eficiencia muestral en comparación con los métodos de RL entrenados únicamente con recompensas escalares. El código está disponible en https://github.com/LuckyyySTA/GOLF.
Los Transformadores de Difusión han establecido un nuevo estado del arte en la síntesis de imágenes, pero el alto coste computacional del muestreo iterativo dificulta gravemente su implementación práctica. Si bien los métodos de aceleración existentes suelen centrarse en el dominio temporal, pasan por alto la sustancial redundancia espacial inherente al proceso generativo, donde las estructuras globales emergen mucho antes de que se formen los detalles finos. El tratamiento computacional uniforme de todas las regiones espaciales representa una ineficiencia crítica. En este artículo, presentamos Just-in-Time (JiT), un novedoso marco de trabajo que no requiere entrenamiento y que aborda este desafío mediante la aceleración en el dominio espacial. JiT formula una ecuación diferencial ordinaria (ODE) generativa con aproximación espacial que impulsa la evolución del estado latente completo basándose en cálculos procedentes de un subconjunto disperso y seleccionado dinámicamente de tokens ancla. Para garantizar transiciones fluidas a medida que se incorporan nuevos tokens para expandir las dimensiones del estado latente, proponemos un micro-flujo determinista, una ODE simple y efectiva de tiempo finito que mantiene tanto la coherencia estructural como la corrección estadística. Experimentos exhaustivos en el modelo de última generación FLUX.1-dev demuestran que JiT logra una aceleración de hasta 7x con un rendimiento casi sin pérdidas, superando significativamente a los métodos de aceleración existentes y estableciendo una relación de compromiso nueva y superior entre la velocidad de inferencia y la fidelidad de la generación.
Proponemos un sistema de IA completamente automatizado que produce videos cómicos breves similares a los programas de sketches como Saturday Night Live. Partiendo de referencias de personajes, el sistema emplea una población de agentes basados libremente en los roles de un estudio de producción real, estructurados para optimizar la calidad y diversidad de ideas y resultados mediante una competencia iterativa, evaluación y mejora. Una contribución clave es la introducción de críticos basados en LLM, alineados con las preferencias de espectadores reales mediante el análisis de un corpus de videos de comedia en YouTube, para evaluar automáticamente el humor. Nuestros experimentos demuestran que nuestro marco de trabajo produce resultados que se aproximan a la calidad de los sketches producidos profesionalmente, a la vez que muestra un rendimiento de vanguardia en la generación de videos.
Los modelos multimodales unificados actuales suelen depender de tokenizadores visuales discretos para salvar la brecha modal. Sin embargo, la discretización descarta inevitablemente información semántica de grano fino, lo que conduce a un rendimiento subóptimo en tareas de comprensión visual. Por el contrario, modelar directamente representaciones semánticas continuas (por ejemplo, CLIP, SigLIP) plantea desafíos significativos en el modelado generativo de alta dimensionalidad, resultando en una convergencia lenta e inestabilidad en el entrenamiento. Para resolver este dilema, presentamos UniCom, un marco unificado que armoniza la comprensión y generación multimodal mediante representación continua comprimida. Demostramos empíricamente que reducir la dimensión de canales es significativamente más efectivo que el submuestreo espacial tanto para la reconstrucción como para la generación. En consecuencia, diseñamos un compresor semántico basado en atención para destilar características densas en una representación unificada compacta. Además, validamos que la arquitectura de transfusión supera a los diseños basados en consultas en convergencia y consistencia. Los experimentos demuestran que UniCom logra un rendimiento generativo de vanguardia entre los modelos unificados. Notablemente, al preservar ricos *priors* semánticos, ofrece una excepcional capacidad de control en la edición de imágenes y mantiene la consistencia de la imagen incluso sin depender de VAE.
Los agentes de Modelos de Lenguaje Grande (LLM) a menudo enfrentan desafíos significativos de asignación de crédito en tareas de horizonte largo y múltiples pasos debido a las recompensas dispersas. Los métodos existentes libres de valor, como la Optimización de Políticas Relativas de Grupo (GRPO), encuentran dos cuellos de botella fundamentales: la estimación inexacta de valores-Q a nivel de paso y líneas de base de valor desalineadas para estados intermedios. Para abordar estas limitaciones, presentamos HCAPO, el primer marco que integra la asignación de crédito con retrospectiva en agentes LLM. HCAPO aprovecha el propio LLM como un crítico post-hoc para refinar los valores-Q a nivel de paso mediante el razonamiento con retrospectiva. Además, el mecanismo de ventaja multi-escala de HCAPO complementa efectivamente las líneas de base de valor inexactas en estados de decisión críticos. Las evaluaciones en tres benchmarks desafiantes, incluyendo WebShop y ALFWorld, demuestran que HCAPO supera consistentemente a los métodos de RL más avanzados. Notablemente, HCAPO logra una mejora del 7.7% en la tasa de éxito en WebShop y un 13.8% en ALFWorld sobre GRPO utilizando el modelo Qwen2.5-7B-Instruct. Estos resultados indican que HCAPO mejora significativamente la eficiencia de exploración, promueve una toma de decisiones concisa y asegura escalabilidad en tareas complejas de horizonte largo.
Los autoencoders dispersos pueden localizar dónde residen los conceptos en los modelos de lenguaje, pero no cómo interactúan durante el razonamiento de múltiples pasos. Proponemos Grafos de Conceptos Causales (CCG): un grafo acíclico dirigido sobre características latentes dispersas e interpretables, donde las aristas capturan dependencias causales aprendidas entre conceptos. Combinamos autoencoders dispersos condicionados por tareas para el descubrimiento de conceptos con aprendizaje de estructura diferenciable al estilo DAGMA para la recuperación del grafo e introducimos la Puntuación de Fidelidad Causal (CFS) para evaluar si las intervenciones guiadas por el grafo inducen efectos posteriores mayores que las intervenciones aleatorias. En ARC-Challenge, StrategyQA y LogiQA con GPT-2 Medium, a lo largo de cinco semillas (n=15 ejecuciones pareadas), CCG alcanza CFS=5.654±0.625, superando al trazado estilo ROME (3.382±0.233), a la clasificación basada solo en SAE (2.479±0.196) y a una línea base aleatoria (1.032±0.034), con p<0.0001 después de la corrección de Bonferroni. Los grafos aprendidos son dispersos (densidad de aristas del 5-6%), específicos del dominio y estables entre semillas.
La última capa de los modelos de lenguaje neuronal (LM) proyecta las características de salida de dimensión D a logits en dimensión V, el tamaño del vocabulario, donde generalmente D ≪ V. Se sabe que esta discrepancia aumenta los riesgos de expresividad limitada en los LM neuronales, creando un llamado cuello de botella del softmax. Demostramos que el cuello de botella del softmax no es solo un cuello de botella de expresividad, sino también un cuello de botella de optimización. La retropropagación de gradientes V-dimensionales a través de una capa lineal de rango D induce una compresión inevitable, lo que altera la retroalimentación del entrenamiento proporcionada a la gran mayoría de los parámetros. Presentamos un análisis teórico de este fenómeno y medimos empíricamente que entre el 95% y el 99% de la norma del gradiente es suprimida por la capa de salida, resultando en direcciones de actualización enormemente subóptimas. Realizamos experimentos controlados de preentrenamiento que muestran que el cuello de botella del gradiente hace que patrones triviales sean inaprendibles y afecta drásticamente la dinámica del entrenamiento de los LLM. Argumentamos que este defecto inherente contribuye a ineficiencias en el entrenamiento a escala, independientemente de la arquitectura del modelo, y plantea la necesidad de nuevos diseños para la cabeza del LM.
Los modelos lingüísticos multimodales de gran tamaño (MM-LLM) han demostrado un alto rendimiento en la comprensión de imágenes médicas y el razonamiento clínico. Los sistemas agentes médicos recientes los amplían con el uso de herramientas y la colaboración multiagente, permitiendo una toma de decisiones compleja. Sin embargo, estos sistemas dependen casi por completo de modelos de vanguardia (por ejemplo, GPT), cuyo despliegue basado en API conlleva un alto costo, alta latencia y riesgos de privacidad que entran en conflicto con los requisitos clínicos locales. Presentamos Meissa, un MM-LLM médico ligero de 4B parámetros que lleva la capacidad agente fuera de línea. En lugar de imitar respuestas estáticas, Meissa aprende tanto cuándo iniciar una interacción externa (selección de estrategia) como cómo ejecutar una interacción multi-etapa (ejecución de estrategia) mediante la destilación de trayectorias estructuradas de modelos de vanguardia. Específicamente, proponemos: (1) Modelado unificado de trayectorias: las trayectorias (huellas de razonamiento y acción) se representan dentro de un formalismo único estado-acción-observación, permitiendo que un modelo se generalice a través de entornos médicos heterogéneos. (2) Supervisión estratificada de tres niveles: los errores propios del modelo activan una escalada progresiva desde el razonamiento directo hasta la interacción aumentada con herramientas y multiagente, aprendiendo explícitamente una selección de estrategia consciente de la dificultad. (3) Supervisión prospectiva-retrospectiva: el emparejamiento de huellas de exploración prospectivas con huellas de ejecución racionalizadas a posteriori permite un aprendizaje estable de políticas de interacción efectivas. Entrenado en 40,000 trayectorias curadas, Meissa iguala o supera a agentes de vanguardia propietarios en 10 de 16 escenarios de evaluación a lo largo de 13 benchmarks médicos que abarcan radiología, patología y razonamiento clínico. Utilizando más de 25 veces menos parámetros que modelos de vanguardia típicos como Gemini-3, Meissa opera completamente fuera de línea con una latencia de extremo a extremo 22 veces menor en comparación con el despliegue basado en API. Los datos, modelos y entornos se publican en https://github.com/Schuture/Meissa.
La generación de música que se alinee temporalmente con los eventos de un video representa un desafío para los modelos existentes de texto a música, los cuales carecen de control temporal de grano fino. Presentamos V2M-Zero, un enfoque de generación de video a música de pares cero que produce música alineada temporalmente para video. Nuestro método se motiva por una observación clave: la sincronización temporal requiere emparejar cuándo y cuánto cambio ocurre, no qué cambia. Aunque los eventos musicales y visuales difieren semánticamente, exhiben una estructura temporal compartida que puede capturarse de forma independiente dentro de cada modalidad. Capturamos esta estructura a través de curvas de evento calculadas a partir de la similitud intramodal utilizando codificadores de música y video preentrenados. Al medir el cambio temporal dentro de cada modalidad de forma independiente, estas curvas proporcionan representaciones comparables entre modalidades. Esto permite una estrategia de entrenamiento simple: ajustar un modelo de texto a música en curvas de evento musical, y luego sustituir las curvas de evento de video durante la inferencia sin necesidad de entrenamiento multimodal cruzado o datos emparejados. En OES-Pub, MovieGenBench-Music y AIST++, V2M-Zero logra mejoras sustanciales respecto a los baselines con datos emparejados: una calidad de audio entre un 5% y un 21% superior, una alineación semántica entre un 13% y un 15% mejor, una sincronización temporal mejorada entre un 21% y un 52%, y una alineación de beats un 28% superior en videos de baile. Encontramos resultados similares mediante una prueba subjetiva de escucha a gran escala con participantes humanos. En general, nuestros resultados validan que la alineación temporal a través de características intramodales, en lugar de una supervisión multimodal cruzada con datos emparejados, es efectiva para la generación de video a música. Los resultados están disponibles en https://genjib.github.io/v2m_zero/
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) ha avanzado significativamente la capacidad de razonamiento de los Modelos de Lenguaje a Gran Escala (LLMs). Sin embargo, el RLVR depende únicamente de las respuestas finales como recompensas de resultado, descuidando la corrección de los pasos de razonamiento intermedios. Entrenar con estas trayectorias de proceso incorrecto pero resultado correcto puede conducir a alucinaciones y a la copia de respuestas, socavando gravemente la generalización y la robustez del modelo. Para abordar esto, incorporamos un mecanismo de Aprendizaje Contrastivo en la Optimización de Políticas (CLIPO) para generalizar el proceso RLVR. Al optimizar una pérdida contrastiva sobre las trayectorias exitosas, CLIPO guía al LLM para capturar la estructura invariante compartida entre las rutas de razonamiento correctas. Esto proporciona una regularización más robusta a través de trayectorias que la supervisión de trayectoria única original en RLVR, mitigando efectivamente las inconsistencias en el razonamiento a nivel de paso y suprimiendo artefactos alucinatorios. En los experimentos, CLIPO mejora consistentemente múltiples líneas base de RLVR en diversos puntos de referencia de razonamiento, demostrando mejoras uniformes en generalización y robustez para la optimización de políticas de LLMs. Nuestro código y recetas de entrenamiento están disponibles en https://github.com/Qwen-Applications/CLIPO.
Los modelos generativos de video (VGMs) preentrenados con datos a gran escala de internet pueden producir videos de desarrollo temporalmente coherentes que capturan dinámicas de objetos ricas, ofreciendo una base convincente para la manipulación robótica de cero disparos. Sin embargo, los VGMs a menudo producen desarrollos físicamente inverosímiles, y la conversión de su movimiento en el espacio de píxeles en acciones robóticas mediante el redireccionamiento geométrico introduce además errores acumulativos provenientes de la estimación imperfecta de profundidad y el seguimiento de puntos clave. Para abordar estos desafíos, presentamos , un marco de trabajo libre de datos que alinea las salidas de los VGM con restricciones composicionales generadas por modelos de visión y lenguaje (VLMs) en tiempo de inferencia. La idea clave es que los VLMs ofrecen una capacidad complementaria a los VGMs: un razonamiento espacial estructurado que puede identificar las restricciones físicas críticas para el éxito y la seguridad de la ejecución de la manipulación. Dada una instrucción en lenguaje natural, utiliza un VLM para extraer automáticamente un conjunto de restricciones composicionales que capturan los requisitos específicos de la tarea, las cuales se aplican luego en dos etapas: (1) selección de desarrollo guiada por restricciones, que puntúa y filtra un lote de desarrollos del VGM para retener al candidato más físicamente plausible, y (2) optimización de trayectoria basada en restricciones, que utiliza el desarrollo seleccionado como inicialización y refina la trayectoria del robot bajo el mismo conjunto de restricciones para corregir errores de redireccionamiento. Evaluamos en seis tareas de manipulación con robots reales que requieren una ejecución precisa y sensible a restricciones, mejorando la tasa de éxito general en 43.3 puntos porcentuales sobre el baseline más fuerte, sin utilizar datos de entrenamiento específicos de la tarea.
Los asistentes de IA personalizados deben recordar y razonar sobre la memoria a largo plazo del usuario, que abarca naturalmente múltiples modalidades y fuentes como imágenes, videos y correos electrónicos. Sin embargo, los benchmarks existentes de Memoria a Largo Plazo se centran principalmente en el historial de diálogos, sin capturar referencias personalizadas realistas basadas en la experiencia vivida. Presentamos ATM-Bench, el primer benchmark para Memoria Referencial Personalizada multimodal y multifuente en formato de preguntas y respuestas. ATM-Bench contiene aproximadamente cuatro años de datos de memoria personal que preservan la privacidad y pares de preguntas-respuestas anotadas manualmente con evidencia memorística de referencia, incluyendo consultas que requieren resolver referencias personales, razonamiento con múltiples evidencias de fuentes diversas y manejo de evidencias conflictivas. Proponemos Memoria Guiada por Esquemas (SGM) para representar estructuralmente elementos de memoria originados en diferentes fuentes. En los experimentos, implementamos 5 sistemas de memoria de vanguardia junto con una línea base RAG estándar, y evaluamos variantes con diferentes técnicas de ingesta de memoria, recuperación y generación de respuestas. Encontramos un rendimiento deficiente (menos del 20% de precisión) en el conjunto ATM-Bench-Hard, y que SGM mejora el rendimiento respecto a la Memoria Descriptiva comúnmente adoptada en trabajos anteriores. Código disponible en: https://github.com/JingbiaoMei/ATM-Bench
Los recientes avances en el aprendizaje por refuerzo multiagente, particularmente en los Oráculos de Respuesta en el Espacio de Políticas (PSRO), han permitido calcular equilibrios game-theoréticos aproximados en dominios cada vez más complejos. Sin embargo, estos métodos dependen de oráculos de aprendizaje por refuerzo profundo que producen políticas de red neuronal de 'caja negra', lo que dificulta su interpretación, confianza o depuración. Presentamos los Oráculos de Respuesta en el Espacio de Código (CSRO), un marco novedoso que aborda este desafío reemplazando los oráculos de RL con Modelos de Lenguaje a Gran Escala (LLMs). CSRO replantea el cálculo de la mejor respuesta como una tarea de generación de código, incitando a un LLM a generar políticas directamente como código legible para humanos. Este enfoque no solo produce políticas inherentemente interpretables, sino que también aprovecha el conocimiento preentrenado del LLM para descubrir estrategias complejas y similares a las humanas. Exploramos múltiples formas de construir y mejorar un oráculo basado en LLM: prompting de cero disparos, refinamiento iterativo y AlphaEvolve, un sistema evolutivo distribuido basado en LLM. Demostramos que CSRO logra un rendimiento competitivo con los métodos de referencia mientras produce un conjunto diverso de políticas explicables. Nuestro trabajo presenta una nueva perspectiva sobre el aprendizaje multiagente, desplazando el enfoque desde la optimización de parámetros de política opacos hacia la síntesis de comportamientos algorítmicos interpretables.
La estimación de densidad de profundidad precisa es crucial para la percepción robótica, pero los sensores comerciales a menudo producen mediciones dispersas o incompletas debido a limitaciones de hardware. Los métodos existentes de completado de profundidad fusionada con RGB aprenden previos condicionados conjuntamente a la distribución de entrenamiento RGB y a patrones de profundidad específicos, lo que limita la generalización de dominio y la robustez ante diversos patrones de profundidad. Esfuerzos recientes aprovechan modelos de estimación de profundidad monoculares (MDE) para introducir previos geométricos generales de dominio, pero las estrategias de integración en dos etapas actuales, que dependen de una alineación explícita relativa-a-métrica, conllevan un cómputo adicional e introducen distorsiones estructuradas. Para ello, presentamos Any2Full, un marco unificado en una sola etapa, general de dominio y agnóstico al patrón, que reformula el completado como una adaptación mediante indicación de escala de un modelo MDE preentrenado. Para abordar los niveles variables de dispersión de profundidad y las distribuciones espaciales irregulares, diseñamos un Codificador de Indicaciones Consciente de la Escala. Este destila indicios de escala a partir de entradas dispersas en indicaciones de escala unificadas, guiando al modelo MDE hacia predicciones globalmente consistentes en escala mientras preserva sus previos geométricos. Experimentos exhaustivos demuestran que Any2Full logra una robustez y eficiencia superiores. Supera a OMNI-DC en un 32.2% en AbsREL promedio y ofrece una aceleración de 1.4 veces sobre PriorDA con el mismo backbone MDE, estableciendo un nuevo paradigma para el completado de profundidad universal. Los códigos y puntos de control están disponibles en https://github.com/zhiyuandaily/Any2Full.
Los Modelos de Lenguaje Visual (VLM) constituyen un puente entre la percepción visual y el razonamiento lingüístico. En la Conducción Autónoma (CA), esta sinergia ha permitido el desarrollo de modelos de Visión, Lenguaje y Acción (VLA), que traducen la comprensión multimodal de alto nivel en comportamientos de conducción, típicamente representados como trayectorias futuras. Sin embargo, los modelos VLA existentes generan principalmente trayectorias genéricas libres de colisiones. Más allá de la evitación de colisiones, la adaptación a diversos estilos de conducción (por ejemplo, deportivo, confortable) es esencial para una conducción personalizada. Además, muchos métodos tratan la generación de trayectorias como una predicción ingenua de tokens, lo que puede producir acciones cinemáticamente inviables. Para abordar estas limitaciones, presentamos StyleVLA, un marco VLA informado por la física para generar comportamientos de conducción diversos y físicamente plausibles. Introducimos una pérdida híbrida que combina una restricción de consistencia cinemática con una cabeza de regresión continua para mejorar la viabilidad de la trayectoria. Para entrenar StyleVLA, construido sobre Qwen3-VL-4B, hemos creado un conjunto de datos de instrucciones a gran escala con más de 1.200 escenarios, 76.000 muestras en Vista de Ojo de Pájaro (BEV) y 42.000 muestras en Vista en Primera Persona (FPV), con trayectorias de referencia para cinco estilos de conducción e instrucciones en lenguaje natural. Los experimentos demuestran que nuestro StyleVLA de 4B parámetros supera significativamente a modelos propietarios (por ejemplo, Gemini-3-Pro) y a los modelos VLA más avanzados. Utilizando una puntuación compuesta de conducción que mide la tasa de éxito, la viabilidad física y la adherencia al estilo, StyleVLA logra 0.55 en BEV y 0.51 en FPV, frente a 0.32 y 0.35 de Gemini-3-Pro. Estos resultados muestran que un modelo especializado, informado por la física y ligero puede superar a modelos de código cerrado en tareas específicas de un dominio.