Artículos de investigación en IA seleccionados diariamente con traducciones
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) ofrece un mecanismo robusto para mejorar el razonamiento matemático en modelos grandes. Sin embargo, identificamos una falta sistemática de énfasis en preguntas más desafiantes en los métodos existentes, tanto desde perspectivas algorítmicas como de datos, a pesar de su importancia para refinar capacidades subdesarrolladas. Algorítmicamente, la ampliamente utilizada Optimización de Políticas Relativa a Grupos (GRPO) sufre de un desequilibrio implícito donde la magnitud de las actualizaciones de la política es menor para preguntas más difíciles. En cuanto a los datos, los enfoques de aumento principalmente reformulan preguntas para mejorar la diversidad sin aumentar sistemáticamente la dificultad intrínseca. Para abordar estos problemas, proponemos un marco dual MathForge para mejorar el razonamiento matemático orientándose a preguntas más difíciles desde ambas perspectivas, el cual comprende un algoritmo de Optimización de Políticas de Grupo Consciente de la Dificultad (DGPO) y una estrategia de Reformulación de Preguntas Multi-Aspecto (MQR). Específicamente, DGPO primero rectifica el desequilibrio implícito en GRPO mediante una estimación de ventaja grupal balanceada por dificultad, y además prioriza preguntas más difíciles mediante una ponderación a nivel de pregunta consciente de la dificultad. Mientras tanto, MQR reformula preguntas en múltiples aspectos para aumentar la dificultad manteniendo la respuesta de oro original. En general, MathForge forma un bucle sinérgico: MQR expande la frontera de datos, y DGPO aprende efectivamente de los datos aumentados. Experimentos exhaustivos muestran que MathForge supera significativamente a los métodos existentes en varias tareas de razonamiento matemático. El código y los datos aumentados están disponibles en https://github.com/AMAP-ML/MathForge.
Presentamos LingBot-World, un simulador mundial de código abierto derivado de la generación de vídeo. Posicionado como un modelo de mundo de primer nivel, LingBot-World ofrece las siguientes características. (1) Mantiene una alta fidelidad y dinámicas robustas en un amplio espectro de entornos, incluyendo realismo, contextos científicos, estilos de animación y más. (2) Permite un horizonte a nivel de minuto mientras preserva la coherencia contextual en el tiempo, también conocida como "memoria a largo plazo". (3) Admite interactividad en tiempo real, logrando una latencia inferior a 1 segundo al producir 16 fotogramas por segundo. Proporcionamos acceso público al código y al modelo en un esfuerzo por reducir la brecha entre las tecnologías de código abierto y cerrado. Creemos que nuestra publicación dotará a la comunidad de aplicaciones prácticas en áreas como la creación de contenido, los videojuegos y el aprendizaje robótico.
Presentamos Innovator-VL, un modelo lingüístico grande multimodal científico diseñado para impulsar la comprensión y el razonamiento en diversos dominios científicos, manteniendo al mismo tiempo un rendimiento excelente en tareas visuales generales. A diferencia de la tendencia de depender de preentrenamientos masivos específicos de dominio y pipelines opacos, nuestro trabajo demuestra que un diseño de entrenamiento basado en principios y una metodología transparente pueden producir una sólida inteligencia científica con requisitos de datos sustancialmente reducidos. (i) En primer lugar, ofrecemos un pipeline de entrenamiento completamente transparente y reproducible de extremo a extremo, que abarca la recopilación, limpieza, preprocesamiento, ajuste fino supervisado, aprendizaje por refuerzo y evaluación de datos, junto con recetas detalladas de optimización. Esto facilita la extensión sistemática por parte de la comunidad. (ii) En segundo lugar, Innovator-VL exhibe una notable eficiencia de datos, logrando un rendimiento competitivo en diversas tareas científicas utilizando menos de cinco millones de muestras curadas y sin un preentrenamiento a gran escala. Estos resultados subrayan que se puede lograr un razonamiento efectivo mediante una selección de datos basada en principios, en lugar de un escalado indiscriminado. (iii) En tercer lugar, Innovator-VL demuestra una fuerte generalización, alcanzando un rendimiento competitivo en benchmarks de visión general, razonamiento multimodal y científicos. Esto indica que la alineación científica puede integrarse en un modelo unificado sin comprometer las capacidades de propósito general. Nuestras prácticas sugieren que es posible construir modelos multimodales científicos eficientes, reproducibles y de alto rendimiento incluso sin datos a gran escala, proporcionando una base práctica para futuras investigaciones.
Presentamos DeepSeek-OCR 2 para investigar la viabilidad de un nuevo codificador —DeepEncoder V2— capaz de reordenar dinámicamente los tokens visuales según la semántica de la imagen. Los modelos convencionales de visión y lenguaje (VLM) procesan invariablemente los tokens visuales en un orden rígido de exploración en raster (de arriba-izquierda a abajo-derecha) con codificación posicional fija cuando se introducen en los LLM. Sin embargo, esto contradice la percepción visual humana, que sigue patrones de exploración flexibles pero semánticamente coherentes impulsados por estructuras lógicas inherentes. Particularmente para imágenes con diseños complejos, la visión humana exhibe un procesamiento secuencial basado en relaciones causales. Inspirados por este mecanismo cognitivo, DeepEncoder V2 está diseñado para dotar al codificador de capacidades de razonamiento causal, permitiéndole reordenar inteligentemente los tokens visuales antes de la interpretación del contenido basada en LLM. Este trabajo explora un nuevo paradigma: si la comprensión de imágenes 2D puede lograrse efectivamente mediante dos estructuras de razonamiento causal 1D en cascada, ofreciendo así un nuevo enfoque arquitectónico con potencial para alcanzar un razonamiento 2D genuino. Los códigos y los pesos del modelo son de acceso público en http://github.com/deepseek-ai/DeepSeek-OCR-2.
El aprendizaje por refuerzo ha permitido que los modelos de lenguaje grandes actúen como agentes inteligentes, pero entrenarlos para tareas de horizonte largo sigue siendo un desafío debido a la escasez de trayectorias de alta calidad, especialmente con recursos limitados. Los métodos existentes suelen aumentar masivamente el número de simulaciones y asignan recursos computacionales de manera indiscriminada entre los pasos intermedios. Estos intentos desperdician inherentemente un presupuesto computacional sustancial en pasos triviales, sin garantizar la calidad de las muestras. Para abordar esto, proponemos Spark (Exploración Estratégica Consciente de la Política mediante Ramificación Dinámica en Estados Clave), un marco novedoso que ramifica selectivamente en estados de decisión críticos para una exploración eficiente de recursos. Nuestra idea clave es activar una exploración de ramificación adaptativa en puntos de decisión críticos para sondear trayectorias prometedoras, logrando así una asignación precisa de recursos que prioriza la calidad del muestreo sobre la cobertura ciega. Este diseño aprovecha las señales intrínsecas de toma de decisiones del agente para reducir la dependencia de previos humanos, permitiendo que el agente expanda autónomamente la exploración y logre una generalización más sólida. Experimentos en diversas tareas (por ejemplo, planificación embodada) demuestran que Spark alcanza tasas de éxito superiores con significativamente menos muestras de entrenamiento, exhibiendo una generalización robusta incluso en escenarios no vistos.
Las representaciones de los modelos de lenguaje a menudo contienen direcciones lineales que corresponden a conceptos de alto nivel. Aquí, estudiamos la dinámica de estas representaciones: cómo evolucionan las representaciones a lo largo de estas dimensiones dentro del contexto de conversaciones (simuladas). Encontramos que las representaciones lineales pueden cambiar dramáticamente durante una conversación; por ejemplo, la información que se representa como factual al inicio de una conversación puede representarse como no factual al final, y viceversa. Estos cambios son dependientes del contenido; mientras que las representaciones de la información relevante para la conversación pueden cambiar, la información genérica generalmente se conserva. Estos cambios son robustos incluso para dimensiones que separan la factualidad de patrones de respuesta más superficiales, y ocurren en diferentes familias de modelos y capas del modelo. Estos cambios de representación no requieren conversaciones de política activa; incluso reproducir un guion de conversación escrito por un modelo completamente diferente puede producir cambios similares. Sin embargo, la adaptación es mucho más débil al simplemente tener una historia de ciencia ficción en el contexto que está enmarcada más explícitamente como tal. También mostramos que dirigir la representación a lo largo de una dirección puede tener efectos dramáticamente diferentes en distintos puntos de una conversación. Estos resultados son consistentes con la idea de que las representaciones pueden evolucionar en respuesta al modelo que desempeña un papel particular sugerido por una conversación. Nuestros hallazgos pueden plantear desafíos para la interpretabilidad y el direccionamiento —en particular, implican que puede ser engañoso utilizar interpretaciones estáticas de características o direcciones, o sondas que asumen que un rango particular de características corresponde consistentemente a un valor de verdad específico. Sin embargo, estos tipos de dinámicas representacionales también apuntan a nuevas y emocionantes direcciones de investigación para comprender cómo los modelos se adaptan al contexto.
Los modelos de lenguaje a gran escala son cada vez más sometidos a post-entrenamiento con aprendizaje por refuerzo en dominios verificables como el código y las matemáticas. Sin embargo, los métodos actuales de aprendizaje por refuerzo con recompensas verificables (RLVR, por sus siglas en inglés) aprenden únicamente a partir de una recompensa escalar de resultado por intento, lo que crea un severo cuello de botella en la asignación de crédito. Muchos entornos verificables proporcionan, en realidad, retroalimentación textual enriquecida, como errores de tiempo de ejecución o evaluaciones de un juez, que explican por qué un intento falló. Formalizamos este escenario como aprendizaje por refuerzo con retroalimentación enriquecida e introducimos la Optimización de Políticas por Auto-Destilación (SDPO), que convierte la retroalimentación tokenizada en una señal de aprendizaje densa sin necesidad de un profesor externo o un modelo de recompensa explícito. SDPO trata al modelo actual condicionado por la retroalimentación como un auto-profesor y destila sus predicciones de siguiente token, informadas por la retroalimentación, de vuelta a la política. De esta manera, SDPO aprovecha la capacidad del modelo para identificar retrospectivamente sus propios errores en contexto. En tareas de razonamiento científico, uso de herramientas y programación competitiva en LiveCodeBench v6, SDPO mejora la eficiencia muestral y la precisión final en comparación con sólidos modelos de referencia de RLVR. Notablemente, SDPO también supera a los modelos de referencia en entornos RLVR estándar que solo devuelven retroalimentación escalar, utilizando para ello las ejecuciones exitosas como retroalimentación implícita para los intentos fallidos. Finalmente, aplicar SDPO a preguntas individuales en tiempo de prueba acelera el descubrimiento en tareas difíciles con recompensa binaria, logrando la misma probabilidad de descubrimiento que el muestreo del mejor de k o las conversaciones multiturno, pero con 3 veces menos intentos.
A pesar de la fluidez sintáctica de los Modelos de Lenguaje a Gran Escala (LLMs), garantizar su corrección lógica en dominios de alto riesgo sigue siendo un desafío fundamental. Presentamos un marco neurosimbólico que combina LLMs con solucionadores SMT para producir respuestas guiadas por verificación mediante refinamiento iterativo. Nuestro enfoque descompone las salidas de los LLMs en afirmaciones atómicas, las autoformaliza en lógica de primer orden y verifica su coherencia lógica mediante demostración automática de teoremas. Introducimos tres innovaciones clave: (1) consenso multi-modelo mediante verificación de equivalencia semántica formal para garantizar la alineación a nivel lógico entre candidatos, eliminando el sesgo sintáctico de las métricas de forma superficial, (2) enrutamiento semántico que dirige diferentes tipos de afirmaciones a estrategias de verificación apropiadas: solucionadores simbólicos para afirmaciones lógicas y conjuntos de LLMs para razonamiento de sentido común, y (3) localización precisa de errores lógicos mediante Subconjuntos de Corrección Mínima (MCS), que identifican el subconjunto exacto de afirmaciones a revisar, transformando señales de fallo binarias en retroalimentación accionable. Nuestro marco clasifica las afirmaciones por su estado lógico y agrega múltiples señales de verificación en una puntuación unificada con penalización basada en varianza. El sistema refina iterativamente las respuestas utilizando retroalimentación estructurada hasta que se cumplen los criterios de aceptación o se logra la convergencia. Este enfoque híbrido ofrece garantías formales donde es posible y verificación por consenso en otros casos, avanzando hacia una IA confiable. Con el modelo GPT-OSS-120B, VERGE demuestra una mejora de rendimiento promedio del 18.7% en convergencia a través de un conjunto de benchmarks de razonamiento en comparación con enfoques de pasada única.
Los agentes de interfaz gráfica de usuario (GUI) muestran un gran potencial para permitir que los modelos fundacionales completen tareas del mundo real, revolucionando la interacción humano-computadora y mejorando la productividad humana. En este informe presentamos OmegaUse, un modelo de agente GUI de propósito general para la ejecución autónoma de tareas en plataformas móviles y de escritorio, compatible con escenarios de uso informático y telefónico. La construcción de un modelo de agente GUI efectivo depende de dos factores: (1) datos de alta calidad y (2) métodos de entrenamiento efectivos. Para abordarlos, introducimos una pipeline de construcción de datos cuidadosamente diseñada y un paradigma de entrenamiento desacoplado. Para la construcción de datos, aprovechamos conjuntos de datos de código abierto rigurosamente curados e introducimos un novedoso framework de síntesis automatizada que integra exploración autónoma bottom-up con generación guiada por taxonomía top-down para crear datos sintéticos de alta fidelidad. Para el entrenamiento, adoptamos una estrategia de dos etapas: Fine-Tuning Supervisado (SFT) para establecer la sintaxis de interacción fundamental, seguido de Optimización de Políticas Relativas Grupales (GRPO) para mejorar la fundamentación espacial y la planificación secuencial. Para equilibrar la eficiencia computacional con la capacidad de razonamiento agéntico, OmegaUse se construye sobre una arquitectura Mixture-of-Experts (MoE). Para evaluar las capacidades cross-terminal en un entorno offline, presentamos OS-Nav, un conjunto de benchmarks que abarca múltiples sistemas operativos: ChiM-Nav, dirigido a entornos móviles Android chinos, y Ubu-Nav, centrado en interacciones rutinarias de escritorio en Ubuntu. Experimentos exhaustivos demuestran que OmegaUse es altamente competitivo en benchmarks GUI establecidos, logrando un puntaje state-of-the-art (SOTA) del 96.3% en ScreenSpot-V2 y una tasa de éxito por paso líder del 79.1% en AndroidControl. OmegaUse también muestra un rendimiento sólido en OS-Nav, alcanzando un 74.24% de éxito por paso en ChiM-Nav y un 55.9% de éxito promedio en Ubu-Nav.
Los agentes de codificación de pesos abiertos deberían tener una ventaja fundamental sobre los sistemas de código cerrado: pueden especializarse para bases de código privadas, codificando información específica del repositorio directamente en sus pesos. Sin embargo, el costo y la complejidad del entrenamiento han mantenido esta ventaja en el plano teórico. Demostramos que ahora es práctica. Presentamos Soft-Verified Efficient Repository Agents (SERA), un método eficiente para entrenar agentes de codificación que permite la creación rápida y económica de agentes especializados en bases de código privadas. Utilizando solo ajuste fino supervisado (SFT), SERA logra resultados de vanguardia entre los modelos completamente de código abierto (datos, método y código abiertos) mientras iguala el rendimiento de modelos de pesos abiertos de frontera como Devstral-Small-2. Crear modelos SERA es 26 veces más barato que el aprendizaje por refuerzo y 57 veces más barato que los métodos anteriores de datos sintéticos para alcanzar un rendimiento equivalente. Nuestro método, Soft Verified Generation (SVG), genera miles de trayectorias a partir de un único repositorio de código. Combinado con la rentabilidad, esto permite la especialización para bases de código privadas. Más allá de la especialización de repositorios, aplicamos SVG a un corpus más grande de bases de código, generando más de 200,000 trayectorias sintéticas. Utilizamos este conjunto de datos para proporcionar un análisis detallado de las leyes de escalamiento, ablaciones y factores de confusión para el entrenamiento de agentes de codificación. En general, creemos que nuestro trabajo acelerará enormemente la investigación sobre agentes de codificación abierta y demostrará la ventaja de los modelos de código abierto que pueden especializarse para bases de código privadas. Publicamos SERA como el primer modelo de la serie Open Coding Agents de Ai2, junto con todo nuestro código, datos e integración con Claude Code para apoyar a la comunidad investigadora.
El espacio de sobremuestreo de características independiente de la tarea ha surgido como un área de investigación prometedora para crear eficientemente características más densas a partir de *backbones* visuales preentrenados. Estos métodos actúan como un atajo para lograr características densas a una fracción del costo, aprendiendo a mapear características de baja resolución a versiones de alta resolución. Si bien los primeros trabajos en este ámbito utilizaron enfoques iterativos de sobremuestreo, trabajos más recientes han cambiado a métodos basados en atención cruzada, los cuales corren el riesgo de caer en los mismos problemas de escalabilidad de eficiencia de los *backbones* que están sobremuestreando. En este trabajo, demostramos que los métodos iterativos de sobremuestreo aún pueden competir con los métodos basados en atención cruzada; además, pueden alcanzar un rendimiento de vanguardia con menores costos de inferencia. Proponemos UPLiFT, una arquitectura para Transformadas Ligeras de Características Densas a Nivel de Píxel Universales. También proponemos un operador eficiente de Atención Local para superar las limitaciones de los métodos iterativos previos de sobremuestreo de características. Este operador utiliza una formulación alternativa de agrupación atencional definida completamente de forma local. Demostramos que nuestro Atención Local permite a UPLiFT mantener características estables durante todo el sobremuestreo, logrando un rendimiento de vanguardia con costos de inferencia más bajos que los sobremuestreadores de características densas a nivel de píxel existentes. Además, aplicamos UPLiFT a tareas generativas posteriores y mostramos que logra un rendimiento competitivo con los modelos de vanguardia de Acoplamiento de Flujo para el sobremuestreo de características VAE. En conjunto, UPLiFT ofrece un enfoque versátil y eficiente para crear características más densas.
A pesar de décadas de investigación sobre el habla reverberante, la comparación de métodos sigue siendo difícil porque la mayoría de los corpus carecen de anotaciones acústicas por archivo o proporcionan documentación limitada para su reproducción. Presentamos RIR-Mega-Speech, un corpus de aproximadamente 117,5 horas creado mediante la convolución de enunciados de LibriSpeech con aproximadamente 5.000 respuestas impulsionales de sala simuladas de la colección RIR-Mega. Cada archivo incluye el RT60, la relación directo-reverberante (DRR) y el índice de claridad (C₅₀) calculados a partir de la RIR fuente utilizando procedimientos claramente definidos y reproducibles. También proporcionamos scripts para reconstruir el conjunto de datos y reproducir todos los resultados de evaluación. Utilizando Whisper small en 1.500 enunciados emparejados, medimos un 5,20% de Tasa de Error de Palabra (TEP) (IC del 95%: 4,69–5,78) en habla limpia y un 7,70% (7,04–8,35) en las versiones reverberantes, lo que corresponde a un aumento emparejado de 2,50 puntos porcentuales (2,06–2,98). Esto representa una degradación relativa del 48%. La TEP aumenta monótonamente con el RT60 y disminuye con la DRR, lo que es consistente con estudios perceptuales previos. Si bien el hallazgo central de que la reverberación perjudica el reconocimiento está bien establecido, nuestro objetivo es proporcionar a la comunidad un recurso estandarizado donde las condiciones acústicas sean transparentes y los resultados puedan verificarse de forma independiente. El repositorio incluye instrucciones de reconstrucción con un solo comando para entornos tanto Windows como Linux.
La detección multimodal de sarcasmo (MSD, por sus siglas en inglés) tiene como objetivo identificar el sarcasmo en pares de imagen-texto mediante el modelado de incongruencias semánticas entre modalidades. Los métodos existentes a menudo explotan la desalineación de incrustaciones cruzadas para detectar inconsistencias, pero presentan dificultades cuando el contenido visual y textual está débilmente relacionado o es semánticamente indirecto. Si bien los enfoques recientes aprovechan los modelos de lenguaje extensos (LLMs) para generar pistas sarcásticas, la diversidad inherente y la subjetividad de estas generaciones a menudo introducen ruido. Para abordar estas limitaciones, proponemos la Red de Comparación de Discrepancias Generativas (GDCNet). Este marco captura conflictos cruzados mediante el uso de descripciones de imágenes objetivas y basadas en hechos, generadas por LLMs multimodales (MLLMs), como anclajes semánticos estables. Específicamente, GDCNet calcula las discrepancias semánticas y de sentimiento entre la descripción objetiva generada y el texto original, junto con la medición de la fidelidad visual-textual. Estas características de discrepancia se fusionan luego con las representaciones visuales y textuales a través de un módulo de compuerta para equilibrar de manera adaptativa las contribuciones de las modalidades. Experimentos exhaustivos en puntos de referencia de MSD demuestran la precisión y robustez superiores de GDCNet, estableciendo un nuevo estado del arte en el benchmark MMSD2.0.
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) ha mejorado sustancialmente las capacidades de razonamiento de los modelos de lenguaje grandes (LLM), sin embargo, el entrenamiento a menudo se estanca a medida que los problemas se saturan. Identificamos que el desafío central es la baja accesibilidad de los fallos informativos: las señales de aprendizaje existen, pero rara vez se encuentran durante las ejecuciones estándar. Para abordar esto, proponemos el condicionamiento por prefijos de fallo, un método simple y efectivo para aprender de problemas saturados. En lugar de comenzar desde la pregunta original, nuestro enfoque reasigna la exploración condicionando el entrenamiento en prefijos derivados de trayectorias de razonamiento incorrectas poco frecuentes, exponiendo así al modelo a estados propensos al fallo. Observamos que el condicionamiento por prefijos de fallo produce ganancias de rendimiento equivalentes a las del entrenamiento en problemas de dificultad media, preservando la eficiencia de tokens. Además, analizamos la robustez del modelo, encontrando que nuestro método reduce la degradación del rendimiento bajo prefijos de fallo engañosos, aunque con un ligero equilibrio en la adherencia al razonamiento correcto temprano. Finalmente, demostramos que un enfoque iterativo, que actualiza los prefijos de fallo durante el entrenamiento, desbloquea ganancias adicionales después de que el rendimiento alcanza mesetas. En general, nuestros resultados sugieren que el condicionamiento por prefijos de fallo ofrece una vía efectiva para extender el entrenamiento RLVR en problemas saturados.
El reconocimiento automático del habla atribuido al hablante (ASR) en entornos multi-hablante sigue siendo un gran desafío. Si bien algunos enfoques logran un rendimiento sólido cuando se ajustan en dominios específicos, pocos sistemas generalizan bien en conjuntos de datos fuera de dominio. Nuestro trabajo anterior, Diarization-Conditioned Whisper (DiCoW), aprovecha las salidas de la diarización de hablantes como información de condicionamiento y, con un ajuste mínimo, demostró un fuerte rendimiento multilingüe y multi-dominio. En este artículo, abordamos una limitación clave de DiCoW: la ambigüedad en las máscaras Silencio-Objetivo-NoObjetivo-Solapamiento (STNO), donde dos o más hablantes completamente superpuestos pueden tener un condicionamiento casi idéntico a pesar de tener transcripciones diferentes. Presentamos SE-DiCoW (Self-Enrolled Diarization-Conditioned Whisper), que utiliza la salida de diarización para localizar un segmento de inscripción en cualquier parte de la conversación donde el hablante objetivo esté más activo. Este segmento de inscripción se utiliza como condicionamiento fijo mediante atención cruzada en cada capa del codificador. Además, refinamos DiCoW con una mejor segmentación de datos, inicialización del modelo y aumento de datos. En conjunto, estos avances producen ganancias sustanciales: SE-DiCoW reduce el tcpWER promedio macro en un 52.4% en relación con el DiCoW original en el benchmark EMMA MT-ASR.
Los recientes avances en el razonamiento de los Modelos de Lenguaje a Gran Escala (LLM) están cada vez más impulsados por el refinamiento de las funciones de pérdida posteriores al entrenamiento y las estrategias de alineación. Sin embargo, los paradigmas estándar de Aprendizaje por Refuerzo (RL), como la Optimización de Políticas Relativas por Grupos (GRPO), siguen limitados por una uniformidad estática: muestreo uniforme de prompts y un número fijo de rollouts por prompt. Para datos de razonamiento heterogéneos y de cola pesada, esto crea ineficiencias estructurales que desperdician capacidad de cómputo en patrones ya resueltos, mientras que se entrena insuficientemente la larga cola de problemas difíciles. Para abordar esto, proponemos la Optimización Robusta de Distribución por Grupos Multi-Adversario (GDRO), un marco de optimización-primero que va más allá de los modelos de razonamiento uniformes al adaptar dinámicamente la distribución de entrenamiento. Introducimos un Clasificador de Dificultad Online que divide los prompts en grupos dinámicos de dificultad según pass@k. Luego proponemos dos juegos GDRO independientes para el post-entrenamiento: (1) Prompt-GDRO, que emplea un muestreador bandit de pesos multiplicativos con corrección de sesgo por Media Móvil Exponencial (EMA) para apuntar al margen de dificultad intensivo y aumentar el peso de los grupos persistentemente difíciles sin sesgo de frecuencia; y (2) Rollout-GDRO, que utiliza un controlador de precio sombra para reasignar rollouts entre grupos, maximizando la reducción de la varianza del gradiente en tareas difíciles bajo un presupuesto medio fijo (neutral en cómputo). Proporcionamos garantías de no-lamento para ambos controladores y, además, un análisis proxy de varianza que motiva una asignación óptima de rollouts en raíz cuadrada para Rollout-GDRO. Validamos nuestro marco en el conjunto de datos DAPO 14.1k utilizando modelos Qwen3-Base. Prompt-GDRO y Rollout-GDRO logran ganancias relativas promedio de +10.6% y +10.1%, respectivamente, en la precisión pass@8 a través de escalas de 1.7B, 4B y 8B en comparación con la línea base GRPO. El análisis cualitativo muestra un currículo emergente: los adversarios desplazan recursos hacia la frontera de razonamiento en evolución, mejorando el rendimiento del modelo de razonamiento.
Para tareas socialmente sensibles como la detección de discurso de odio, la calidad de las explicaciones de los Grandes Modelos de Lenguaje (LLMs) es crucial para factores como la confianza del usuario y la alineación del modelo. Si bien el prompting de personalidad (PP) se utiliza cada vez más como una forma de dirigir el modelo hacia una generación específica del usuario, su efecto en las racionalidades del modelo sigue siendo poco explorado. Investigamos cómo varían las racionalidades generadas por LLMs cuando se condicionan a diferentes personalidades demográficas simuladas. Utilizando conjuntos de datos anotados con racionalidades a nivel de palabra, medimos la concordancia con anotaciones humanas de diferentes grupos demográficos y evaluamos el impacto del PP en el sesgo del modelo y la alineación humana. Nuestra evaluación en tres LLMs revela tres hallazgos clave: (1) El PP mejora la clasificación en la tarea más subjetiva (discurso de odio) pero degrada la calidad de la racionalidad. (2) Las personalidades simuladas no logran alinearse con sus contrapartes demográficas del mundo real, y la alta concordancia inter-personalidad muestra que los modelos son resistentes a una dirección significativa. (3) Los modelos exhiben sesgos demográficos consistentes y una fuerte tendencia a sobre-marcar contenido como dañino, independientemente del PP. Nuestros hallazgos revelan una disyuntiva crítica: si bien el PP puede mejorar la clasificación en tareas socialmente sensibles, a menudo lo hace a costa de la calidad de la racionalidad y no logra mitigar los sesgos subyacentes, lo que urge precaución en su aplicación.
El bocetaje ofrece una forma intuitiva de transmitir la intención dinámica en la creación de animaciones (es decir, cómo los elementos cambian en el tiempo y el espacio), lo que lo convierte en un medio natural para la creación automática de contenido. Sin embargo, los enfoques existentes a menudo limitan los bocetos a tokens de comando fijos o formas visuales predefinidas, pasando por alto su naturaleza libre y el papel central de los humanos en la configuración de la intención. Para abordar esto, presentamos un paradigma de interacción en el que los usuarios transmiten la intención dinámica a un modelo de visión y lenguaje mediante bocetos libres, instanciado aquí en un flujo de trabajo de storyboard de bocetos a gráficos en movimiento. Implementamos una interfaz y la mejoramos mediante un estudio de tres etapas con 24 participantes. El estudio muestra cómo los bocetos transmiten movimiento con una entrada mínima, cómo su ambigüedad inherente requiere que los usuarios intervengan para aclarar, y cómo los bocetos pueden guiar visualmente el refinamiento del video. Nuestros hallazgos revelan el potencial de la interacción entre el boceto y la IA para cerrar la brecha entre la intención y el resultado, y demuestran su aplicabilidad en la animación 3D y la generación de video.
La creciente demanda de despliegue robótico en tiempo real requiere inferencia rápida y en el dispositivo para los modelos visión-lenguaje-acción (VLA). En la literatura sobre VLA, la eficiencia se ha estudiado extensamente a nivel de tokens, como la poda de tokens visuales. En contraste, la reducción sistemática de capas del transformador ha recibido una atención limitada y, hasta donde sabemos, no se ha explorado para modelos VLA basados en flujos bajo destilación de conocimiento. En este trabajo, proponemos Shallow-pi, un marco de destilación de conocimiento fundamentado que reduce agresivamente la profundidad del transformador tanto en el *backbone* VLM como en la cabeza de acción basada en flujos, comprimiendo el modelo de 18 a 6 capas. Shallow-pi logra una inferencia más de dos veces más rápida con una caída de menos del uno por ciento en la tasa de éxito en *benchmarks* estándar de manipulación, estableciendo un rendimiento de vanguardia entre los modelos VLA reducidos. Crucialmente, validamos nuestro enfoque mediante experimentos en el mundo real a escala industrial en Jetson Orin y Jetson Thor a través de múltiples plataformas robóticas, incluidos sistemas humanoides, en escenarios de manipulación complejos y dinámicos.