Artículos de investigación en IA seleccionados diariamente con traducciones
El surgimiento de sistemas multiagente construidos a partir de modelos de lenguaje extensos (LLM) ofrece un paradigma prometedor para la inteligencia colectiva escalable y la autoevolución. Idealmente, dichos sistemas lograrían una mejora continua en un bucle completamente cerrado, manteniendo al mismo tiempo una sólida alineación de seguridad, una combinación que denominamos el trilema de la autoevolución. Sin embargo, demostramos tanto teórica como empíricamente que es imposible una sociedad de agentes que satisfaga la autoevolución continua, el aislamiento completo y la invariancia de seguridad. Basándonos en un marco teórico de la información, formalizamos la seguridad como el grado de divergencia de las distribuciones de valores antrópicos. Demostramos teóricamente que la autoevolución aislada induce puntos ciegos estadísticos, lo que conduce a la degradación irreversible de la alineación de seguridad del sistema. Los resultados empíricos y cualitativos de una comunidad de agentes abierta (Moltbook) y de dos sistemas cerrados de autoevolución revelan fenómenos que se alinean con nuestra predicción teórica de una inevitable erosión de la seguridad. Además, proponemos varias direcciones de solución para paliar el problema de seguridad identificado. Nuestro trabajo establece un límite fundamental para las sociedades de IA autoevolutivas y desplaza el discurso desde los parches de seguridad sintomáticos hacia una comprensión fundamentada de los riesgos dinámicos intrínsecos, destacando la necesidad de supervisión externa o de nuevos mecanismos que preserven la seguridad.
Los prompts verificables a gran escala son la base del éxito del Aprendizaje por Refuerzo con Recompensas Verificables (RLVR), pero contienen muchos ejemplos no informativos y son costosos de expandir. Estudios recientes se centran en explotar mejor los datos de entrenamiento limitados priorizando prompts difíciles cuya tasa de aprobación en ejecución es 0. Sin embargo, los prompts fáciles con una tasa de aprobación de 1 también se vuelven cada vez más prevalentes a medida que avanza el entrenamiento, reduciendo así el tamaño efectivo de los datos. Para mitigar esto, proponemos Composition-RL, un enfoque simple pero útil para utilizar mejor los prompts verificables limitados dirigidos a prompts con tasa de aprobación 1. Más específicamente, Composition-RL compone automáticamente múltiples problemas en una nueva pregunta verificable y utiliza estos prompts composicionales para el entrenamiento de RL. Experimentos exhaustivos en tamaños de modelo desde 4B hasta 30B muestran que Composition-RL mejora consistentemente la capacidad de razonamiento sobre el RL entrenado en el conjunto de datos original. El rendimiento puede potenciarse aún más con una variante curricular de Composition-RL que incrementa gradualmente la profundidad composicional durante el entrenamiento. Adicionalmente, Composition-RL permite un RL cruzado de dominios más efectivo componiendo prompts extraídos de diferentes dominios. Los códigos, conjuntos de datos y modelos están disponibles en https://github.com/XinXU-USTC/Composition-RL.
Los modelos multimodales unificados actuales para generación y edición de imágenes suelen depender de escalas masivas de parámetros (por ejemplo, >10B), lo que conlleva costes de entrenamiento prohibitivos y grandes huellas de despliegue. En este trabajo, presentamos DeepGen 1.0, un modelo unificado ligero de 5B que logra capacidades integrales competitivas o superiores a contrapartes mucho más grandes. Para superar las limitaciones de los modelos compactos en comprensión semántica y control de grano fino, introducimos Stacked Channel Bridging (SCB), un marco de alineación profunda que extrae características jerárquicas de múltiples capas VLM y las fusiona con 'tokens de pensamiento' entrenables para proporcionar al núcleo generativo una guía estructurada y rica en razonamiento. Además, diseñamos una estrategia de entrenamiento centrada en datos que abarca tres etapas progresivas: (1) Pre-entrenamiento de alineación en pares imagen-texto y tripletas de edición a gran escala para sincronizar representaciones VLM y DiT, (2) Ajuste fino supervisado conjunto en una mezcla de alta calidad de tareas de generación, edición y razonamiento para fomentar capacidades omnicomprensivas, y (3) Aprendizaje por refuerzo con MR-GRPO, que aprovecha una mezcla de funciones de recompensa y señales de supervisión, resultando en ganancias sustanciales en calidad de generación y alineación con preferencias humanas, manteniendo un progreso de entrenamiento estable y evitando artefactos visuales. A pesar de ser entrenado con solo ~50M muestras, DeepGen 1.0 logra un rendimiento líder en diversos benchmarks, superando al HunyuanImage de 80B en un 28% en WISE y al Qwen-Image-Edit de 27B en un 37% en UniREditBench. Al hacer de código fuente de entrenamiento, pesos y conjuntos de datos, proporcionamos una alternativa eficiente y de alto rendimiento para democratizar la investigación multimodal unificada.
Los modelos visión-lenguaje-acción (VLA) que predicen directamente fragmentos de acciones multi-paso a partir de observaciones actuales enfrentan limitaciones inherentes debido a una comprensión de escena restringida y capacidades débiles de anticipación futura. En contraste, los modelos de mundo de video pre-entrenados en corpus de video a escala web exhiben un razonamiento espacio-temporal robusto y una predicción futura precisa, lo que los convierte en una base natural para mejorar el aprendizaje VLA. Por lo tanto, proponemos GigaBrain-0.5M*, un modelo VLA entrenado mediante aprendizaje por refuerzo basado en modelos de mundo. Construido sobre GigaBrain-0.5, que está pre-entrenado en más de 10,000 horas de datos de manipulación robótica, y cuya versión intermedia actualmente ocupa el primer puesto en el benchmark internacional RoboChallenge. GigaBrain-0.5M* integra además el aprendizaje por refuerzo basado en modelos de mundo mediante RAMP (Reinforcement leArning via world Model-conditioned Policy) para permitir una adaptación robusta entre tareas. Los resultados empíricos demuestran que RAMP logra ganancias sustanciales de rendimiento sobre la línea base RECAP, produciendo mejoras de aproximadamente el 30% en tareas desafiantes que incluyen Doblar Ropa, Empaquetar Cajas y Preparar Espresso. Críticamente, GigaBrain-0.5M* exhibe una ejecución fiable a largo horizonte, logrando consistentemente tareas de manipulación complejas sin fallos, como lo validan los videos de despliegue en el mundo real en nuestra {página del proyecto https://gigabrain05m.github.io}.
La destilación bajo política (OPD), que alinea al estudiante con la distribución de logits del profesor en trayectorias generadas por el estudiante, ha demostrado importantes ganancias empíricas en la mejora del rendimiento del estudiante y a menudo supera a los paradigmas de destilación fuera de política y de aprendizaje por refuerzo (RL). En este trabajo, primero demostramos teóricamente que OPD es un caso especial de RL denso con restricción KL donde la función de recompensa y la regularización KL siempre se ponderan por igual y el modelo de referencia puede ser cualquier modelo. Luego, proponemos el marco de Destilación Generalizada Bajo Política (G-OPD), que extiende el objetivo OPD estándar introduciendo un modelo de referencia flexible y un factor de escala de recompensa que controla el peso relativo del término de recompensa frente a la regularización KL. A través de experimentos exhaustivos en tareas de razonamiento matemático y generación de código, derivamos dos nuevas perspectivas: (1) Establecer el factor de escala de recompensa mayor que 1 (es decir, extrapolación de recompensa), lo que denominamos ExOPD, mejora consistentemente respecto a OPD estándar en una variedad de emparejamientos de tamaño profesor-estudiante. En particular, en el escenario donde fusionamos el conocimiento de diferentes expertos de dominio, obtenido aplicando RL específico de dominio al mismo modelo estudiante, de vuelta en el estudiante original, ExOPD permite al estudiante incluso superar el límite de rendimiento del profesor y superar a los profesores de dominio. (2) Partiendo de ExOPD, encontramos además que en el entorno de destilación de fuerte a débil (es decir, destilar un estudiante más pequeño a partir de un profesor más grande), realizar una corrección de recompensa eligiendo el modelo de referencia como el modelo base del profesor antes de RL produce una señal de recompensa más precisa y mejora aún más el rendimiento de la destilación. Sin embargo, esta elección supone tener acceso a la variante pre-RL del profesor e incurre en una mayor sobrecarga computacional. Esperamos que nuestro trabajo ofrezca nuevas perspectivas para futuras investigaciones sobre OPD.
Los tokenizadores de audio discretos son fundamentales para dotar a los modelos de lenguaje grande de capacidades nativas de procesamiento y generación de audio. A pesar del progreso reciente, los enfoques existentes a menudo dependen de codificadores preentrenados, destilación semántica o arquitecturas heterogéneas basadas en CNN. Estos diseños introducen sesgos inductivos fijos que limitan la fidelidad de reconstrucción y obstaculizan una escalabilidad efectiva. En este artículo, sostenemos que la tokenización de audio discreta debe aprenderse completamente de extremo a extremo utilizando una arquitectura homogénea y escalable. Con este fin, primero proponemos CAT (Tokenizador de Audio Causal con Transformer), una arquitectura basada puramente en Transformer que optimiza conjuntamente el codificador, el cuantizador y el decodificador desde cero para una reconstrucción de alta fidelidad. Basándonos en la arquitectura CAT, desarrollamos MOSS-Audio-Tokenizer, un tokenizador de audio a gran escala que cuenta con 1.600 millones de parámetros, preentrenado con 3 millones de horas de datos de audio generales y diversos. Demostramos que este enfoque simple, completamente de extremo a extremo, construido con bloques homogéneos de Transformer causales, escala de manera elegante y admite una reconstrucción de alta fidelidad en diversos dominios de audio. En voz, sonido y música, MOSS-Audio-Tokenizer supera consistentemente a los códecs anteriores en un amplio rango de tasas de bits, mostrando mejoras predecibles con el aumento de escala. Notablemente, aprovechando los tokens discretos de nuestro modelo, desarrollamos el primer modelo TTS puramente autorregresivo que supera a los sistemas no autorregresivos y en cascada anteriores. Además, MOSS-Audio-Tokenizer permite un rendimiento competitivo en ASR sin codificadores auxiliares. Nuestros hallazgos posicionan la arquitectura CAT como una interfaz unificada y escalable para la próxima generación de modelos fundacionales nativos de audio.
La síntesis de bandas sonoras coherentes para videos de larga duración sigue siendo un desafío formidable, actualmente estancado por tres impedimentos críticos: la escalabilidad computacional, la coherencia temporal y, lo más crucial, una ceguera semántica generalizada hacia la lógica narrativa en evolución. Para salvar estas brechas, proponemos NarraScore, un marco jerárquico basado en la idea central de que la emoción sirve como una compresión de alta densidad de la lógica narrativa. De forma única, reutilizamos Modelos de Visión y Lenguaje (VLMs) congelados como sensores afectivos continuos, destilando flujos visuales de alta dimensión en trayectorias densas de Valencia-Excitación conscientes de la narrativa. Mecánicamente, NarraScore emplea una estrategia de Inyección de Doble Rama para reconciliar la estructura global con el dinamismo local: un Ancla Semántica Global garantiza la estabilidad estilística, mientras que un Adaptador Afectivo a Nivel de Token quirúrgico modula la tensión local mediante una inyección residual directa elemento por elemento. Este diseño minimalista evita los cuellos de botella de la atención densa y la clonación arquitectónica, mitigando eficazmente los riesgos de sobreajuste asociados con la escasez de datos. Los experimentos demuestran que NarraScore logra una coherencia y alineación narrativa de vanguardia con un overhead computacional insignificante, estableciendo un paradigma completamente autónomo para la generación de bandas sonoras para videos largos.
El razonamiento jurídico exige no solo resultados correctos, sino también procesos de razonamiento procedimentalmente conformes. Sin embargo, los métodos existentes carecen de mecanismos para verificar los pasos intermedios del razonamiento, lo que permite que errores como citas normativas inaplicables se propaguen sin detectarse a lo largo de la cadena de razonamiento. Para abordar este problema, proponemos LawThinker, un agente autónomo de investigación jurídica que adopta una estrategia de Explorar-Verificar-Memorizar para entornos judiciales dinámicos. La idea central es aplicar la verificación como una operación atómica tras cada paso de exploración de conocimiento. Un módulo DeepVerifier examina cada resultado de recuperación en tres dimensiones: precisión del conocimiento, relevancia hecho-derecho y conformidad procedimental, junto con un módulo de memoria para la reutilización de conocimiento entre rondas en tareas de horizonte prolongado. Los experimentos en el benchmark dinámico J1-EVAL muestran que LawThinker logra una mejora del 24% frente al razonamiento directo y una ganancia del 11% sobre métodos basados en flujos de trabajo, con mejoras particularmente sólidas en métricas orientadas al proceso. Las evaluaciones en tres benchmarks estáticos confirman además su capacidad de generalización. El código está disponible en https://github.com/yxy-919/LawThinker-agent.
Los modelos lingüísticos multimodales existentes han logrado una percepción visual de alta fidelidad y una generación visual exploratoria. Sin embargo, persiste una paradoja de precisión en tareas de razonamiento complejo: los sistemas de percepción óptica transcriben símbolos sin capturar la topología lógica, mientras que los modelos generativos basados en píxeles producen artefactos visuales carentes de exactitud matemática. Para cerrar esta brecha, proponemos reconceptualizar el razonamiento sobre entradas visuales como una descompresión óptica: el proceso de reconstruir estructuras lógicas latentes a partir de tokens visuales comprimidos. Guiados por el axioma de que Analizar es Razonar, presentamos Pensar con Borradores (TwD), que utiliza un Lenguaje Específico de Dominio (DSL) minimalista como representación intermedia de anclaje. A diferencia de los enfoques estándar que alucinan respuestas directamente, TwD obliga al modelo a plasmar su modelo mental en código ejecutable, generando pruebas visuales deterministas para la autoverificación. Para validar esto, presentamos VisAlg, un benchmark de álgebra visual. Los experimentos demuestran que TwD funciona como un andamiaje cognitivo superior. Nuestro trabajo establece un sistema de circuito cerrado donde la generación visual actúa no como una salida creativa, sino como un verificador lógico, ofreciendo una ruta generalizable para el razonamiento visual.
Lograr un escalado efectivo durante la prueba requiere que los modelos realicen una Exploración Contextual Inmediata (In-Context Exploration) — la capacidad intrínseca de generar, verificar y refinar múltiples hipótesis de razonamiento dentro de un único contexto continuo. Basándonos en la teoría de Cobertura de Estados, nuestro análisis identifica un cuello de botella crítico para habilitar esta capacidad: si bien una cobertura de estados más amplia requiere trayectorias de razonamiento más largas, la probabilidad de muestrear dichas secuencias decae exponencialmente durante la generación autoregresiva, un fenómeno que denominamos la "Trampa de Exploración Superficial" (Shallow Exploration Trap). Para salvar esta brecha, proponemos la Exploración con Incentivo de Longitud (\method). Esta receta simple pero efectiva incentiva explícitamente a los modelos a explorar más mediante una recompensa basada en la longitud junto con una penalización por redundancia, maximizando así la cobertura de estados en un proceso de dos pasos. Experimentos exhaustivos en diferentes modelos (Qwen3, Llama) demuestran que \method incentiva efectivamente la exploración contextual inmediata. Como resultado, nuestro método logra una mejora promedio del 4.4% en tareas dentro del dominio y una ganancia del 2.7% en benchmarks fuera del dominio.
A pesar del escalado sostenido en la capacidad de los modelos y la adquisición de datos, los modelos Visión-Lenguaje-Acción (VLA) siguen siendo frágiles en tareas de manipulación dinámicas y con contacto rico, donde pequeñas desviaciones en la ejecución pueden acumularse y generar fallos. Si bien el aprendizaje por refuerzo (RL) ofrece un camino teórico hacia la robustez, el RL *on-policy* en el mundo físico está limitado por el riesgo para la seguridad, el coste del hardware y el restablecimiento del entorno. Para salvar esta brecha, presentamos RISE, un marco escalable de aprendizaje por refuerzo robótico mediante la imaginación. Su núcleo es un Modelo de Mundo Compositivo que (i) predice futuros multivía mediante un modelo de dinámica controlable, y (ii) evalúa los resultados imaginados con un modelo de valor de progreso, produciendo ventajas informativas para la mejora de la política. Este diseño compositivo permite que el estado y el valor se adapten mediante arquitecturas y objetivos distintos pero idóneos. Estos componentes se integran en un pipeline de auto-mejora en bucle cerrado que genera continuamente trayectorias imaginarias, estima ventajas y actualiza la política en el espacio imaginario sin una costosa interacción física. En tres tareas del mundo real de alta dificultad, RISE produce una mejora significativa sobre el estado del arte, con un aumento de rendimiento absoluto de más del +35% en la clasificación dinámica de ladrillos, +45% en el empaquetado de mochilas y +35% en el cierre de cajas, respectivamente.
Las ilusiones visuales tradicionalmente se basan en manipulaciones espaciales como la consistencia multi-vista. En este trabajo, presentamos las Ilusiones Semánticas Progresivas, una novedosa tarea de dibujo vectorial en la que un único boceto experimenta una transformación semántica drástica mediante la adición secuencial de trazos. Presentamos *Stroke of Surprise*, un marco generativo que optimiza trazos vectoriales para satisfacer interpretaciones semánticas distintas en diferentes etapas del dibujo. El desafío principal radica en la "doble restricción": los trazos iniciales del prefijo deben formar un objeto coherente (por ejemplo, un pato) y, al mismo tiempo, servir como base estructural para un segundo concepto (por ejemplo, una oveja) al añadir los trazos delta. Para abordarlo, proponemos un marco de optimización conjunta consciente de la secuencia, impulsado por un mecanismo de Muestreo de Destilación de Puntuación de doble rama. A diferencia de los enfoques secuenciales que congelan el estado inicial, nuestro método ajusta dinámicamente los trazos del prefijo para descubrir un "subespacio estructural común" válido para ambos objetivos. Además, introducimos una nueva Pérdida por Superposición que impone complementariedad espacial, garantizando integración estructural en lugar de oclusión. Experimentos exhaustivos demuestran que nuestro método supera significativamente a los métodos de referencia más avanzados en reconocibilidad y fuerza de la ilusión, expandiendo con éxito los anagramas visuales de la dimensión espacial a la temporal. Página del proyecto: https://stroke-of-surprise.github.io/
La manipulación robótica de alto rendimiento y largo horizonte ha dependido tradicionalmente de grandes volúmenes de datos y capacidad computacional para comprender las dinámicas complejas del mundo real. Sin embargo, identificamos que el principal cuello de botella para la robustez en entornos reales no es solo la escala de recursos, sino el desplazamiento distribucional entre la distribución de demostraciones humanas, el sesgo inductivo aprendido por la política y la distribución de ejecución durante las pruebas: una inconsistencia sistemática que provoca errores acumulativos en tareas multi-etapa. Para mitigar estas inconsistencias, proponemos χ₀, un marco eficiente en recursos con módulos efectivos diseñados para alcanzar una robustez a nivel de producción en manipulación robótica. Nuestro enfoque se basa en tres pilares técnicos: (i) Aritmética de Modelos, una estrategia de fusión en el espacio de pesos que absorbe eficientemente distribuciones diversas de diferentes demostraciones, desde variaciones en apariencia de objetos hasta variaciones de estado; (ii) Ventaja por Etapa, un estimador de ventaja consciente de la etapa que proporciona señales de progreso estables y densas, superando la inestabilidad numérica de enfoques previos no segmentados; y (iii) Alineación Entrenamiento-Despliegue, que salva la brecha distribucional mediante aumentación espacio-temporal, correcciones heurísticas tipo DAgger y suavizado temporal por fragmentos. χ₀ permite que dos conjuntos de robots de doble brazo orquesten colaborativamente la manipulación de prendas de vestir de largo horizonte, abarcando tareas desde aplanar, plegar, hasta colgar diferentes prendas. Nuestro método exhibe una autonomía de alta confiabilidad; podemos ejecutar el sistema desde un estado inicial arbitrario durante 24 horas consecutivas sin interrupciones. Los experimentos validan que χ₀ supera al estado del arte π₀.₅ en tasa de éxito en casi un 250%, utilizando solo 20 horas de datos y 8 GPUs A100. El código, datos y modelos serán liberados para facilitar a la comunidad.
Las demostraciones humanas ofrecen una rica diversidad ambiental y se escalan naturalmente, lo que las convierte en una alternativa atractiva a la teleoperación de robots. Si bien este paradigma ha avanzado en la manipulación con brazos robóticos, su potencial para el problema más desafiante y demandante de datos de la locomoción-manipulación (loco-manipulación) humanoide permanece en gran medida inexplorado. Presentamos EgoHumanoid, el primer marco de trabajo para entrenar conjuntamente una política visión-lenguaje-acción utilizando abundantes demostraciones humanas egocéntricas junto con una cantidad limitada de datos robóticos, permitiendo a los humanoides realizar locomoción-manipulación en diversos entornos del mundo real. Para salvar la brecha de encarnación entre humanos y robots, incluidas las discrepancias en la morfología física y el punto de vista, introducimos una canalización de alineación sistemática que abarca desde el diseño del hardware hasta el procesamiento de datos. Se desarrolla un sistema portátil para la recolección escalable de datos humanos y establecemos protocolos de recolección prácticos para mejorar la transferibilidad. En el núcleo de nuestra canalización de alineación de humano a humanoide se encuentran dos componentes clave. La *alineación de vista* reduce las discrepancias del dominio visual causadas por la variación en la altura de la cámara y la perspectiva. La *alineación de acción* mapea los movimientos humanos en un espacio de acción unificado y cinemáticamente factible para el control del humanoide. Experimentos exhaustivos en el mundo real demuestran que la incorporación de datos egocéntricos libres de robots supera significativamente a los baselines que solo usan datos robóticos en un 51%, particularmente en entornos no vistos. Nuestro análisis revela además qué comportamientos se transfieren efectivamente y el potencial para escalar los datos humanos.
Los Modelos de Lenguaje Grandes de Difusión (dLLMs) representan un nuevo paradigma más allá del modelado autoregresivo, ofreciendo un rendimiento competitivo mientras permiten de forma natural un proceso de decodificación flexible. Específicamente, los dLLMs pueden generar tokens en posiciones arbitrarias en paralelo, lo que les otorga un potencial significativo para el escalado paralelo en tiempo de prueba, que anteriormente estaba limitado por una grave ineficiencia en el modelado autoregresivo. En este trabajo, presentamos dVoting, una técnica de votación rápida que potencia la capacidad de razonamiento sin entrenamiento, con solo una sobrecarga computacional adicional aceptable. dVoting está motivado por la observación de que, en múltiples muestras para el mismo *prompt*, las predicciones de tokens permanecen en gran medida consistentes, mientras que el rendimiento está determinado por un pequeño subconjunto de tokens que exhiben variabilidad entre muestras. Aprovechando la capacidad de generación en posiciones arbitrarias de los dLLMs, dVoting realiza un refinamiento iterativo mediante muestreo, identifica tokens inciertos mediante análisis de consistencia, los regenera a través de votación y repite este proceso hasta la convergencia. Evaluaciones exhaustivas demuestran que dVoting mejora consistentemente el rendimiento en varios benchmarks. Logra ganancias del 6.22%-7.66% en GSM8K, 4.40%-7.20% en MATH500, 3.16%-14.84% en ARC-C y 4.83%-5.74% en MMLU. Nuestro código está disponible en https://github.com/fscdc/dVoting.
Presentamos Voxtral Realtime, un modelo de reconocimiento automático del habla de transmisión nativa que iguala la calidad de la transcripción offline con una latencia inferior al segundo. A diferencia de los enfoques que adaptan modelos offline mediante segmentación o ventanas deslizantes, Voxtral Realtime se entrena de extremo a extremo para transmisión en tiempo real, con una alineación explícita entre las secuencias de audio y texto. Nuestra arquitectura se basa en el marco de Modelado de Secuencias Retrasadas, introduciendo un nuevo codificador de audio causal y Ada RMS-Norm para mejorar el condicionamiento del retraso. Escalamos el preentrenamiento a un conjunto de datos a gran escala que abarca 13 idiomas. Con un retraso de 480 ms, Voxtral Realtime logra un rendimiento comparable al de Whisper, el sistema de transcripción offline más ampliamente implementado. Publicamos los pesos del modelo bajo la licencia Apache 2.0.
¿Por qué debe estar la navegación visión-lenguaje ligada a instrucciones lingüísticas detalladas y verbosas? Si bien tales detalles facilitan la toma de decisiones, contradicen fundamentalmente el objetivo de la navegación en el mundo real. Idealmente, los agentes deberían poseer la autonomía para navegar en entornos desconocidos guiados únicamente por intenciones simples y de alto nivel. Materializar esta ambición introduce un desafío formidable: la Navegación Más Allá del Campo Visual (BVN), donde los agentes deben localizar objetivos distantes y no vistos sin una guía densa y paso a paso. Los métodos existentes basados en modelos de lenguaje grandes (LLM), aunque expertos en seguir instrucciones densas, a menudo adolecen de comportamientos miopes debido a su dependencia de una supervisión de corto horizonte. Sin embargo, simplemente extender el horizonte de supervisión desestabiliza el entrenamiento de los LLM. En este trabajo, identificamos que los modelos de generación de video se benefician inherentemente de una supervisión de largo horizonte para alinearse con las instrucciones lingüísticas, lo que los hace singularmente adecuados para las tareas de BVN. Aprovechando esta perspicacia, proponemos introducir el modelo de generación de video en este campo por primera vez. No obstante, la latencia prohibitiva para generar videos que abarcan decenas de segundos hace inviable su implementación en el mundo real. Para salvar esta brecha, proponemos SparseVideoNav, logrando una inferencia de trayectoria en menos de un segundo guiada por un futuro disperso generado que abarca un horizonte de 20 segundos. Esto produce una notable aceleración de 27x en comparación con su contraparte no optimizada. Experimentos exhaustivos de cero-shot en el mundo real demuestran que SparseVideoNav alcanza una tasa de éxito 2.5 veces mayor que los baselines LLM de vanguardia en tareas de BVN y marca la primera realización de dicha capacidad en escenas nocturnas desafiantes.
A medida que el desarrollo de los Modelos de Gran Tamaño (LM) avanza rápidamente, su seguridad también es una prioridad. En el flujo de trabajo de seguridad actual de los Modelos de Lenguaje de Gran Tamaño (LLM) y los Modelos de Lenguaje Multimodales de Gran Tamaño (MLLM), la evaluación, el diagnóstico y la alineación suelen manejarse con herramientas separadas. Específicamente, la evaluación de seguridad solo puede localizar riesgos conductuales externos, pero no puede determinar las causas raíz internas. Mientras tanto, el diagnóstico de seguridad a menudo se aleja de escenarios de riesgo concretos y se mantiene en un nivel explicativo. De esta manera, la alineación de seguridad carece de explicaciones dedicadas sobre los cambios en los mecanismos internos, lo que potencialmente degrada las capacidades generales. Para abordar sistemáticamente estos problemas, proponemos un proyecto de código abierto, denominado DeepSight, para practicar un nuevo paradigma integrado de evaluación-diagnóstico de seguridad. DeepSight es un proyecto de evaluación de seguridad de modelos a gran escala de bajo costo, reproducible, eficiente y altamente escalable, que consta de un kit de herramientas de evaluación, DeepSafe, y un kit de herramientas de diagnóstico, DeepScan. Al unificar los protocolos de tareas y datos, construimos una conexión entre las dos etapas y transformamos la evaluación de seguridad de una perspectiva de caja negra a una de caja blanca. Además, DeepSight es el primer kit de herramientas de código abierto que admite la evaluación de riesgos de IA de vanguardia y la evaluación y diagnóstico de seguridad conjuntos.
La comprensión de productos en el comercio electrónico requiere intrínsecamente una sólida capacidad multimodal que abarque texto, imágenes y atributos estructurados. Los Modelos de Visión y Lenguaje (VLM) de propósito general permiten el modelado latente multimodal generalizable; sin embargo, no existe una estrategia documentada y ampliamente conocida para adaptarlos a la naturaleza centrada en atributos, multi-imagen y ruidosa de los datos de comercio electrónico, sin sacrificar el rendimiento general. En este trabajo, demostramos mediante un estudio experimental a gran escala cómo la adaptación dirigida de los VLM generales puede mejorar sustancialmente el rendimiento en comercio electrónico, preservando al mismo tiempo sus amplias capacidades multimodales. Además, proponemos una novedosa suite de evaluación exhaustiva que cubre la comprensión profunda de productos, el seguimiento estricto de instrucciones y la extracción dinámica de atributos.
Presentamos Gaia2, un benchmark para evaluar agentes de modelos de lenguaje grande en entornos realistas y asíncronos. A diferencia de las evaluaciones estáticas o síncronas previas, Gaia2 introduce escenarios donde los entornos evolucionan de forma independiente a las acciones del agente, lo que requiere que los agentes operen bajo restricciones temporales, se adapten a eventos dinámicos y con ruido, resuelvan ambigüedades y colaboren con otros agentes. Cada escenario se empareja con un verificador de acciones de escritura, permitiendo una evaluación detallada a nivel de acción y haciendo que Gaia2 sea directamente utilizable para el aprendizaje por refuerzo a partir de recompensas verificables. Nuestra evaluación de modelos propietarios y de código abierto de última generación muestra que ningún modelo domina en todas las capacidades: GPT-5 (high) alcanza la puntuación general más fuerte con un 42% en pass@1, pero falla en tareas sensibles al tiempo; Claude-4 Sonnet intercambia precisión y velocidad por coste; Kimi-K2 lidera entre los modelos de código abierto con un 21% en pass@1. Estos resultados resaltan compensaciones fundamentales entre razonamiento, eficiencia, robustez y exponen los desafíos para cerrar la brecha de "sim2real". Gaia2 está construido sobre un entorno de consumo con la plataforma de código abierto Agents Research Environments y está diseñado para ser fácil de extender. Al liberar Gaia2 junto con el framework fundacional ARE, nuestro objetivo es proporcionar a la comunidad una infraestructura flexible para desarrollar, comparar y entrenar la próxima generación de sistemas de agentes prácticos.
El panorama de la generación de vídeos con IA está experimentando un cambio crucial: la transición desde la generación general, que depende de una exhaustiva ingeniería de prompts y de una "selección de lo mejor", hacia una generación de grano fino y controlable, junto con un postprocesado de alta fidelidad. En la realización cinematográfica profesional asistida por IA, es crucial realizar modificaciones precisas y dirigidas. Un pilar fundamental de esta transición es la inserción de instancias en vídeo, que requiere insertar una instancia específica en una secuencia existente manteniendo la integridad de la escena. A diferencia de la edición de vídeo tradicional, esta tarea exige varios requisitos: una colocación espacio-temporal precisa, una interacción con la escena físicamente consistente y la preservación fiel de la dinámica original, todo ello logrado con un esfuerzo de usuario mínimo. En este artículo, proponemos PISCO, un modelo de difusión de vídeo para la inserción precisa de instancias con control arbitrario mediante *keyframes* dispersos. PISCO permite a los usuarios especificar un único *keyframe*, *keyframes* de inicio y fin, o *keyframes* dispersos en marcas de tiempo arbitrarias, propagando automáticamente la apariencia, el movimiento y la interacción del objeto. Para abordar el severo cambio de distribución inducido por el condicionamiento disperso en los modelos de difusión de vídeo preentrenados, introducimos la Guía de Información Variable para un condicionamiento robusto y el Enmascaramiento Temporal de Preservación de Distribución para estabilizar la generación temporal, junto con un condicionamiento consciente de la geometría para una adaptación realista de la escena. Además, construimos PISCO-Bench, un benchmark con anotaciones de instancias verificadas y vídeos de fondo limpios emparejados, y evaluamos el rendimiento utilizando métricas perceptuales tanto basadas en referencia como libres de referencia. Los experimentos demuestran que PISCO supera consistentemente a los baselines sólidos de *inpainting* y edición de vídeo bajo control disperso, y exhibe mejoras de rendimiento claras y monótonas a medida que se proporcionan señales de control adicionales. Página del proyecto: xiangbogaobarry.github.io/PISCO.
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR), particularmente GRPO, se ha convertido en el estándar para elicitar el razonamiento en LLMs. Sin embargo, su eficiencia en la exploración y la adaptación a la dificultad sigue siendo un desafío abierto. En este trabajo, argumentamos que estos cuellos de botella provienen de una simetría de ventaja implícita inherente a la Estimación de Ventaja Relativa Grupal (GRAE). Esta simetría induce dos limitaciones críticas: (i) a nivel grupal, la simetría estricta en los pesos entre trayectorias correctas e incorrectas deja sin cambios los *logits* de acciones no muestreadas, obstaculizando así la exploración de nuevas soluciones correctas. (ii) a nivel de muestra, el algoritmo prioriza implícitamente muestras de dificultad media, permaneciendo agnóstico a las demandas no estacionarias del enfoque en la dificultad. A través de experimentos controlados, revelamos que esta propiedad simétrica es subóptima, arrojando dos insights fundamentales: (i) suprimir asimétricamente las ventajas de las trayectorias correctas fomenta una exploración esencial. (ii) la eficiencia del aprendizaje se maximiza con una transición curricular que prioriza inicialmente muestras más simples antes de cambiar gradualmente a otras complejas. Motivados por estos hallazgos, proponemos GRAE Asimétrico (A-GRAE), que modula dinámicamente los incentivos de exploración y el enfoque en la dificultad de las muestras. Los experimentos en siete benchmarks demuestran que A-GRAE mejora consistentemente a GRPO y sus variantes tanto en LLMs como en MLLMs.
Trabajos recientes exploran el razonamiento latente para mejorar la eficiencia del razonamiento sustituyendo las trayectorias de razonamiento explícito por representaciones continuas en un espacio latente, aunque su efectividad varía según los entornos. El análisis de la dinámica de la confianza del modelo bajo razonamiento latente revela que las trayectorias de pensamiento que terminan en respuestas incorrectas contienen menos pasos de baja confianza que aquellas que terminan en respuestas correctas. Paralelamente, sugerimos que las incrustaciones blandas agregadas por múltiples alternativas de pensamiento de baja confianza pueden introducir y propagar ruido, conduciendo a una alta confianza en trayectorias de razonamiento no confiables. Motivados por estas observaciones, se propone ThinkRouter, un mecanismo de enrutamiento consciente de la confianza durante la inferencia, para evitar alta confianza y ruido en pos de un razonamiento eficiente. ThinkRouter dirige el pensamiento al espacio discreto de tokens cuando la confianza del modelo es baja, y al espacio latente en caso contrario. Experimentos exhaustivos en benchmarks de razonamiento STEM y codificación, utilizando diversos modelos de razonamiento grande, demuestran que ThinkRouter supera a las líneas base de Cadena de Pensamiento (CoT) explícita, enrutamiento aleatorio y razonamiento latente en términos de precisión, logrando una mejora promedio de 19.70 puntos en Pass@1, mientras reduce la longitud de la generación hasta en un 15.55%. Un análisis integral adicional revela que ThinkRouter puede calibrar los errores surgidos del CoT explícito y del razonamiento latente, y acelera la generación del token de fin de pensamiento al reducir globalmente la confianza del modelo.
Los modelos de lenguaje de gran tamaño basados en difusión (DLLMs) tienen el potencial de permitir una generación rápida de texto mediante la decodificación paralela de múltiples tokens. Sin embargo, en la práctica, su eficiencia inferencial se ve limitada por la necesidad de muchos pasos de refinamiento, mientras que reducir agresivamente el número de pasos conduce a una degradación sustancial en la calidad de la generación. Para mitigar esto, proponemos un marco de autodestilación de trayectorias que mejora la decodificación con pocos pasos mediante la destilación de las propias trayectorias generativas del modelo. Incorporamos la Optimización Discriminativa Directa (DDO), un objetivo de divergencia KL inversa que promueve una destilación centrada en modos y alienta al modelo estudiante a concentrarse en los modos de alta probabilidad del modelo maestro. En diversos benchmarks, nuestro enfoque supera consistentemente a sólidas líneas base de pocos pasos y al entrenamiento estándar bajo presupuestos ajustados de pasos. Aunque la decodificación con todos los pasos sigue siendo superior, reducimos sustancialmente la brecha, estableciendo una base sólida hacia DLLMs prácticos con pocos pasos. El código fuente está disponible en https://github.com/Tyrion58/T3D.
Se reconsideran las amplitudes de dispersión de n gluones a nivel árbol con una helicidad negativa. A menudo se supone que se anulan, pero aquí se demuestra que no son nulas para ciertas configuraciones "semicolineales" que existen en el espacio de Klein o para momentos complejificados. Derivamos una expresión cerrada, constante a trozos, para la desintegración de un gluón de helicidad negativa en n-1 gluones de helicidad positiva en función de sus momentos. Esta fórmula satisface de manera no trivial múltiples condiciones de consistencia, incluido el teorema de suavizado de Weinberg.
La memoria de largo plazo permite a los agentes de modelos de lenguaje grande abordar tareas complejas mediante interacciones históricas. Sin embargo, los marcos existentes se enfrentan a un dilema fundamental entre comprimir información redundante de manera eficiente y mantener una recuperación precisa para las tareas posteriores. Para salvar esta brecha, proponemos MemFly, un marco basado en los principios del cuello de botella de la información que facilita la evolución de la memoria en tiempo real para los LLM. Nuestro enfoque minimiza la entropía de compresión mientras maximiza la entropía de relevancia mediante un optimizador libre de gradientes, construyendo una estructura de memoria estratificada para un almacenamiento eficiente. Para aprovechar al máximo MemFly, desarrollamos un mecanismo de recuperación híbrido que integra de manera fluida vías semánticas, simbólicas y topológicas, incorporando una refinación iterativa para manejar consultas complejas de múltiples saltos. Experimentos exhaustivos demuestran que MemFly supera sustancialmente a los métodos de referencia más avanzados en coherencia de memoria, fidelidad de respuesta y precisión.
La evolución de los modelos de lenguaje grandes (LLM) hacia aplicaciones con contextos ultralargos enfrenta desafíos planteados por los altos costes computacionales y de memoria de la arquitectura Transformer. Si bien los mecanismos de atención dispersa y lineal existentes intentan mitigar estos problemas, generalmente implican una compensación entre la eficiencia de memoria y el rendimiento del modelo. Este artículo presenta MiniCPM-SALA, una arquitectura híbrida de 9B parámetros que integra el modelado de contexto largo de alta fidelidad de la atención dispersa (InfLLM-V2) con la eficiencia global de la atención lineal (Lightning Attention). Mediante el empleo de un algoritmo de selección de capas para integrar estos mecanismos en una proporción 1:3 y la utilización de una codificación posicional híbrida (HyPE), el modelo mantiene la eficiencia y el rendimiento en tareas de contexto largo. Además, introducimos un marco de entrenamiento continuo de bajo coste que transforma modelos preentrenados basados en Transformer en modelos híbridos, lo que reduce los costes de entrenamiento en aproximadamente un 75% en comparación con el entrenamiento desde cero. Experimentos exhaustivos demuestran que MiniCPM-SALA mantiene capacidades generales comparables a los modelos de atención completa mientras ofrece una eficiencia mejorada. En una única GPU NVIDIA A6000D, el modelo logra hasta 3.5 veces la velocidad de inferencia del modelo de atención completa con una longitud de secuencia de 256K tokens y admite longitudes de contexto de hasta 1 millón de tokens, una escala en la que los modelos tradicionales de 8B con atención completa fallan debido a las limitaciones de memoria.
El aprendizaje de mundo abierto enmarca la inteligencia como un fenómeno emergente de la interacción continua con un espacio en constante expansión de entornos. Si bien avances recientes han utilizado modelos de base para generar entornos diversos de manera programática, estos enfoques a menudo se centran en descubrir comportamientos aislados en lugar de orquestar una progresión sostenida. En mundos abiertos complejos, el gran espacio combinatorio de desafíos posibles dificulta que los agentes descubran secuencias de experiencias que se mantengan consistentemente aprendibles. Para abordar esto, proponemos Soñar en Código (DiCode), un marco en el que los modelos de base sintetizan código ejecutable de entornos para andamiar el aprendizaje hacia una competencia creciente. En DiCode, "soñar" toma la forma de materializar variaciones del mundo a nivel de código. Instanciamos DiCode en Craftax, un benchmark desafiante de mundo abierto caracterizado por una mecánica rica y una progresión de largo horizonte. Empíricamente, DiCode permite a los agentes adquirir habilidades de largo horizonte, logrando una mejora del 16% en la recompensa media sobre el baseline más fuerte y un éxito no nulo en tareas de combate de etapas tardías donde los métodos anteriores fallan. Nuestros resultados sugieren que el diseño de entornos a nivel de código proporciona un mecanismo práctico para el control curricular, permitiendo la construcción de entornos intermedios que salvan las brechas de competencia en mundos abiertos. La página del proyecto y el código fuente están disponibles en https://konstantinosmitsides.github.io/dreaming-in-code y https://github.com/konstantinosmitsides/dreaming-in-code.
El preentrenamiento de modelos de lenguaje grandes (LLM) generalmente requiere clústeres centralizados con miles de GPU de alta memoria (por ejemplo, H100/A100). Los métodos recientes de entrenamiento descentralizado reducen la sobrecarga de comunicación mediante el uso de optimización federada; sin embargo, aún necesitan entrenar el modelo completo en cada nodo, lo que los mantiene limitados por las restricciones de memoria de las GPU. En este trabajo, proponemos Sincronización de Expertos Dispersos (SPES), un marco descentralizado eficiente en memoria para el preentrenamiento de LLM de mezcla de expertos (MoE). SPES entrena solo un subconjunto de expertos por nodo, reduciendo sustancialmente la huella de memoria. Cada nodo actualiza sus expertos locales y se sincroniza periódicamente con otros nodos, eliminando la transmisión de parámetros completos mientras garantiza un intercambio de conocimiento eficiente. Para acelerar la convergencia, introducimos una estrategia de calentamiento por fusión de expertos, donde los expertos intercambian conocimiento en las primeras etapas del entrenamiento para establecer rápidamente capacidades fundamentales. Con SPES, entrenamos un LLM MoE de 2B parámetros utilizando 16 GPU independientes de 48GB a través de conexiones a Internet, el cual logra un rendimiento competitivo con LLM entrenados centralmente bajo presupuestos computacionales similares. Además, demostramos escalabilidad entrenando un modelo de 7B desde cero y un modelo de 9B reciclado a partir de un *checkpoint* denso, ambos igualando líneas de base centralizadas previas. Nuestro código está disponible en https://github.com/zjr2000/SPES.
El despliegue de robots a gran escala exige robustez frente a la larga cola de situaciones cotidianas. Las innumerables variaciones en la disposición de la escena, la geometría de los objetos y las especificaciones de las tareas que caracterizan los entornos reales son inmensas y están infrarrepresentadas en los puntos de referencia robóticos existentes. Medir este nivel de generalización requiere una infraestructura con una escala y diversidad que la evaluación física por sí sola no puede proporcionar. Presentamos MolmoSpaces, un ecosistema completamente abierto para apoyar la evaluación comparativa a gran escala de políticas de control robóticas. MolmoSpaces consta de más de 230.000 entornos interiores diversos, que van desde escenas domésticas creadas manualmente hasta casas con múltiples habitaciones generadas proceduralmente, pobladas con 130.000 activos de objetos ricamente anotados, incluyendo 48.000 objetos manipulables con 42 millones de presas estables. Crucialmente, estos entornos son independientes del simulador, soportando opciones populares como MuJoCo, Isaac y ManiSkill. El ecosistema soporta todo el espectro de tareas corporizadas: manipulación estática y móvil, navegación y tareas de largo horizonte en múltiples habitaciones que requieren percepción, planificación e interacción coordinadas en entornos interiores completos. También diseñamos MolmoSpaces-Bench, un conjunto de evaluación comparativa de 8 tareas en las que los robots interactúan con nuestras diversas escenas y objetos ricamente anotados. Nuestros experimentos muestran que MolmoSpaces-Bench exhibe una fuerte correlación sim-a-real (R = 0,96, ρ = 0,98), confirman que políticas más nuevas y robustas de zero-shot superan a versiones anteriores en nuestras pruebas, e identifican sensibilidades clave a la redacción de instrucciones, las posiciones articulares iniciales y la oclusión de la cámara. A través de MolmoSpaces y sus activos y herramientas de código abierto, proporcionamos una base para la generación escalable de datos, el entrenamiento de políticas y la creación de puntos de referencia para la investigación en aprendizaje robótico.
Los documentos empresariales, como formularios e informes, contienen información crítica para aplicaciones posteriores como el archivo de datos, los flujos de trabajo automatizados y el análisis. Aunque los Modelos de Lenguaje Visual (VLMs) generalistas obtienen buenos resultados en los puntos de referencia establecidos para la comprensión de documentos, su capacidad para realizar una extracción estructurada holística y de grano fino en diversos tipos de documentos y esquemas flexibles no ha sido bien estudiada. Los conjuntos de datos existentes para la Extracción de Entidades Clave (KEE), la Extracción de Relaciones (RE) y la Respuesta a Preguntas Visuales (VQA) están limitados por ontologías de entidades reducidas, consultas simples o tipos de documentos homogéneos, y a menudo pasan por alto la necesidad de una extracción estructurada y adaptable. Para abordar estas lagunas, presentamos ExStrucTiny, un nuevo conjunto de datos de referencia para la Extracción de Información (IE) estructurada a partir de imágenes de documentos, que unifica aspectos de KEE, RE y VQA. Construido mediante una novedosa pipeline que combina muestras manuales y sintéticas validadas por humanos, ExStrucTiny abarca tipos de documentos y escenarios de extracción más variados. Analizamos VLMs abiertos y cerrados en este benchmark, destacando desafíos como la adaptación al esquema, la subespecificación de consultas y la localización de respuestas. Esperamos que nuestro trabajo sirva de base para mejorar los modelos generalistas en la IE estructurada en documentos.
Los modelos lingüísticos grandes multimodales (MLLMs) se utilizan cada vez más para tareas del mundo real que implican razonamiento de múltiples pasos y generación de texto extenso, donde la fiabilidad requiere fundamentar las salidas del modelo en fuentes de entrada heterogéneas y verificar afirmaciones factuales individuales. Sin embargo, los puntos de referencia y métodos de evaluación de fundamentación multimodal existentes se centran en escenarios simplificados basados en la observación o en modalidades limitadas, y no logran evaluar la atribución en el razonamiento multimodal complejo. Presentamos MuRGAt (Razonamiento Multimodal con Atribución Fundamentada), un punto de referencia para evaluar la atribución multimodal a nivel factual en entornos que requieren razonamiento más allá de la observación directa. Dadas entradas que abarcan video, audio y otras modalidades, MuRGAt exige a los modelos que generen respuestas con razonamiento explícito y citas precisas, donde cada cita especifica tanto la modalidad como los segmentos temporales. Para permitir una evaluación fiable, introducimos un marco de evaluación automática que se correlaciona fuertemente con los juicios humanos. La evaluación comparativa con puntuaciones humanas y automatizadas revela que incluso los MLLMs potentes frecuentemente alucinan citas a pesar de un razonamiento correcto. Además, observamos un dilema clave: aumentar la profundidad del razonamiento o imponer una fundamentación estructurada a menudo degrada la precisión, destacando una brecha significativa entre el razonamiento interno y la atribución verificable.
Los modelos de lenguaje grandes (LLM) han demostrado capacidades de razonamiento excepcionales, y los paradigmas de co-evolución han mostrado resultados prometedores en dominios como código y matemáticas. Sin embargo, en tareas de razonamiento científico, estos modelos siguen siendo frágiles debido a una evaluación de soluciones poco fiable y a una diversidad limitada en las estrategias de verificación. En este trabajo, proponemos Sci-CoE, un marco de co-evolución científica en dos etapas que permite a los modelos auto-evolucionar como solucionador y verificadores mediante una transición desde una supervisión escasa a un aprendizaje no supervisado. En la primera etapa, el modelo utiliza un pequeño conjunto de datos anotados para establecer anclajes de juicio de corrección básicos para el Verificador. En la segunda etapa, introducimos un mecanismo de recompensa geométrica que considera conjuntamente el consenso, la fiabilidad y la diversidad, impulsando la auto-iteración a gran escala sobre datos no etiquetados. Los experimentos en varios benchmarks científicos generales demuestran que Sci-CoE mejora las capacidades de razonamiento complejo y exhibe una gran escalabilidad, facilitando la construcción de sistemas de evaluación más robustos y diversos. El código está disponible en https://github.com/InternScience/Sci-CoE.
La alineación personalizada de modelos de lenguaje de gran tamaño busca adaptar las respuestas a las preferencias individuales de los usuarios, generalmente mediante aprendizaje por refuerzo. Un desafío clave es obtener señales de recompensa precisas y específicas del usuario en escenarios de respuesta abierta. Los modelos de recompensa personalizados existentes enfrentan dos limitaciones persistentes: (1) simplifican en exceso las preferencias diversas y específicas del escenario reduciéndolas a un conjunto pequeño y fijo de principios de evaluación, y (2) tienen dificultades para generalizar a nuevos usuarios con retroalimentación limitada. Para ello, proponemos P-GenRM, el primer Modelo de Recompensa Generativo Personalizado con escalado en tiempo de prueba basado en el usuario. P-GenRM transforma las señales de preferencia en cadenas de evaluación estructuradas que derivan *personas* adaptativas y rúbricas de puntuación en diversos escenarios. Además, agrupa a los usuarios en Prototipos de Usuario e introduce un mecanismo de escalado de doble granularidad: a nivel individual, escala y agrega de forma adaptativa el esquema de puntuación de cada usuario; a nivel de prototipo, incorpora las preferencias de usuarios similares. Este diseño mitiga el ruido en las preferencias inferidas y mejora la generalización a usuarios no vistos mediante la transferencia basada en prototipos. Los resultados empíricos muestran que P-GenRM logra resultados de vanguardia en benchmarks ampliamente utilizados para modelos de recompensa personalizados, con una mejora promedio del 2.31%, y demuestra una fuerte generalización en un conjunto de datos fuera de distribución. Notablemente, el escalado en tiempo de prueba basado en el usuario proporciona una mejora adicional del 3%, demostrando una alineación personalizada más sólida con escalabilidad en tiempo de prueba.
La comprensión metafórica en imágenes sigue siendo un desafío crítico para los sistemas de IA actuales. Si bien los Modelos de Lenguaje Grandes Multimodales (MLLMs) sobresalen en la Respuesta a Preguntas Visuales (VQA) básica, consistentemente luchan por captar las implicaciones culturales, emocionales y contextuales matizadas incrustadas en el contenido visual. Esta dificultad surge de la demanda de la tarea por capacidades de razonamiento multicapa sofisticado, contexto cultural y Teoría de la Mente (ToM), de las cuales carecen los modelos actuales. Para llenar este vacío, proponemos MetaphorStar, el primer marco de aprendizaje por refuerzo (RL) visual integral para tareas de implicación en imágenes. Nuestro marco incluye tres componentes centrales: el conjunto de datos de grano fino TFQ-Data, el método de RL visual TFQ-GRPO y el benchmark bien estructurado TFQ-Bench. Nuestra familia MetaphorStar, completamente de código abierto y entrenada usando TFQ-GRPO en TFQ-Data, mejora significativamente el rendimiento en un promedio del 82.6% en los benchmarks de implicación en imágenes. En comparación con más de 20 MLLMs principales, MetaphorStar-32B logra el estado del arte (SOTA) en Preguntas de Opción Múltiple y Preguntas de Estilo Abierto, y supera significativamente al principal modelo de código cerrado Gemini-3.0-pro en Preguntas de Verdadero o Falso. Crucialmente, nuestros experimentos revelan que aprender tareas de implicación en imágenes mejora la capacidad de comprensión general, especialmente la capacidad de razonamiento visual complejo. Además, proporcionamos un análisis sistemático del escalado de parámetros del modelo, el escalado de datos de entrenamiento, y el impacto de diferentes arquitecturas de modelo y estrategias de entrenamiento, demostrando la amplia aplicabilidad de nuestro método. Hemos liberado todos los pesos del modelo, conjuntos de datos y código del método en https://metaphorstar.github.io.
Estudiamos agentes aumentados con herramientas y restricciones presupuestarias, en los que un modelo de lenguaje grande debe resolver tareas de múltiples pasos invocando herramientas externas bajo un estricto presupuesto monetario. Formalizamos este escenario como una toma de decisiones secuencial en el espacio de contexto con ejecuciones de herramientas con precio y estocásticas, lo que hace que la planificación directa sea intratable debido a los espacios masivos de estados-acciones, la alta varianza de los resultados y el costo prohibitivo de exploración. Para abordar estos desafíos, proponemos INTENT, un marco de planificación en tiempo de inferencia que aprovecha un modelo jerárquico del mundo consciente de las intenciones para anticipar el uso futuro de herramientas, el costo calibrado por riesgo y guiar las decisiones en línea. En el conjunto StableToolBench aumentado con costos, INTENT hace cumplir estrictamente la viabilidad del presupuesto fijo mientras mejora sustancialmente el éxito de las tareas en comparación con los métodos base, y mantiene su robustez bajo cambios dinámicos del mercado como variaciones en los precios de las herramientas y presupuestos cambiantes.
El Ajuste de Instrucción Visual a Gran Escala (VIT) se ha convertido en un paradigma clave para mejorar el rendimiento de los modelos de visión y lenguaje (VLM) en diversas tareas multimodales. Sin embargo, el entrenamiento en conjuntos de datos a gran escala es computacionalmente costoso e ineficiente debido a la redundancia en los datos, lo que motiva la necesidad de selección de datos multimodales para mejorar la eficiencia del entrenamiento. Los métodos de selección de datos existentes para VIT requieren un entrenamiento costoso o el cálculo de gradientes. Las alternativas que no requieren entrenamiento a menudo dependen de modelos o conjuntos de datos proxy, representaciones independientes de la instrucción y similitud por pares con complejidad cuadrática, lo que limita la escalabilidad y la fidelidad de la representación. En este trabajo, proponemos ScalSelect, un método de selección de datos multimodales escalable y sin entrenamiento, con una complejidad de tiempo lineal con respecto al número de muestras, que elimina la necesidad de modelos externos o conjuntos de datos auxiliares. ScalSelect primero construye representaciones de las muestras extrayendo las características visuales a las que los tokens de instrucción del VLM objetivo prestan mayor atención, capturando así información relevante para la instrucción. Luego identifica las muestras cuyas representaciones mejor aproximan el subespacio dominante de las representaciones del conjunto de datos completo, permitiendo una puntuación de importancia escalable sin comparaciones por pares. Experimentos exhaustivos en múltiples VLM, conjuntos de datos y presupuestos de selección demuestran que ScalSelect logra más del 97.5% del rendimiento del entrenamiento con el conjunto de datos completo utilizando solo el 16% de los datos, e incluso supera al entrenamiento con todos los datos en algunos escenarios. El código está disponible en https://github.com/ChangtiWu/ScalSelect.
El aprendizaje por refuerzo con recompensas verificables (RLVR) es fundamental para entrenar modelos de razonamiento modernos, pero los datos de entrenamiento no divulgados generan preocupación sobre la contaminación de benchmarks. A diferencia de los métodos de preentrenamiento, que optimizan modelos utilizando probabilidades a nivel de token, RLVR ajusta modelos basándose en retroalimentación de recompensa proveniente de trayectorias de razonamiento autogeneradas, lo que hace que los métodos de detección convencionales basados en verosimilitud sean menos efectivos. Demostramos que RLVR induce una firma conductual distintiva: los prompts encontrados durante el entrenamiento con RLVR resultan en generaciones más rígidas y similares, mientras que los prompts no vistos conservan una mayor diversidad. Introducimos Min-kNN Distance, un detector simple de caja negra que cuantifica este colapso muestreando múltiples completamientos para un prompt dado y calculando el promedio de las k distancias de edición de vecinos más cercanos más pequeñas. Min-kNN Distance no requiere acceso al modelo de referencia ni a las probabilidades de token. Experimentos en múltiples modelos de razonamiento entrenados con RLVR muestran que Min-kNN Distance distingue de manera confiable ejemplos vistos durante RL de los no vistos, y supera a los baselines existentes de inferencia de membresía y detección de contaminación por RL.
La navegación corporeizada ha estado históricamente fragmentada por arquitecturas específicas para cada tarea. Presentamos ABot-N0, un modelo fundacional unificado de Visión-Lenguaje-Acción (VLA) que logra una «Gran Unificación» en 5 tareas fundamentales: Navegación a Punto, Navegación a Objeto, Seguimiento de Instrucciones, Navegación a Puntos de Interés y Seguimiento de Personas. ABot-N0 utiliza una arquitectura jerárquica «Cerebro-Acción», que empareja un Cerebro Cognitivo basado en LLM para el razonamiento semántico con un Experto en Acción basado en Emparejamiento de Flujos para la generación precisa de trayectorias continuas. Para sustentar el aprendizaje a gran escala, desarrollamos el Motor de Datos ABot-N0, que curó 16.9 millones de trayectorias expertas y 5.0 millones de muestras de razonamiento en 7,802 escenas 3D de alta fidelidad (10.7 km²). ABot-N0 alcanza un nuevo rendimiento estado del arte en 7 benchmarks, superando significativamente a modelos especializados. Además, nuestro Sistema de Navegación Agéntico integra un planificador con memoria topológica jerárquica, permitiendo misiones robustas de largo horizonte en entornos dinámicos del mundo real.
La generación de stems musicales, la tarea de producir clips de audio de instrumentos aislados y sincronizados musicalmente, ofrece el potencial de un mayor control para el usuario y una mejor alineación con los flujos de trabajo de los músicos en comparación con los modelos convencionales de texto a música. Sin embargo, los enfoques existentes de generación de stems dependen de arquitecturas fijas que generan un conjunto predefinido de stems en paralelo, o generan solo un stem a la vez, lo que resulta en una inferencia lenta a pesar de la flexibilidad en la combinación de stems. Proponemos Stemphonic, un marco basado en difusión/flujo que supera esta compensación y genera un conjunto variable de stems sincronizados en un único paso de inferencia. Durante el entrenamiento, tratamos cada stem como un elemento del lote, agrupamos los stems sincronizados en un lote y aplicamos un latente de ruido compartido a cada grupo. En el momento de la inferencia, utilizamos un latente de ruido inicial compartido y entradas de texto específicas para cada stem para generar salidas multi-stem sincronizadas en un solo paso. Además, expandimos nuestro enfoque para permitir la generación condicional multi-stem en un solo paso y controles de actividad por stem, capacitando a los usuarios para generar de manera iterativa y orquestar la superposición temporal de una mezcla. Evaluamos nuestros resultados en múltiples conjuntos de evaluación de stems de código abierto y demostramos que Stemphonic produce salidas de mayor calidad mientras acelera el proceso de generación de la mezcla completa entre un 25% y un 50%. Demos en: https://stemphonic-demo.vercel.app.
La disyuntiva entre interpretabilidad y precisión sigue siendo un desafío central en el aprendizaje automático. Los Modelos Aditivos Generalizados (GAM) estándar ofrecen atribuciones de características claras, pero a menudo se ven limitados por su naturaleza estrictamente aditiva, lo que puede restringir el rendimiento predictivo. La introducción de interacciones entre características puede aumentar la precisión, pero puede oscurecer las contribuciones individuales de cada característica. Para abordar estos problemas, proponemos Expertos Aditivos Neuronales (NAE), un marco novedoso que equilibra de manera fluida la interpretabilidad y la precisión. Los NAE emplean un marco de mezcla de expertos, aprendiendo múltiples redes especializadas por característica, mientras que un mecanismo de compuerta dinámica integra la información entre características, relajando así las rígidas restricciones aditivas. Además, proponemos técnicas de regularización dirigida para mitigar la varianza entre las predicciones de los expertos, facilitando una transición suave desde un modelo exclusivamente aditivo hacia uno que captura interacciones complejas de características, manteniendo al mismo tiempo la claridad en las atribuciones. Nuestro análisis teórico y los experimentos con datos sintéticos ilustran la flexibilidad del modelo, y evaluaciones exhaustivas en conjuntos de datos del mundo real confirman que los NAE logran un equilibrio óptimo entre la precisión predictiva y explicaciones transparentes a nivel de características. El código está disponible en https://github.com/Teddy-XiongGZ/NAE.