Artículos de investigación en IA seleccionados diariamente con traducciones
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) se basa comúnmente en el muestreo por grupos para estimar ventajas y estabilizar las actualizaciones de la política. En la práctica, los tamaños de grupo grandes no son factibles debido a limitaciones computacionales, lo que sesga el aprendizaje hacia trayectorias que ya son probables. Los grupos más pequeños a menudo pierden trayectorias correctas raras mientras aún contienen recompensas mixtas, concentrando la probabilidad en soluciones comunes. Derivamos la probabilidad de que las actualizaciones pasen por alto modos correctos raros en función del tamaño del grupo, mostrando un comportamiento no monótono, y caracterizamos cómo las actualizaciones redistribuyen la masa dentro del conjunto correcto, revelando que la masa correcta no muestreada puede reducirse incluso cuando la masa correcta total crece. Motivados por este análisis, proponemos un coeficiente de escalado de ventajas consciente de la dificultad, inspirado en la pérdida focal, que reduce el peso de las actualizaciones en instrucciones de alto éxito. Esta modificación ligera puede integrarse directamente en cualquier algoritmo RLVR relativo a grupos como GRPO, DAPO y CISPO. En Qwen2.5-7B, a través de benchmarks dentro y fuera del dominio, nuestro método mejora pass@256 de 64.1 → 70.3 (GRPO), 69.3 → 72.5 (DAPO) y 73.2 → 76.8 (CISPO), mientras preserva o mejora pass@1, sin aumentar el tamaño del grupo ni el coste computacional.
Los Autoencoders Dispersos (SAE) son herramientas poderosas para interpretar representaciones neuronales, aunque su uso en audio sigue estando poco explorado. Entrenamos SAE en todas las capas del codificador de Whisper y HuBERT, realizamos una evaluación exhaustiva de su estabilidad e interpretabilidad, y demostramos su utilidad práctica. Más del 50% de las características se mantienen consistentes entre diferentes semillas aleatorias, y se preserva la calidad de la reconstrucción. Las características del SAE capturan información acústica y semántica general, así como eventos específicos, incluyendo ruidos ambientales y sonidos paralingüísticos (por ejemplo, risas, susurros), y los desentrañan eficazmente, requiriendo la eliminación de solo el 19-27% de las características para borrar un concepto. La dirección de características reduce las detecciones de habla falsa de Whisper en un 70% con un aumento negligible del WER, lo que demuestra su aplicabilidad en el mundo real. Finalmente, encontramos que las características del SAE se correlacionan con la actividad EEG humana durante la percepción del habla, lo que indica una alineación con el procesamiento neuronal humano. El código y los puntos de control están disponibles en https://github.com/audiosae/audiosae_demo.
Presentamos Baichuan-M3, un modelo de lenguaje grande de capacidades médicas mejoradas, diseñado para cambiar el paradigma de la mera respuesta pasiva de preguntas hacia un apoyo activo para la toma de decisiones de grado clínico. Para abordar las limitaciones de los sistemas existentes en consultas de respuesta abierta, Baichuan-M3 utiliza un pipeline de entrenamiento especializado que modela el flujo de trabajo sistemático de un médico. Sus capacidades clave incluyen: (i) adquisición proactiva de información para resolver ambigüedades; (ii) razonamiento de largo alcance que unifica evidencias dispersas en diagnósticos coherentes; y (iii) supresión adaptativa de alucinaciones para garantizar la fiabilidad factual. Las evaluaciones empíricas demuestran que Baichuan-M3 logra resultados de vanguardia en HealthBench, el recién introducido HealthBench-Hallu y ScanBench, superando significativamente a GPT-5.2 en consulta clínica, asesoramiento y seguridad. Los modelos están disponibles públicamente en https://huggingface.co/collections/baichuan-inc/baichuan-m3.
El rápido avance de los Modelos de Lenguaje a Gran Escala (LLMs) ha catalizado el desarrollo de agentes autónomos capaces de navegar en entornos complejos. Sin embargo, las evaluaciones existentes adoptan principalmente un paradigma deductivo, donde los agentes ejecutan tareas basándose en reglas explícitamente proporcionadas y objetivos estáticos, a menudo dentro de horizontes de planificación limitados. Crucialmente, esto descuida la necesidad inductiva de que los agentes descubran leyes de transición latentes a partir de la experiencia de forma autónoma, que es la piedra angular para permitir la previsión agéntica y sostener la coherencia estratégica. Para cerrar esta brecha, presentamos OdysseyArena, que reorienta la evaluación de agentes hacia interacciones inductivas, activas y de largo horizonte. Formalizamos e instanciamos cuatro primitivas, traduciendo dinámicas de transición abstractas en entornos interactivos concretos. Sobre esta base, establecemos OdysseyArena-Lite para la evaluación comparativa estandarizada, proporcionando un conjunto de 120 tareas para medir la eficiencia inductiva y el descubrimiento de largo horizonte de un agente. Yendo más allá, presentamos OdysseyArena-Challenge para someter a prueba de estrés la estabilidad de los agentes en horizontes de interacción extremos (por ejemplo, > 200 pasos). Experimentos exhaustivos con más de 15 LLMs líderes revelan que incluso los modelos más avanzados presentan deficiencias en escenarios inductivos, identificando un cuello de botella crítico en la búsqueda del descubrimiento autónomo en entornos complejos. Nuestro código y datos están disponibles en https://github.com/xufangzhi/Odyssey-Arena.
La entropía sirve como una métrica crítica para medir la diversidad de las salidas generadas por los modelos de lenguaje a gran escala (LLMs), proporcionando información valiosa sobre sus capacidades de exploración. Si bien estudios recientes se centran cada vez más en monitorear y ajustar la entropía para equilibrar mejor la exploración y la explotación en el ajuste fino por refuerzo (RFT), aún falta investigar exhaustivamente una comprensión fundamentada de la dinámica de la entropía durante este proceso. En este artículo, establecemos un marco teórico para analizar la dinámica de la entropía durante el proceso de RFT, que comienza con una expresión discriminante que cuantifica el cambio de entropía bajo una actualización única del logit. Esta base permite derivar una expresión de primer orden para el cambio de entropía, que puede extenderse aún más a la fórmula de actualización de la Optimización de Políticas Relativas de Grupo (GRPO). Los corolarios y perspectivas extraídos del análisis teórico inspiran el diseño de métodos de control de entropía y también ofrecen una lente unificada para interpretar varios métodos basados en entropía en estudios existentes. Proporcionamos evidencia empírica para respaldar las principales conclusiones de nuestro análisis y demostramos la efectividad de los métodos de recorte discriminante de entropía derivados. Este estudio produce nuevas perspectivas sobre la dinámica del entrenamiento RFT, proporcionando soporte teórico y estrategias prácticas para optimizar el equilibrio exploración-explotación durante el ajuste fino de LLMs.
Poder simular los resultados de acciones en entornos variados revolucionará el desarrollo de agentes generalistas a gran escala. Sin embargo, modelar estas dinámicas del mundo, especialmente para tareas de robótica diestra, plantea desafíos significativos debido a la cobertura limitada de datos y la escasez de etiquetas de acción. Como un esfuerzo hacia este fin, presentamos DreamDojo, un modelo del mundo fundacional que aprende interacciones diversas y controles diestros a partir de 44 mil horas de videos humanos egocéntricos. Nuestra mezcla de datos representa el conjunto de datos de video más grande hasta la fecha para el preentrenamiento de modelos del mundo, abarcando una amplia gama de escenarios cotidianos con diversos objetos y habilidades. Para abordar la escasez de etiquetas de acción, introducimos acciones latentes continuas como acciones proxy unificadas, mejorando la transferencia de conocimiento de interacción desde videos sin etiquetar. Después del post-entrenamiento en datos de robots objetivo a pequeña escala, DreamDojo demuestra una sólida comprensión de la física y una precisión de control de acciones precisa. También diseñamos una pipeline de destilación que acelera DreamDojo a una velocidad en tiempo real de 10.81 FPS y mejora aún más la consistencia contextual. Nuestro trabajo permite varias aplicaciones importantes basadas en modelos del mundo generativos, incluyendo teleoperación en vivo, evaluación de políticas y planificación basada en modelos. La evaluación sistemática en múltiples benchmarks desafiantes de fuera de distribución (OOD) verifica la importancia de nuestro método para simular tareas de mundo abierto y ricas en contacto, allanando el camino para modelos del mundo de robots de propósito general.
Este trabajo presenta un sistema de conversión de voz a texto denominado "Pisets", dirigido a científicos y periodistas, que se basa en una arquitectura de tres componentes diseñada para mejorar la precisión del reconocimiento del habla y minimizar los errores y las alucinaciones asociadas al modelo Whisper. La arquitectura consta de un reconocimiento primario mediante Wav2Vec2, un filtrado de falsos positivos a través del Transformer de Espectrograma de Audio (AST) y un reconocimiento final del habla mediante Whisper. La implementación de métodos de aprendizaje curricular y la utilización de diversos corpus de habla en ruso mejoraron significativamente la eficacia del sistema. Además, se introdujeron técnicas avanzadas de modelado de incertidumbre, lo que contribuyó a nuevas mejoras en la calidad de la transcripción. Los enfoques propuestos garantizan una transcripción robusta de datos de audio largos en diversas condiciones acústicas en comparación con WhisperX y el modelo Whisper convencional. El código fuente del sistema "Pisets" está disponible públicamente en GitHub: https://github.com/bond005/pisets.
La inestabilidad en el entrenamiento sigue siendo un desafío crítico en el preentrenamiento de modelos de lenguaje grandes (LLM), manifestándose a menudo como explosiones súbitas del gradiente que desperdician recursos computacionales significativos. Estudiamos las fallas de entrenamiento en un modelo NanoGPT de 5M de parámetros escalado mediante μP, identificando dos fenómenos clave que preceden al colapso: (1) la rápida disminución del rango estable de la matriz de pesos (relación entre la norma de Frobenius al cuadrado y la norma espectral al cuadrado), y (2) la creciente alineación entre los jacobianos de capas adyacentes. Demostramos teóricamente que estas dos condiciones conjuntamente causan un crecimiento exponencial de la norma del gradiente con la profundidad de la red. Para romper este mecanismo de inestabilidad, proponemos MSign, un nuevo optimizador que aplica periódicamente operaciones de signo matricial para restaurar el rango estable. Los experimentos en modelos desde 5M hasta 3B de parámetros demuestran que MSign previene efectivamente las fallas de entrenamiento con una sobrecarga computacional inferior al 7.0%.
El modelado interno del mundo —predecir transiciones entre estados anteriores X y estados siguientes Y bajo acciones Z— es esencial para el razonamiento y la planificación en LLMs y VLMs. Aprender dichos modelos normalmente requiere trayectorias costosas etiquetadas con acciones. Proponemos SWIRL, un marco de auto-mejora que aprende de secuencias que contienen solo estados, tratando las acciones como una variable latente y alternando entre Modelado Directo del Mundo (FWM) P_θ(Y|X,Z) y un Modelado de Dinámica Inversa (IDM) Q_φ(Z|X,Y). SWIRL itera dos fases: (1) Maximización de Información Variacional, que actualiza el FWM para generar estados siguientes que maximicen la información mutua condicional con las acciones latentes dado los estados previos, fomentando una consistencia identificable; y (2) Maximización del ELBO, que actualiza el IDM para explicar las transiciones observadas, efectuando un ascenso coordenado. Ambos modelos se entrenan con aprendizaje por refuerzo (específicamente, GRPO) utilizando la log-probabilidad del modelo opuesto congelado como señal de recompensa. Proporcionamos garantías teóricas de capacidad de aprendizaje para ambas actualizaciones, y evaluamos SWIRL en LLMs y VLMs a través de múltiples entornos: dinámicas visuales de mundo abierto de turno único y múltiples turnos, y entornos textuales sintéticos para física, web y uso de herramientas. SWIRL logra mejoras del 16% en AURORABench, 28% en ByteMorph, 16% en WorldPredictionBench y 14% en StableToolBench.
Los avances recientes en modelos de razonamiento sugieren que la generación de intentos plausibles para matemáticas de nivel investigador podría estar al alcance, pero la verificación sigue siendo un cuello de botella que consume el escaso tiempo de los expertos. Nuestra hipótesis es que una solución significativa debe contener suficiente información a nivel metodológico para que, cuando se aplique a un conjunto de preguntas relacionadas, produzca un mejor rendimiento posterior que las soluciones incorrectas. Basándonos en esta idea, proponemos la Utilidad Basada en Consecuencias, un evaluador libre de oráculo que puntúa cada candidato probando su valor como ejemplo contextual para resolver preguntas relacionadas pero verificables. Nuestro enfoque se evalúa en un conjunto original de problemas matemáticos de nivel investigador, cada uno emparejado con una solución escrita por expertos y nueve soluciones generadas por LLM. Notablemente, la Utilidad Basada en Consecuencias supera consistentemente a los modelos de recompensa, modelos de recompensa generativos y jueces LLM en calidad de clasificación. Específicamente, para GPT-OSS-120B, mejora la Precisión@1 de 67.2 a 76.3 y el AUC de 71.4 a 79.6, con ganancias igualmente grandes en AUC para GPT-OSS-20B (69.0 a 79.2). Además, en comparación con los Jueces-LLM, también exhibe una brecha mayor entre resolvedor y evaluador, manteniendo una separación correcto-incorrecto más sólida incluso en instancias donde el resolvedor subyacente a menudo falla en resolver.
Los modelos de razonamiento extenso a menudo presentan dificultades en entornos multilingües: tienden a razonar en inglés para preguntas no inglesas; cuando se les restringe a razonar en el idioma de la pregunta, la precisión disminuye sustancialmente. Esta dificultad se debe a las capacidades limitadas tanto para la comprensión multilingüe de preguntas como para el razonamiento multilingüe. Para abordar ambos problemas, proponemos TRIT (Entrenamiento Integrado de Traducción y Razonamiento), un marco de auto-mejora que integra el entrenamiento en traducción dentro del razonamiento multilingüe. Sin retroalimentación externa o datos multilingües adicionales, nuestro método mejora conjuntamente la comprensión multilingüe de preguntas y la generación de respuestas. En MMATH, nuestro método supera a múltiples líneas base en un promedio de 7 puntos porcentuales, mejorando tanto la corrección de las respuestas como la coherencia lingüística. Un análisis más profundo revela que la integración del entrenamiento en traducción mejora la alineación crosslingüe de preguntas en más de 10 puntos porcentuales y aumenta la calidad de la traducción tanto para preguntas matemáticas como para texto de dominio general, con ganancias de hasta 8.4 puntos COMET en FLORES-200.
El rápido avance de los modelos de visión y lenguaje ha catalizado la aparición de agentes de interfaz gráfica de usuario (GUI), los cuales poseen un inmenso potencial para automatizar tareas complejas, desde compras en línea hasta reservas de vuelos, aliviando así la carga de los flujos de trabajo digitales repetitivos. Como capacidad fundamental, el grounding de GUI se establece típicamente como un prerrequisito para la ejecución de tareas de extremo a extremo. Permite a los modelos localizar con precisión elementos de la interfaz, como texto e iconos, para realizar operaciones exactas como clics y escritura. A diferencia de trabajos anteriores que ajustan modelos que ya poseen una fuerte conciencia espacial (por ejemplo, Qwen3-VL), nuestro objetivo es dominar la pipeline técnica completa comenzando desde un modelo base con una capacidad de grounding mínima, como POINTS-1.5. Presentamos POINTS-GUI-G-8B, que logra un rendimiento de vanguardia con puntuaciones de 59.9 en ScreenSpot-Pro, 66.0 en OSWorld-G, 95.7 en ScreenSpot-v2 y 49.9 en UI-Vision. El éxito de nuestro modelo se debe a tres factores clave: (1) Ingeniería de Datos Refinada, que implica la unificación del formato de diversos conjuntos de datos de código abierto junto con estrategias sofisticadas para aumento, filtrado y clasificación por dificultad; (2) Estrategias de Entrenamiento Mejoradas, que incluyen el ajuste fino continuo del codificador de visión para mejorar la precisión perceptual y mantener la consistencia de la resolución entre el entrenamiento y la inferencia; y (3) Aprendizaje por Refuerzo (RL) con Recompensas Verificables. Si bien el RL se utiliza tradicionalmente para reforzar el razonamiento, demostramos que mejora significativamente la precisión en la tarea de grounding de GUI, que es intensiva en percepción. Además, el grounding de GUI proporciona una ventaja natural para el RL, ya que las recompensas son fácilmente verificables y muy precisas.
La escalada de los Modelos de Lenguaje Grandes (LLM) impulsa el interés en optimizadores basados en matrices (por ejemplo, Shampoo, Muon, SOAP) por su eficiencia de convergencia; sin embargo, su requisito de actualizaciones holísticas entra en conflicto con la fragmentación de tensores en frameworks distribuidos como Megatron. Las soluciones existentes son subóptimas: los enfoques síncronos adolecen de redundancia computacional, mientras que la partición por capas no logra reconciliar este conflicto sin violar las restricciones geométricas de las primitivas de comunicación eficientes. Para salvar esta brecha, proponemos Canzona, un framework Unificado, Asíncrono y con Equilibrio de Carga que desacopla la asignación lógica del optimizador de la distribución física de parámetros. Para el Paralelismo de Datos, introducimos una estrategia de Partición Estática alfa-Equilibrada que respeta la atomicidad mientras neutraliza el desequilibrio de carga. Para el Paralelismo de Tensores, diseñamos un pipeline de Cómputo Asíncrono que utiliza Micro-Grupos de Planificación para agrupar actualizaciones fragmentadas y ocultar la sobrecarga de reconstrucción. Evaluaciones exhaustivas en la familia de modelos Qwen3 (hasta 32B parámetros) en 256 GPUs demuestran que nuestro enfoque preserva la eficiencia de las arquitecturas paralelas establecidas, logrando una aceleración de 1.57x en el tiempo de iteración integral y reduciendo la latencia del paso del optimizador en 5.8x comparado con la línea base.
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) ha surgido como un paradigma indispensable para mejorar el razonamiento en los Modelos de Lenguaje a Gran Escala (LLMs). Sin embargo, los métodos de optimización de políticas estándar, como la Optimización de Políticas Relativas por Grupos (GRPO), a menudo convergen en políticas de baja entropía, lo que conduce a un colapso modal severo y a una diversidad de salida limitada. Analizamos este problema desde la perspectiva de la dinámica de probabilidad de muestreo, identificando que el objetivo estándar refuerza desproporcionadamente las rutas de máxima verosimilitud, suprimiendo así cadenas de razonamiento alternativas válidas. Para abordarlo, proponemos un novedoso Mecanismo de Reponderación de Ventajas (ARM) diseñado para equilibrar los niveles de confianza en todas las respuestas correctas. Al incorporar la Perplejidad del Prompt y la Confianza de la Respuesta en la estimación de la ventaja, nuestro método remodela dinámicamente la señal de recompensa para atenuar las actualizaciones de gradiente de las rutas de razonamiento sobre-confidentes, mientras redistribuye la masa de probabilidad hacia soluciones correctas infraexploradas. Los resultados empíricos demuestran que nuestro enfoque mejora significativamente la diversidad generativa y la entropía de las respuestas manteniendo una precisión competitiva, logrando efectivamente un equilibrio superior entre exploración y explotación en tareas de razonamiento. Los resultados empíricos en los modelos Qwen2.5 y DeepSeek en benchmarks matemáticos y de codificación muestran que ProGRPO mitiga significativamente el colapso de entropía. Específicamente, en Qwen2.5-7B, nuestro método supera a GRPO en un 5.7% en Pass@1 y, notablemente, en un 13.9% en Pass@32, destacando su capacidad superior para generar diversas rutas de razonamiento correctas.
Los grandes modelos de razonamiento logran un alto rendimiento mediante el escalado de cadenas de pensamiento en tiempo de inferencia, pero este paradigma sufre de costos cuadráticos, límites de longitud de contexto y degradación del razonamiento debido a efectos de "pérdida en el medio". El razonamiento iterativo mitiga estos problemas resumiendo periódicamente los pensamientos intermedios, aunque los métodos existentes dependen de aprendizaje supervisado o heurísticas fijas y no optimizan cuándo resumir, qué preservar y cómo reanudar el razonamiento. Proponemos InftyThink+, un marco de aprendizaje por refuerzo de extremo a extremo que optimiza toda la trayectoria de razonamiento iterativo, basándose en límites de iteración controlados por el modelo y una summarización explícita. InftyThink+ adopta un esquema de entrenamiento en dos etapas con un inicio en frío supervisado seguido de aprendizaje por refuerzo a nivel de trayectoria, permitiendo que el modelo aprenda decisiones estratégicas de summarización y continuación. Los experimentos en DeepSeek-R1-Distill-Qwen-1.5B muestran que InftyThink+ mejora la precisión en un 21% en AIME24 y supera claramente al aprendizaje por refuerzo convencional con cadenas de pensamiento largas, además de generalizar mejor a benchmarks fuera de distribución. Además, InftyThink+ reduce significativamente la latencia de inferencia y acelera el entrenamiento por refuerzo, demostrando una eficiencia de razonamiento mejorada junto con un rendimiento más sólido.
Los puntos de referencia actuales para agentes de GUI móviles fallan sistemáticamente en evaluar las capacidades de memoria, con solo un 5,2-11,8% de tareas relacionadas con la memoria y ninguna evaluación de aprendizaje entre sesiones. Presentamos MemGUI-Bench, un punto de referencia integral centrado en la memoria con evaluación pass@k y evaluación escalonada mediante LLM-como-juez. Nuestras contribuciones incluyen: (1) una taxonomía sistemática de la memoria que analiza 11 agentes en 5 arquitecturas; (2) 128 tareas en 26 aplicaciones donde el 89,8% desafían la memoria mediante retención cross-temporal y cross-espacial; (3) MemGUI-Eval, una canalización automatizada con Escrutinio Progresivo y 7 métricas jerárquicas; y (4) evaluación basada en preguntas de investigación de 11 agentes de vanguardia. Nuestros experimentos revelan déficits significativos de memoria en todos los sistemas evaluados, identifican 5 modos de fallo distintos y sintetizan 5 implicaciones de diseño accionables. Todos los recursos, incluidos el código, el punto de referencia y los resultados de evaluación, estarán \textit{completamente disponibles como código abierto y se mantendrán continuamente} en https://lgy0404.github.io/MemGUI-Bench/.
La comprensión de videos egocéntricos juega un papel vital para la inteligencia corporeizada. Los modelos lingüísticos grandes multimodales (MLLMs) recientes pueden aceptar entradas tanto visuales como auditivas. Sin embargo, debido al desafío de obtener etiquetas de texto con información conjunta coherente entre modalidades, si los MLLMs pueden comprender conjuntamente ambas modalidades en videos egocéntricos sigue siendo un área poco explorada. Para abordar este problema, presentamos EgoAVU, un motor de datos escalable para generar automáticamente narraciones, preguntas y respuestas audio-visuales egocéntricas. EgoAVU enriquece las narraciones humanas con contexto multimodal y genera narraciones audio-visuales mediante el modelado de correlaciones cruzadas entre modalidades. La filtración de videos basada en *tokens* y una curación modular basada en grafos garantizan tanto la diversidad como la calidad de los datos. Aprovechando EgoAVU, construimos EgoAVU-Instruct, un conjunto de datos de entrenamiento a gran escala de 3M de muestras, y EgoAVU-Bench, una división de evaluación verificada manualmente que cubre diversas tareas. EgoAVU-Bench revela claramente las limitaciones de los MLLMs existentes: presentan un sesgo importante hacia las señales visuales, a menudo descuidando las pistas auditivas o fallando en correlacionar el audio con la fuente visual. El ajuste fino de los MLLMs en EgoAVU-Instruct aborda eficazmente este problema, permitiendo una mejora de rendimiento de hasta el 113% en EgoAVU-Bench. Dichos beneficios también se transfieren a otros puntos de referencia como EgoTempo y EgoIllusion, logrando una ganancia de rendimiento relativa de hasta el 28%. El código será liberado para la comunidad.
Los Modelos Generativos de Recompensa (GenRMs) y los sistemas LLM-como-Juez exhiben una alineación engañosa al producir juicios correctos por razones incorrectas, ya que son entrenados y evaluados para priorizar la Precisión del Resultado, lo que socava su capacidad de generalización durante el RLHF. Introducimos la Consistencia de la Razonamiento, una métrica detallada que cuantifica la alineación entre el proceso de razonamiento del modelo y el juicio humano. Nuestra evaluación de modelos de vanguardia revela que la consistencia de la razonamiento discrimina efectivamente entre los modelos más avanzados y detecta la alineación engañosa, mientras que la precisión del resultado falla en ambos aspectos. Para mitigar esta brecha, introducimos una señal híbrida que combina la consistencia de la razonamiento con la precisión del resultado para el entrenamiento de GenRMs. Nuestro método de entrenamiento alcanza un rendimiento de vanguardia en RM-Bench (87.1%) y JudgeBench (82%), superando los modelos basados únicamente en resultados en un promedio del 5%. Al utilizar el modelo de recompensa durante el RLHF, nuestro método mejora efectivamente el rendimiento como se demuestra en Arena Hard v2, logrando notablemente una mejora del 7% en tareas de escritura creativa. Un análisis adicional confirma que nuestro método escapa de la trampa de la alineación engañosa, revirtiendo efectivamente la disminución en la consistencia de la razonamiento observada en el entrenamiento basado únicamente en resultados.
Las arquitecturas Mixture-of-Experts (MoE) están evolucionando hacia una granularidad más fina para mejorar la eficiencia de parámetros. Sin embargo, los diseños MoE existentes enfrentan una disyuntiva inherente entre la granularidad de la especialización de los expertos y la eficiencia de ejecución en hardware. Proponemos OmniMoE, un marco de codesarrollo sistema-algoritmo que lleva la granularidad de los expertos a su extremo lógico. OmniMoE introduce Expertos Atómicos a nivel vectorial, permitiendo un enrutamiento y ejecución escalables dentro de una única capa MoE, mientras mantiene una rama MLP densa compartida para el procesamiento de propósito general. Aunque este diseño atómico maximiza la capacidad, plantea graves desafíos para la complejidad del enrutamiento y el acceso a memoria. Para abordarlos, OmniMoE adopta un codesarrollo sistema-algoritmo: (i) un Enrutador de Producto Cartesiano que descompone el espacio masivo de índices para reducir la complejidad del enrutamiento de O(N) a O(√N); y (ii) una Planificación Centrada en Expertos que invierte el orden de ejecución para convertir las búsquedas dispersas, limitadas por memoria, en operaciones densas de matrices eficientes. Validado en siete benchmarks, OmniMoE (con 1.7B parámetros activos) logra una precisión zero-shot del 50.9% en siete benchmarks, superando a las líneas base de granularidad gruesa (por ejemplo, DeepSeekMoE) y granularidad fina (por ejemplo, PEER). Crucialmente, OmniMoE reduce la latencia de inferencia de 73 ms a 6.7 ms (una aceleración de 10.9 veces) en comparación con PEER, demostrando que MoE de granularidad fina a gran escala puede ser rápido y preciso. Nuestro código es de código abierto en https://github.com/flash-algo/omni-moe.
Mientras los humanos perciben el mundo a través de diversas modalidades que operan de forma sinérgica para sustentar una comprensión holística de su entorno, los modelos omnivideo existentes aún enfrentan desafíos sustanciales en tareas de comprensión audio-visual. En este artículo, proponemos OmniVideo-R1, un novedoso marco reforzado que mejora el razonamiento multimodal. OmniVideo-R1 dota a los modelos de la capacidad de "pensar con claves omnimodales" mediante dos estrategias clave: (1) una fundamentación intensiva de consultas basada en paradigmas de aprendizaje autosupervisado; y (2) una fusión atenta a la modalidad construida sobre paradigmas de aprendizaje contrastivo. Experimentos exhaustivos en múltiples benchmarks demuestran que OmniVideo-R1 supera consistentemente a líneas de base sólidas, resaltando su efectividad y robustas capacidades de generalización.
Los Modelos de Lenguaje Grandes (LLM) han demostrado capacidades de razonamiento notables, logrando resultados impresionantes en una amplia gama de tareas. A pesar de estos avances, persisten fallos significativos de razonamiento, que ocurren incluso en escenarios aparentemente simples. Para comprender y abordar sistemáticamente estas deficiencias, presentamos la primera revisión integral dedicada a los fallos de razonamiento en los LLM. Introducimos un novedoso marco de categorización que distingue el razonamiento en tipos encarnado y no encarnado, subdividiendo este último en razonamiento informal (intuitivo) y formal (lógico). Paralelamente, clasificamos los fallos de razonamiento a lo largo de un eje complementario en tres tipos: fallos fundamentales intrínsecos a las arquitecturas de los LLM que afectan ampliamente a las tareas posteriores; limitaciones específicas de aplicación que se manifiestan en dominios particulares; y problemas de robustez caracterizados por un rendimiento inconsistente ante variaciones menores. Para cada fallo de razonamiento, proporcionamos una definición clara, analizamos estudios existentes, exploramos las causas profundas y presentamos estrategias de mitigación. Al unificar esfuerzos de investigación fragmentados, nuestra revisión ofrece una perspectiva estructurada sobre las debilidades sistémicas en el razonamiento de los LLM, proporcionando información valiosa y guiando la investigación futura hacia la construcción de capacidades de razonamiento más sólidas, fiables y robustas. Adicionalmente, publicamos una colección exhaustiva de trabajos de investigación sobre fallos de razonamiento en LLM, como un repositorio de GitHub en https://github.com/Peiyang-Song/Awesome-LLM-Reasoning-Failures, para proporcionar un punto de acceso sencillo a esta área.
Los agentes de auto-mejora abierta pueden modificar autónomamente sus diseños estructurales para potenciar sus capacidades y superar los límites de las arquitecturas predefinidas, reduciendo así la dependencia de la intervención humana. Presentamos Agentes de Evolución Grupal (GEA), un nuevo paradigma para la auto-mejora abierta que considera un grupo de agentes como unidad evolutiva fundamental, permitiendo el intercambio y reutilización explícita de experiencias dentro del grupo durante toda la evolución. A diferencia de los paradigmas existentes de auto-evolución abierta que adoptan estructuras arbóreas de evolución, GEA supera la limitación de utilización ineficiente de la diversidad exploratoria causada por ramas evolutivas aisladas. Evaluamos GEA en benchmarks desafiantes de programación, donde supera significativamente a los métodos de auto-evolución más avanzados (71.0% vs. 56.7% en SWE-bench Verified, 88.3% vs. 68.3% en Polyglot) e iguala o supera a los mejores frameworks de agentes diseñados por humanos (71.8% y 52.0% en dos benchmarks respectivamente). El análisis revela que GEA convierte más efectivamente la diversidad exploratoria inicial en progreso sostenido a largo plazo, logrando un rendimiento superior con el mismo número de agentes evolucionados. Además, GEA exhibe una transferibilidad consistente entre diferentes modelos de programación y mayor robustez, corrigiendo errores a nivel de framework en 1.4 iteraciones en promedio, frente a las 5 de los métodos de auto-evolución.
La cuantización solo de pesos es fundamental para comprimir Modelos de Lenguaje a Gran Escala (LLMs). Inspirados por el espíritu de la poda clásica por magnitud, investigamos si la magnitud de las actualizaciones de pesos durante el ajuste fino incentivado por razonamiento puede proporcionar señales valiosas para cuantizar Modelos de Razonamiento a Gran Escala (LRMs). Nuestra hipótesis postula que las actualizaciones de pesos más pequeñas y más grandes durante el ajuste fino son más importantes que aquellas de magnitud intermedia, un fenómeno que denominamos "protección de ambos extremos". Tras validar la hipótesis, presentamos QuantLRM, que significa cuantización de pesos de LRMs mediante señales de ajuste fino. Ajustamos funciones cuadráticas restringidas simples sobre las actualizaciones de pesos para proteger ambos extremos. Multiplicando los valores cuadráticos promedio por el recuento de actualizaciones de pesos cero de los canales, calculamos una importancia del canal que resulta más efectiva que utilizar información de activación o de segundo orden. Ejecutamos QuantLRM para cuantizar varios modelos ajustados (incluyendo ajuste supervisado, optimización directa de preferencias y ajuste fino por aprendizaje por refuerzo) en cuatro benchmarks de razonamiento (AIME-120, FOLIO, secuencias temporales y GPQA-Diamond) y encontramos empíricamente que QuantLRM ofrece una mejora consistente para la cuantización de LRMs, con una mejora promedio del 6.55% en un modelo ajustado mediante aprendizaje por refuerzo. QuantLRM también es compatible con LRMs no ajustados, obteniendo señales efectivas mediante un pseudo-ajuste fino, lo que aumenta enormemente su aplicabilidad.
La implementación eficiente de modelos de lenguaje grandes (LLM) requiere una cuantificación extrema, lo que impone una disyuntiva crítica entre la eficiencia de bajo bit y el rendimiento. La binarización residual permite una inferencia eficiente para hardware y libre de multiplicaciones de matrices (matmul) mediante la disposición en capas de operadores binarios (±1), pero se ve afectada por una patológica co-adaptación de características. Identificamos un modo de fallo clave, que denominamos **adaptación inter-rutas**: durante el entrenamiento consciente de la cuantificación (QAT), las rutas residuales binarias paralelas aprenden características redundantes, degradando la estructura de compensación de errores y limitando la capacidad expresiva del modelo. Mientras que trabajos previos dependen de soluciones heurísticas (como la congelación de rutas) que restringen el espacio de soluciones, proponemos **RaBiT**, un novedoso marco de cuantificación que resuelve la co-adaptación mediante la imposición algorítmica de una jerarquía residual. Su mecanismo central deriva secuencialmente cada ruta binaria a partir de un único peso de precisión completa compartido, lo que garantiza que cada ruta corrija el error de la anterior. Este proceso se estabiliza mediante una inicialización robusta que prioriza la preservación funcional sobre la mera aproximación de pesos. RaBiT redefine el límite de precisión-eficiencia para 2 bits: logra un rendimiento de vanguardia, rivaliza incluso con los métodos de Cuantificación Vectorial (VQ) intensivos en hardware, y proporciona una aceleración de la inferencia de 4.49 veces sobre los modelos de precisión completa en una RTX 4090.
Los Modelos de Lenguaje Grandes (LLM, por sus siglas en inglés) suelen mostrar un rendimiento reducido, una alineación cultural y una solidez en materia de seguridad inferiores en idiomas distintos del inglés, en parte porque el inglés domina tanto los datos de preentrenamiento como los conjuntos de datos de alineación de preferencias humanas. Métodos de entrenamiento como el Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF) y la Optimización Directa de Preferencias (DPO) requieren datos de preferencias humanas, que siguen siendo escasos y en gran medida no públicos para muchos idiomas aparte del inglés. Para abordar esta brecha, presentamos compar:IA, un servicio público digital de código abierto desarrollado dentro del gobierno francés y diseñado para recopilar datos de preferencias humanas a gran escala de una audiencia general predominantemente francófona. La plataforma utiliza una interfaz de comparación por pares ciega para capturar instrucciones (prompts) del mundo real sin restricciones y juicios de usuarios sobre un conjunto diverso de modelos de lenguaje, manteniendo una baja fricción de participación y un filtrado automático que preserva la privacidad. A fecha de 07-02-2026, compar:IA ha recopilado más de 600,000 instrucciones de forma libre y 250,000 votos de preferencia, siendo aproximadamente el 89% de los datos en francés. Publicamos tres conjuntos de datos complementarios —conversaciones, votos y reacciones— bajo licencias abiertas, y presentamos análisis iniciales, que incluyen una clasificación (leaderboard) de modelos para el idioma francés y patrones de interacción del usuario. Más allá del contexto francés, compar:IA está evolucionando hacia un bien público digital internacional, ofreciendo una infraestructura reutilizable para el entrenamiento y evaluación de modelos multilingües, y para el estudio de la interacción humano-IA.
Estudiamos un modo de fallo persistente en la alineación multi-objetivo para modelos de lenguaje grandes (LLM): el entrenamiento mejora el rendimiento solo en un subconjunto de objetivos mientras causa el deterioro de otros. Formalizamos este fenómeno como interferencia cruzada de objetivos y realizamos el primer estudio sistemático a través de algoritmos de scalarización clásicos, demostrando que la interferencia es generalizada y exhibe una fuerte dependencia del modelo. Para explicar este fenómeno, derivamos una ley de covarianza local que muestra que un objetivo mejora en primer orden cuando su recompensa exhibe una covarianza positiva con la puntuación scalarizada. Extendemos este análisis a los objetivos sustitutivos recortados utilizados en la alineación moderna, demostrando que la ley de covarianza sigue siendo válida bajo condiciones suaves a pesar del recorte. Basándonos en este análisis, proponemos la Adaptación de Peso Dirigida por Covarianza (CTWA), un método plug-and-play que mantiene una covarianza positiva entre las recompensas de los objetivos y la señal de entrenamiento para mitigar efectivamente la interferencia cruzada de objetivos. Finalmente, complementamos estas condiciones de mejora local con un análisis de convergencia global bajo la condición de Polyak-Łojasiewicz, estableciendo cuándo la optimización scalarizada no convexa logra convergencia global y cómo la interferencia cruzada de objetivos depende de propiedades geométricas específicas del modelo.
Los jailbreaks de múltiples turnos capturan el modelo de amenaza real para chatbots alineados con la seguridad, donde los ataques de un solo turno son meramente un caso especial. Sin embargo, los enfoques existentes fracasan ante la complejidad de exploración y la deriva de intención. Proponemos SEMA, un marco simple pero efectivo que entrena a un atacante de múltiples turnos sin depender de estrategias existentes o datos externos. SEMA comprende dos etapas. El autoajuste de prefijado permite despliegues utilizables mediante el ajuste fino en indicaciones adversarias de múltiples turnos, auto-generadas con un prefijo mínimo, que no son rechazadas y están bien estructuradas, estabilizando así el aprendizaje posterior. El aprendizaje por refuerzo con recompensa consciente de la deriva de intención entrena al atacante para generar indicaciones adversarias válidas de múltiples turnos mientras mantiene el mismo objetivo dañino. Anclamos la intención dañina en los jailbreaks de múltiples turnos mediante una recompensa consciente de la deriva que combina la alineación de la intención, el riesgo de cumplimiento y el nivel de detalle. Nuestro régimen de ataque de lazo abierto evita la dependencia de la retroalimentación de la víctima, unifica los escenarios de un solo y múltiples turnos, y reduce la complejidad de exploración. En múltiples conjuntos de datos, modelos víctima y evaluadores de jailbreak, nuestro método logra tasas de éxito de ataque (ASR) state-of-the-art (SOTA), superando a todos los baselines de un solo turno, a los baselines de múltiples turnos guionados manualmente y basados en plantillas, así como a nuestras variantes de SFT (Supervised Fine-Tuning) y DPO (Direct Preference Optimization). Por ejemplo, SEMA realiza un promedio de 80.1% ASR@1 en tres modelos víctima de código cerrado y abierto en AdvBench, un 33.9% por encima del SOTA. El enfoque es compacto, reproducible y se transfiere entre objetivos, proporcionando una prueba de estrés más fuerte y realista para la seguridad de los modelos de lenguaje grande (LLM) y permitiendo pruebas de penetración automáticas para exponer y localizar modos de fallo. Nuestro código está disponible en: https://github.com/fmmarkmq/SEMA.
El aprendizaje por refuerzo (RL) se ha consolidado como el paradigma predominante para entrenar agentes de IA basados en modelos de lenguaje grandes (LLM). Sin embargo, los algoritmos RL centrales existentes carecen de garantías de convergencia verificadas en escenarios agentivos, especialmente en entornos de múltiples turnos, lo que puede provocar inestabilidad en el entrenamiento y fallos para converger a políticas óptimas. En este artículo, analizamos sistemáticamente cómo diferentes combinaciones de mecanismos de actualización de políticas y métodos de estimación de ventajas afectan a las propiedades de convergencia en escenarios de uno/múltiples turnos. Encontramos que REINFORCE con Estimación de Ventaja Relativa Grupal (GRAE) puede converger al óptimo global bajo condiciones no descontadas, pero la combinación de PPO y GRAE rompe la propiedad original de mejora monótona de PPO. Además, demostramos que los algoritmos RL centrales principales no pueden lograr simultáneamente ser libres de crítico y tener garantías de convergencia en escenarios de múltiples turnos. Para abordar esto, proponemos SeeUPO (Optimización de Políticas de Actualización Secuencial a Nivel de Secuencia), un enfoque libre de crítico con garantías de convergencia para interacciones multi-turno. SeeUPO modela la interacción multi-turno como problemas de bandido multi-agente ejecutados secuencialmente. Mediante actualizaciones secuenciales de políticas turno por turno en orden de ejecución inverso, garantiza una mejora monótona y la convergencia a la solución óptima global mediante inducción hacia atrás. Los experimentos en AppWorld y BFCL v4 demuestran las mejoras sustanciales de SeeUPO sobre los algoritmos centrales existentes: ganancias relativas del 43.3%-54.6% en Qwen3-14B y del 24.1%-41.9% en Qwen2.5-14B (promediado entre benchmarks), junto con una estabilidad de entrenamiento superior.
Los flujos estándar de entrenamiento para modelos de lenguaje a gran escala (LLM) son típicamente unidireccionales, avanzando desde el pre-entrenamiento hacia el post-entrenamiento. Sin embargo, el potencial de un proceso bidireccional—donde los conocimientos del post-entrenamiento mejoren retroactivamente la base pre-entrenada—permanece inexplorado. Nuestro objetivo es establecer un efecto flywheel de autorrefuerzo: un ciclo en el que un modelo ajustado con aprendizaje por refuerzo (RL) fortalece el modelo base, que a su vez mejora el rendimiento posterior del post-entrenamiento, sin necesidad de un modelo maestro o de referencia especialmente entrenado. Para lograr esto, analizamos la dinámica del entrenamiento e identificamos la fase de entrenamiento medio (annealing) como un punto de inflexión crítico para las capacidades del modelo. Esta fase ocurre típicamente al final del pre-entrenamiento, utilizando corpus de alta calidad bajo una tasa de aprendizaje que decae rápidamente. Basándonos en esta idea, presentamos ReMiT (Mid-Training Guiado por Aprendizaje por Refuerzo). Específicamente, ReMiT aprovecha los sesgos de razonamiento de los modelos ajustados con RL para reponderar dinámicamente los tokens durante la fase de entrenamiento medio, priorizando aquellos que son cruciales para el razonamiento. Empíricamente, ReMiT logra una mejora promedio del 3% en 10 benchmarks de pre-entrenamiento, abarcando matemáticas, código y razonamiento general, y mantiene estas ganancias en más del 2% a lo largo de todo el pipeline de post-entrenamiento. Estos resultados validan un bucle de retroalimentación iterativo, permitiendo una evolución continua y de autorrefuerzo de los LLM.
Los modelos multimodales unificados (UMM) han demostrado capacidades impresionantes para generar imágenes naturales y apoyar el razonamiento multimodal. Sin embargo, su potencial para apoyar tareas de planificación de uso informático, que están estrechamente relacionadas con nuestra vida cotidiana, sigue sin explorarse suficientemente. La generación y edición de imágenes en tareas de uso informático requieren capacidades como el razonamiento espacial y la comprensión procedural, y aún se desconoce si los UMM poseen estas capacidades para completar dichas tareas. Por lo tanto, proponemos PlanViz, un nuevo benchmark diseñado para evaluar la generación y edición de imágenes para tareas de uso informático. Para lograr el objetivo de nuestra evaluación, nos centramos en subtareas que involucran frecuentemente la vida diaria y requieren pasos de planificación. Específicamente, se diseñan tres nuevas subtareas: planificación de rutas, diagramación de flujos de trabajo y visualización de interfaces web y de usuario. Abordamos los desafíos de garantizar la calidad de los datos mediante la curación de preguntas anotadas por humanos e imágenes de referencia, y un proceso de control de calidad. Para los desafíos de una evaluación exhaustiva y exacta, se propone una puntuación adaptativa a la tarea, el PlanScore. Esta puntuación ayuda a comprender la corrección, la calidad visual y la eficiencia de las imágenes generadas. A través de experimentos, destacamos limitaciones clave y oportunidades para futuras investigaciones sobre este tema.
La suavidad de la arquitectura transformer ha sido ampliamente estudiada en el contexto de la generalización, la estabilidad del entrenamiento y la robustez adversarial. Sin embargo, su papel en el aprendizaje por transferencia sigue siendo poco comprendido. En este artículo, analizamos la capacidad de los componentes del vision transformer para adaptar sus salidas a cambios en las entradas, o, en otras palabras, su plasticidad. Definida como una tasa promedio de cambio, captura la sensibilidad a la perturbación de la entrada; en particular, una plasticidad alta implica una suavidad baja. Demostramos mediante análisis teórico y experimentos exhaustivos que esta perspectiva proporciona una guía fundamentada para elegir los componentes a priorizar durante la adaptación. Una conclusión clave para los profesionales es que la alta plasticidad de los módulos de atención y las capas feedforward conduce consistentemente a un mejor rendimiento durante el ajuste fino. Nuestros hallazgos se apartan de la suposición predominante de que la suavidad es deseable, ofreciendo una nueva perspectiva sobre las propiedades funcionales de los transformers. El código está disponible en https://github.com/ambroiseodt/vit-plasticity.
Los modelos lingüísticos Transformer densos han seguido mayoritariamente una forma arquitectónica consistente: cada capa consta de un módulo de atención seguido por una red de alimentación directa (FFN) con un MLP de forma estrecha-ancha-estrecha, asignando la mayoría de los parámetros al MLP con ratios de expansión entre 2 y 4. Motivados por resultados recientes que indican que los MLP residuales de forma ancha-estrecha-ancha (con forma de reloj de arena) ofrecen capacidades superiores de aproximación de funciones, revisitamos la convención de forma del MLP en los Transformers, desafiando la necesidad del diseño estrecho-ancho-estrecho. Para estudiar esto, desarrollamos una variante de Transformer que reemplaza la FFN convencional por una FFN más profunda con forma de reloj de arena, compuesta por una pila de sub-MLPs con esta forma conectados mediante rutas residuales. Postulamos que una FFN de reloj de arena más profunda pero más ligera puede servir como una alternativa competitiva a la FFN convencional, y que los parámetros ahorrados al usar una FFN de reloj de arena más ligera pueden utilizarse de manera más efectiva, por ejemplo, ampliando las dimensiones ocultas del modelo bajo presupuestos fijos. Confirmamos esto mediante validaciones empíricas en diferentes escalas de modelos: las FFN de reloj de arena superan a las FFN convencionales hasta los 400M de parámetros y logran un rendimiento comparable a escalas mayores, hasta los 1000M de parámetros; las variantes de FFN de reloj de arena con parámetros reducidos en la FFN y aumentados en la atención muestran mejoras consistentes respecto a las configuraciones convencionales con el mismo presupuesto computacional. En conjunto, estos hallazgos arrojan nueva luz sobre trabajos recientes y motivan un replanteamiento de la convención del MLP estrecho-ancho-estrecho y del equilibrio entre atención y FFN hacia modelos lingüísticos modernos más eficientes y expresivos.
El preprocesamiento de imágenes de portaobjetos completos (WSI), que generalmente comprende la detección de tejido seguida de la extracción de parches, es fundamental para los flujos de trabajo de patología computacional impulsada por IA. Este proceso sigue siendo un cuello de botella computacional importante, ya que las herramientas existentes dependen de umbralización heurística imprecisa para la detección de tejido o adoptan enfoques basados en IA entrenados con datos de diversidad limitada que operan a nivel de parche, incurriendo en una complejidad computacional sustancial. Presentamos AtlasPatch, un marco de preprocesamiento de portaobjetos eficiente y escalable para la detección precisa de tejido y la extracción de parches de alto rendimiento con una sobrecarga computacional mínima. El módulo de detección de tejido de AtlasPatch se entrenó en un conjunto de datos heterogéneo y semi-manualmente anotado de ~30,000 miniaturas de WSI, utilizando el ajuste fino eficiente del modelo Segment-Anything. La herramienta extrapola las máscaras de tejido desde las miniaturas a las imágenes de resolución completa para extraer coordenadas de parches a magnificaciones especificadas por el usuario, con opciones para transmitir los parches directamente a codificadores de imágenes comunes para incrustación o almacenar las imágenes de parches, todo eficientemente paralelizado entre CPU y GPU. Evaluamos AtlasPatch en cuanto a precisión de segmentación, complejidad computacional y aprendizaje de múltiples instancias en aplicaciones posteriores, igualando el rendimiento de vanguardia mientras opera a una fracción de su costo computacional. AtlasPatch es de código abierto y está disponible en https://github.com/AtlasAnalyticsLab/AtlasPatch.
Los Modelos de Lenguaje a Gran Escala han demostrado capacidades notables en diálogos de dominio abierto. Sin embargo, los métodos actuales presentan un rendimiento subóptimo en diálogos de servicio, ya que dependen de datos de conversación humana ruidosos y de baja calidad. Esta limitación surge de la escasez de datos y la dificultad para simular comportamientos de usuario auténticos y orientados a objetivos. Para abordar estos problemas, proponemos SEAD (Agente de Auto-Evolución para Diálogo de Servicio), un marco que permite a los agentes aprender estrategias efectivas sin necesidad de anotaciones humanas a gran escala. SEAD desacopla el modelado del usuario en dos componentes: un Controlador de Perfil que genera estados de usuario diversos para gestionar el currículum de entrenamiento, y un Modelo de Representación de Roles de Usuario que se centra en la representación realista de roles. Este diseño garantiza que el entorno proporcione escenarios de entrenamiento adaptativos en lugar de actuar como un adversario injusto. Los experimentos demuestran que SEAD supera significativamente a los Modelos Base de Código Abierto y a los Modelos Comerciales de Código Cerrado, mejorando la tasa de finalización de tareas en un 17.6% y la eficiencia del diálogo en un 11.1%. El código está disponible en: https://github.com/Da1yuqin/SEAD.
A pesar de los éxitos recientes, la escalada en tiempo de prueba —es decir, expandir dinámicamente el presupuesto de tokens durante la inferencia según sea necesario— sigue siendo frágil para los modelos de visión y lenguaje (VLM): las cadenas de pensamiento no estructuradas sobre imágenes entrelazan la percepción y el razonamiento, dando lugar a contextos largos y desorganizados donde pequeños errores perceptivos pueden propagarse en cascada hasta producir respuestas completamente erróneas. Además, se requiere un costoso aprendizaje por refuerzo con recompensas diseñadas a mano para lograr un buen rendimiento. Aquí presentamos SPARC (Separating Perception And Reasoning Circuits), un marco modular que desacopla explícitamente la percepción visual del razonamiento. Inspirado por el procesamiento secuencial sensorial-cognitivo en el cerebro, SPARC implementa un pipeline de dos etapas en el que el modelo primero realiza una búsqueda visual explícita para localizar las regiones relevantes para la pregunta, y luego condiciona su razonamiento a esas regiones para producir la respuesta final. Esta separación permite una escalada independiente en tiempo de prueba con asignación asimétrica de cómputo (por ejemplo, priorizando el procesamiento perceptual bajo cambios en la distribución), admite una optimización selectiva (por ejemplo, mejorar solo la etapa perceptual cuando es el cuello de botella para el rendimiento end-to-end) y acomoda contextos comprimidos mediante la ejecución de una búsqueda global en resoluciones de imagen más bajas y la asignación de procesamiento de alta resolución solo a regiones seleccionadas, reduciendo así el recuento total de tokens visuales y el cómputo. En diversos benchmarks desafiantes de razonamiento visual, SPARC supera a las líneas base monolíticas y a enfoques sólidos de grounding visual. Por ejemplo, SPARC mejora la precisión de Qwen3VL-4B en el benchmark VQA V^* en 6.7 puntos porcentuales, y supera a "pensar con imágenes" en 4.6 puntos en una tarea OOD desafiante a pesar de requerir un presupuesto de tokens 200 veces menor.
Los enfoques existentes para analizar activaciones de redes neuronales, como el PCA y los autoencoders dispersos, dependen de fuertes suposiciones estructurales. Los modelos generativos ofrecen una alternativa: pueden descubrir estructura sin dichas suposiciones y actuar como priores que mejoran la fidelidad de las intervenciones. Exploramos esta dirección entrenando modelos de difusión en mil millones de activaciones del flujo residual, creando "meta-modelos" que aprenden la distribución de los estados internos de una red. Encontramos que la pérdida por difusión disminuye de forma suave con el poder computacional y predice de manera confiable la utilidad en tareas posteriores. En particular, aplicar el prior aprendido del meta-modelo a intervenciones de direccionamiento mejora la fluidez, con mayores ganancias a medida que disminuye la pérdida. Además, las neuronas del meta-modelo aíslan progresivamente conceptos en unidades individuales, con puntuaciones de sondaje disperso que escalan a medida que disminuye la pérdida. Estos resultados sugieren que los meta-modelos generativos ofrecen un camino escalable hacia la interpretabilidad sin suposiciones estructurales restrictivas. Página del proyecto: https://generative-latent-prior.github.io.
Los agentes actuales de Búsqueda de Información (InfoSeeking) tienen dificultades para mantener el enfoque y la coherencia durante exploraciones de largo horizonte, ya que el seguimiento de los estados de búsqueda, incluidos el procedimiento de planificación y los resultados masivos de búsqueda, dentro de un contexto de texto plano es inherentemente frágil. Para abordar esto, presentamos Table-as-Search (TaS), un marco de planificación estructurado que reformula la tarea de InfoSeeking como una tarea de Completado de Tabla. TaS mapea cada consulta en un esquema de tabla estructurado mantenido en una base de datos externa, donde las filas representan candidatos de búsqueda y las columnas denotan restricciones o información requerida. Esta tabla gestiona con precisión los estados de búsqueda: las celdas llenas registran estrictamente el historial y los resultados de búsqueda, mientras que las celdas vacías sirven como un plan de búsqueda explícito. Crucialmente, TaS unifica tres tareas distintas de InfoSeeking: Búsqueda Profunda (Deep Search), Búsqueda Amplia (Wide Search) y la desafiante Búsqueda Profunda y Amplia (DeepWide Search). Experimentos exhaustivos demuestran que TaS supera significativamente a numerosos sistemas de referencia de última generación en tres tipos de benchmarks, incluyendo marcos multiagente y sistemas comerciales. Además, nuestro análisis valida la robustez superior de TaS en InfoSeeking de largo horizonte, junto con su eficiencia, escalabilidad y flexibilidad. El código y los conjuntos de datos se han publicado públicamente en https://github.com/AIDC-AI/Marco-Search-Agent.
La segmentación basada en lenguaje ha sido un tema popular en visión por computadora. Si bien los recientes avances en modelos de lenguaje multimodal (MLLM) han dotado a los sistemas de segmentación de capacidades de razonamiento, estos esfuerzos siguen limitados por el conocimiento interno congelado de los MLLM, lo que restringe su potencial para escenarios del mundo real que involucran información actualizada o conceptos específicos de dominio. En este trabajo, proponemos Seg-ReSearch, un nuevo paradigma de segmentación que supera el cuello de botella de conocimiento de los enfoques existentes. Al permitir un razonamiento entrelazado y una búsqueda externa, Seg-ReSearch empodera a los sistemas de segmentación para manejar consultas dinámicas de mundo abierto que se extienden más allá del conocimiento congelado de los MLLM. Para entrenar esta capacidad de manera efectiva, introducimos un diseño de recompensa jerárquica que armoniza la guía inicial con incentivos progresivos, mitigando el dilema entre las señales de resultado dispersas y la supervisión rígida paso a paso. Para la evaluación, construimos OK-VOS, un benchmark desafiante que requiere explícitamente conocimiento externo para la segmentación de objetos en video. Los experimentos en OK-VOS y en dos benchmarks existentes de segmentación por razonamiento demuestran que nuestro Seg-ReSearch mejora los enfoques de vanguardia por un margen sustancial. El código y los datos se publicarán en https://github.com/iSEE-Laboratory/Seg-ReSearch.
La destilación de conocimiento ha surgido como una técnica fundamental para transferir conocimiento desde modelos de lenguaje grandes (LLM) más potentes a modelos más pequeños y eficientes. Sin embargo, los enfoques tradicionales de destilación enfrentan desafíos relacionados con conflictos de conocimiento y altas demandas de recursos, particularmente cuando se utilizan múltiples modelos maestros. En este artículo, introducimos el concepto de Purificación de Conocimiento, que consolida las racionalizaciones de múltiples LLM maestros en una única racionalización, mitigando así los conflictos y mejorando la eficiencia. Para investigar la efectividad de la purificación de conocimiento, proponemos además cinco métodos de purificación desde diversas perspectivas. Nuestros experimentos demuestran que estos métodos no solo mejoran el rendimiento del modelo destilado, sino que también alivian efectivamente los conflictos de conocimiento. Además, los métodos basados en enrutadores exhiben capacidades de generalización robustas, subrayando el potencial de las técnicas innovadoras de purificación para optimizar la destilación multi-maestro y facilitar la implementación práctica de modelos potentes pero livianos.
La verdadera auto-evolución requiere que los agentes actúen como aprendices permanentes que internalizan experiencias novedosas para resolver problemas futuros. Sin embargo, medir rigurosamente esta capacidad fundamental se ve obstaculizada por dos obstáculos: el entrelazamiento del conocimiento previo, donde el conocimiento "nuevo" puede aparecer en los datos de pre-entrenamiento, y el entrelazamiento de la complejidad del razonamiento, donde los fallos pueden deberse a la dificultad del problema más que a una incapacidad para recordar el conocimiento aprendido. Presentamos SE-Bench, un entorno diagnóstico que ofusca la biblioteca NumPy y su documentación API en un paquete pseudo-novedoso con identificadores aleatorizados. Los agentes son entrenados para internalizar este paquete y evaluados en tareas de codificación simples sin acceso a la documentación, proporcionando un entorno limpio donde las tareas son triviales con la nueva documentación API pero imposibles para los modelos base sin ella. Nuestra investigación revela tres hallazgos: (1) la Paradoja del Libro Abierto, donde el entrenamiento con documentación de referencia inhibe la retención, requiriendo un "Entrenamiento de Libro Cerrado" para forzar la compresión del conocimiento en los pesos; (2) la Brecha del RL, donde el RL estándar falla en internalizar completamente el nuevo conocimiento debido al recorte PPO y los gradientes negativos; y (3) la viabilidad del Auto-Juego para la internalización, demostrando que los modelos pueden aprender de tareas ruidosas auto-generadas cuando se combinan con SFT, pero no con RL. En general, SE-Bench establece una plataforma de diagnóstico rigurosa para la auto-evolución con internalización de conocimiento. Nuestro código y dataset pueden encontrarse en https://github.com/thunlp/SE-Bench.
Las capas de emparejamiento diferenciables y los paradigmas de conexión residual, implementados frecuentemente mediante Transporte Óptimo (TO) regularizado por entropía, funcionan como mecanismos críticos en la predicción estructural y el escalado arquitectónico. Sin embargo, la recuperación de permutaciones discretas o el mantenimiento de mapeos de identidad mediante el enfriamiento de ε a 0 son notoriamente inestables. En este trabajo, identificamos un mecanismo fundamental para este fallo: el Colapso Prematuro de Modos. Al analizar la dinámica no normal del mapa de punto fijo de Sinkhorn, revelamos un límite de velocidad termodinámico teórico: el enfriamiento exponencial estándar supera la tasa de contracción del operador de inferencia, que se degrada como O(1/ε). Para abordar esto, proponemos el Control de Estabilidad Adaptativo Híbrido por Partes Eficiente (EPH-ASC, por sus siglas en inglés), un algoritmo de planificación adaptativa que monitorea la estabilidad del proceso de inferencia. Demostramos que EPH-ASC es esencial para estabilizar las Conexiones Hiper-Restringidas en Variedades (mHC) durante el entrenamiento a gran escala en el conjunto de datos FineWeb-Edu, previniendo efectivamente explosiones de gradiente en etapas tardías mediante la imposición de una ley de estabilidad lineal.
Los peligros climáticos interrumpen cada vez más las operaciones de transporte urbano y de respuesta a emergencias al dañar el parque de viviendas, degradar la infraestructura y reducir la accesibilidad de la red. Este artículo presenta Skjold-DiT, un marco de difusión-transformador que integra datos urbanos espacio-temporales heterogéneos para pronosticar indicadores de riesgo climático a nivel de edificio, incorporando explícitamente la estructura de la red de transporte y señales de accesibilidad relevantes para vehículos inteligentes (por ejemplo, alcanzabilidad de emergencia y restricciones de rutas de evacuación). Concretamente, Skjold-DiT permite restricciones de enrutamiento condicionadas por peligros al producir capas de accesibilidad calibradas y conscientes de la incertidumbre (alcanzabilidad, inflación del tiempo de viaje y redundancia de rutas) que pueden ser utilizadas por sistemas de enrutamiento de vehículos inteligentes y despacho de emergencias. Skjold-DiT combina: (1) Fjell-Prompt, una interfaz de condicionamiento basada en *prompts* diseñada para soportar transferencia entre ciudades; (2) Norrland-Fusion, un mecanismo de atención cross-modal que unifica mapas/imágenes de peligros, atributos de edificios, datos demográficos e infraestructura de transporte en una representación latente compartida; y (3) Valkyrie-Forecast, un simulador contrafactual para generar trayectorias de riesgo probabilísticas bajo *prompts* de intervención. Presentamos el conjunto de datos Baltic-Caspian Urban Resilience (BCUR) con 847.392 observaciones a nivel de edificio en seis ciudades, que incluye anotaciones de múltiples peligros (por ejemplo, indicadores de inundación y calor) y características de accesibilidad del transporte. Los experimentos evalúan la calidad de la predicción, la generalización entre ciudades, la calibración y los resultados relevantes para el transporte, incluyendo la alcanzabilidad y los tiempos de viaje condicionados por peligros bajo intervenciones contrafactuales.
La cuantización posterior al entrenamiento reduce el coste computacional de los modelos lingüísticos grandes, pero altera fundamentalmente sus sesgos sociales de formas que las métricas agregadas no logran capturar. Presentamos el primer estudio a gran escala de 50 modelos cuantizados evaluados en PostTrainingBiasBench, un benchmark unificado de 13 conjuntos de datos de sesgo de respuesta cerrada y abierta. Identificamos un fenómeno que denominamos *inversión del sesgo enmascarado inducida por cuantización*, en el que hasta un 21% de las respuestas cambian entre estados sesgados y no sesgados tras la cuantización, a pesar de no mostrar cambios en las puntuaciones agregadas de sesgo. Estas inversiones están fuertemente impulsadas por la incertidumbre del modelo, donde las respuestas con alta incertidumbre tienen entre 3 y 11 veces más probabilidades de cambiar que las respuestas confiadas. La intensidad de la cuantización amplifica este efecto, con modelos cuantizados a 4 bits que exhiben entre 4 y 6 veces más cambios conductuales que los modelos cuantizados a 8 bits. Críticamente, estos cambios crean impactos asimétricos entre grupos demográficos, donde el sesgo puede empeorar hasta en un 18,6% para algunos grupos mientras mejora hasta en un 14,1% para otros, produciendo resultados agregados engañosamente neutrales. Los modelos más grandes no muestran una ventaja de robustez consistente, y los cambios específicos de grupo varían de forma impredecible entre familias de modelos. Nuestros hallazgos demuestran que la compresión altera fundamentalmente los patrones de sesgo, requiriendo una evaluación e intervenciones cruciales posteriores a la cuantización para garantizar la fiabilidad en la práctica.