Artículos de investigación en IA seleccionados diariamente con traducciones
Los mercados financieros son ruidosos y no estacionarios, lo que hace que la minería de alfas sea altamente sensible al ruido en los resultados de backtesting y a los cambios repentinos de régimen de mercado. Si bien los marcos agentes recientes mejoran la automatización de la minería de alfas, a menudo carecen de búsqueda multirronda controlable y reutilización confiable de experiencia validada. Para abordar estos desafíos, proponemos QuantaAlpha, un marco evolutivo de minería de alfas que trata cada ejecución de minería de extremo a extremo como una trayectoria y mejora los factores mediante operaciones de mutación y cruce a nivel de trayectoria. QuantaAlpha localiza los pasos subóptimos en cada trayectoria para su revisión dirigida y recomienda segmentos complementarios de alta recompensa para reutilizar patrones efectivos, permitiendo una exploración y refinamiento estructurados a través de iteraciones de minería. Durante la generación de factores, QuantaAlpha aplica consistencia semántica entre la hipótesis, la expresión del factor y el código ejecutable, mientras restringe la complejidad y redundancia del factor generado para mitigar el hacinamiento (crowding). Experimentos exhaustivos en el Índice de Valores de China 300 (CSI 300) demuestran ganancias consistentes sobre modelos baseline sólidos y sistemas agentes previos. Al utilizar GPT-5.2, QuantaAlpha logra un Coeficiente de Información (IC) de 0.1501, con una Tasa de Retorno Anualizada (ARR) del 27.75% y una Pérdida Máxima (MDD) del 7.98%. Además, los factores minados en el CSI 300 se transfieren efectivamente al Índice de Valores de China 500 (CSI 500) y al Índice Standard & Poor's 500 (S&P 500), generando un exceso de retorno acumulado del 160% y 137% respectivamente durante cuatro años, lo que indica una robustez sólida de QuantaAlpha bajo cambios en la distribución del mercado.
A medida que la optimización posterior al entrenamiento se vuelve central para mejorar los modelos de lenguaje grandes, observamos un cuello de botella persistente de saturación: una vez que los modelos alcanzan una alta confianza, el entrenamiento adicional produce rendimientos decrecientes. Mientras que los métodos existentes continúan reforzando las predicciones objetivo, encontramos que las señales de supervisión informativas permanecen latentes en los propios estados históricos débiles de los modelos. Motivados por esta observación, proponemos WMSS (Agentes Débiles Pueden Hacer más Fuertes a los Agentes Fuertes), un paradigma de entrenamiento posterior que aprovecha los puntos de control débiles para guiar la optimización continua. Al identificar brechas de aprendizaje recuperables mediante la dinámica de entropía y reforzarlas a través de un aprendizaje compensatorio, WMSS permite que los agentes fuertes mejoren más allá de la saturación convencional posterior al entrenamiento. Los experimentos en conjuntos de datos de razonamiento matemático y generación de código muestran que los agentes entrenados con nuestro enfoque logran mejoras de rendimiento efectivas, mientras incurren en un costo de inferencia adicional nulo.
El audio es indispensable para el vídeo del mundo real, sin embargo, los modelos de generación han pasado por alto en gran medida los componentes de audio. Los enfoques actuales para producir contenido audiovisual a menudo dependen de canalizaciones en cascada, lo que incrementa el coste, acumula errores y degrada la calidad general. Si bien sistemas como Veo 3 y Sora 2 enfatizan el valor de la generación simultánea, el modelado multimodal conjunto introduce desafíos únicos en arquitectura, datos y entrenamiento. Además, la naturaleza de código cerrado de los sistemas existentes limita el progreso en el campo. En este trabajo, presentamos MOVA (MOSS Video and Audio), un modelo de código abierto capaz de generar contenido audiovisual sincronizado de alta calidad, incluyendo habla realista con sincronización labial, efectos de sonido conscientes del entorno y música alineada con el contenido. MOVA emplea una arquitectura Mixture-of-Experts (MoE), con un total de 32B de parámetros, de los cuales 18B están activos durante la inferencia. Soporta la tarea de generación IT2VA (Texto-Imagen a Vídeo-Audio). Al liberar los pesos del modelo y el código, nuestro objetivo es impulsar la investigación y fomentar una comunidad vibrante de creadores. El código publicado cuenta con soporte integral para inferencia eficiente, ajuste fino con LoRA y mejora de prompts.
A pesar del éxito del aprendizaje contrastivo multimodal en la alineación de representaciones visuales y lingüísticas, persiste una anomalía geométrica: la Brecha de Modalidad, donde los _embeddings_ de distintas modalidades que expresan semántica idéntica ocupan regiones sistemáticamente desplazadas. Los enfoques previos para salvar esta brecha están limitados en gran medida por suposiciones isotrópicas excesivamente simplificadas, lo que dificulta su aplicación en escenarios a gran escala. En este artículo, abordamos estas limitaciones caracterizando con precisión la forma geométrica de la brecha de modalidad y aprovechándola para un escalado eficiente de modelos. En primer lugar, proponemos la Teoría de la Brecha de Modalidad de Marco Fijo, que descompone la brecha de modalidad dentro de un marco de referencia congelado en sesgos estables y residuos anisotrópicos. Guiados por este modelado preciso, introducimos ReAlign, una estrategia de alineación de modalidades que no requiere entrenamiento. Utilizando estadísticas de datos masivos no pareados, ReAlign alinea la representación textual en la distribución de representación de imágenes mediante un proceso de tres pasos que comprende Alineación de Anclaje, Trazado y Centroide, rectificando así explícitamente el desalineamiento geométrico. Sobre la base de ReAlign, proponemos ReVision, un paradigma de entrenamiento escalable para Modelos de Lenguaje Grandes Multimodales (MLLM). ReVision integra ReAlign en la etapa de preentrenamiento, permitiendo que el modelo aprenda la distribución de las representaciones visuales a partir de texto no pareado antes del ajuste instruccional visual, sin necesidad de pares imagen-texto a gran escala y de alta calidad. Nuestro marco demuestra que los datos no pareados pero estadísticamente alineados pueden sustituir eficazmente a los costosos pares imagen-texto, ofreciendo un camino robusto para el escalado eficiente de los MLLM.
Los modelos actuales de Visión-Lenguaje-Acción (VLA) dependen de una profundidad computacional fija, gastando la misma cantidad de cálculo en ajustes simples y en manipulaciones complejas de múltiples pasos. Si bien el prompting de Cadena de Pensamiento (CoT) permite un cálculo variable, escala la memoria linealmente y no es adecuado para espacios de acción continuos. Presentamos VLA de Profundidad Recurrente (RD-VLA), una arquitectura que logra adaptividad computacional mediante un refinamiento iterativo latente en lugar de una generación explícita de tokens. RD-VLA emplea un cabezal de acción recurrente y con pesos compartidos que soporta una profundidad de inferencia arbitraria con una huella de memoria constante. El modelo se entrena usando retropropagación a través del tiempo truncada (TBPTT) para supervisar eficientemente el proceso de refinamiento. Durante la inferencia, RD-VLA asigna cálculo dinámicamente usando un criterio de parada adaptativo basado en la convergencia latente. Los experimentos en tareas de manipulación desafiantes muestran que la profundidad recurrente es crítica: las tareas que fallan por completo (0 por ciento de éxito) con una inferencia de iteración única superan el 90 por ciento de éxito con cuatro iteraciones, mientras que las tareas más simples se saturan rápidamente. RD-VLA proporciona una vía escalable para el cálculo en tiempo de prueba en robótica, reemplazando el razonamiento basado en tokens con un razonamiento latente para lograr un uso de memoria constante y una aceleración de la inferencia de hasta 80x sobre modelos VLA previos basados en razonamiento. Página del proyecto: https://rd-vla.github.io/
Los agentes de LLM tienen un gran potencial para impulsar la investigación científica. Para acelerar este progreso, presentamos AIRS-Bench (el Benchmark de Ciencia e Investigación en IA), un conjunto de 20 tareas extraídas de artículos de vanguardia en aprendizaje automático. Estas tareas abarcan diversos dominios, incluyendo modelado de lenguaje, matemáticas, bioinformática y pronóstico de series temporales. Las tareas de AIRS-Bench evalúan capacidades agentiles a lo largo de todo el ciclo de vida de la investigación —incluyendo generación de ideas, análisis de experimentos y refinamiento iterativo— sin proporcionar código de referencia. El formato de tareas de AIRS-Bench es versátil, permitiendo la integración sencilla de nuevas tareas y la comparación rigurosa entre diferentes marcos agentiles. Establecemos líneas de base utilizando modelos de frontera combinados con andamiajes tanto secuenciales como paralelos. Nuestros resultados muestran que los agentes superan el estado del arte humano en cuatro tareas, pero no logran igualarlo en otras dieciséis. Incluso cuando los agentes superan los puntos de referencia humanos, no alcanzan el límite teórico de rendimiento para las tareas subyacentes. Estos hallazgos indican que AIRS-Bench está lejos de estar saturado y ofrece un margen sustancial de mejora. Liberamos como código abierto las definiciones de las tareas de AIRS-Bench y el código de evaluación para catalizar un mayor desarrollo en la investigación científica autónoma.
Presentamos InternAgent-1.5, un sistema unificado diseñado para el descubrimiento científico de extremo a extremo en dominios computacionales y empíricos. El sistema se basa en una arquitectura estructurada compuesta por tres subsistemas coordinados para la generación, verificación y evolución. Estos subsistemas están respaldados por capacidades fundamentales de investigación profunda, optimización de soluciones y memoria de horizonte largo. La arquitectura permite que InternAgent-1.5 opere de forma continua a lo largo de ciclos de descubrimiento extendidos, manteniendo un comportamiento coherente y en mejora. También permite al sistema coordinar el modelado computacional y la experimentación de laboratorio dentro de un único sistema unificado. Evaluamos InternAgent-1.5 en benchmarks de razonamiento científico como GAIA, HLE, GPQA y FrontierScience, y el sistema logra un rendimiento líder que demuestra sólidas capacidades fundamentales. Más allá de estos benchmarks, evaluamos además dos categorías de tareas de descubrimiento. En tareas de descubrimiento de algoritmos, InternAgent-1.5 diseña autónomamente métodos competitivos para problemas centrales del aprendizaje automático. En tareas de descubrimiento empírico, ejecuta experimentos computacionales o de laboratorio húmedo completos y produce hallazgos científicos en los dominios de la tierra, la vida, la biología y la física. En general, estos resultados muestran que InternAgent-1.5 proporciona un marco general y escalable para el descubrimiento científico autónomo.
Si bien LLaDA2.0 demostró el potencial de escalado de los modelos de difusión por bloques de nivel 100B y su inherente paralelización, el delicado equilibrio entre la velocidad de decodificación y la calidad de la generación ha permanecido como una frontera esquiva. Hoy presentamos LLaDA2.1, un cambio de paradigma diseñado para trascender esta disyuntiva. Al integrar de forma fluida la edición Token-a-Token (T2T) en el esquema convencional Máscara-a-Token (M2T), introducimos un esquema de decodificación por umbral conjunto y configurable. Esta innovación estructural da lugar a dos personalidades distintas: el Modo Veloz (Modo S), que audazmente reduce el umbral M2T para eludir las restricciones tradicionales mientras se apoya en T2T para refinar la salida; y el Modo Calidad (Modo Q), que se inclina por umbrales conservadores para asegurar un rendimiento superior en benchmarks con una degradación manejable de la eficiencia. Avanzando en esta evolución, y respaldado por una ventana de contexto expansiva, implementamos el primer marco de trabajo de Aprendizaje por Refuerzo (RL) a gran escala específicamente adaptado para dLLMs, anclado por técnicas especializadas para una estimación estable de gradientes. Esta alineación no solo agudiza la precisión del razonamiento, sino que también eleva la fidelidad en el seguimiento de instrucciones, tendiendo un puente entre la dinámica de difusión y la compleja intención humana. Concluimos este trabajo liberando LLaDA2.1-Mini (16B) y LLaDA2.1-Flash (100B). A lo largo de 33 benchmarks rigurosos, LLaDA2.1 ofrece un sólido rendimiento en las tareas y una velocidad de decodificación ultrarrápida. A pesar de su volumen de 100B, en tareas de codificación alcanza asombrosas tasas de 892 TPS en HumanEval+, 801 TPS en BigCodeBench y 663 TPS en LiveCodeBench.
El aprendizaje de políticas en línea directamente en el mundo físico es una dirección prometedora pero desafiante para la inteligencia corporeizada. A diferencia de la simulación, los sistemas del mundo real no pueden acelerarse arbitrariamente, reiniciarse de forma económica ni replicarse masivamente, lo que dificulta la recolección escalable de datos, el despliegue heterogéneo y el entrenamiento efectivo a largo plazo. Estos desafíos sugieren que el aprendizaje de políticas en el mundo real no es solo un problema algorítmico, sino fundamentalmente un problema de sistemas. Presentamos USER, un Sistema Unificado y extensible para el aprendizaje de políticas en línea en el mundo real. USER trata a los robots físicos como recursos de hardware de primera clase junto con las GPU a través de una capa de abstracción de hardware unificada, permitiendo el descubrimiento automático, la gestión y la programación de robots heterogéneos. Para abordar la comunicación nube-borde, USER introduce un plano de comunicación adaptativo con redes basadas en túneles, canales de datos distribuidos para la localización del tráfico y sincronización de pesos consciente de los multiprocesadores de flujo (streaming) para regular la sobrecarga en el lado de la GPU. Sobre esta infraestructura, USER organiza el aprendizaje como un marco completamente asíncrono con un búfer persistente y consciente de la caché, permitiendo experimentos eficientes a largo plazo con una recuperación robusta de fallos y reutilización de datos históricos. Además, USER proporciona abstracciones extensibles para recompensas, algoritmos y políticas, apoyando el aprendizaje por imitación o por refuerzo en línea de CNN/MLP, políticas generativas y grandes modelos visión-lenguaje-acción (VLA) dentro de una canalización unificada. Los resultados tanto en simulación como en el mundo real muestran que USER permite la coordinación de múltiples robots, manipuladores heterogéneos, la colaboración borde-nube con modelos grandes y el entrenamiento asíncrono de larga duración, ofreciendo una base de sistemas unificada y extensible para el aprendizaje de políticas en línea en el mundo real.
La convergencia entre la inteligencia artificial y la ciencia de materiales presenta una oportunidad transformadora, pero lograr una verdadera aceleración en el descubrimiento requiere superar los modelos ajustados y aislados por tareas para avanzar hacia sistemas agentes que planifican, actúan y aprenden a lo largo de todo el ciclo de descubrimiento. Esta revisión propone una perspectiva única centrada en el *pipeline* integral, que abarca desde la curación de corpus y el preentrenamiento, pasando por la adaptación al dominio y el ajuste por instrucción, hasta agentes condicionados por objetivos que interactúan con plataformas de simulación y experimentación. A diferencia de revisiones anteriores, tratamos todo el proceso como un sistema integral (*end-to-end*) que debe optimizarse para obtener resultados tangibles de descubrimiento, en lugar de para métricas proxy. Esta perspectiva nos permite rastrear cómo las decisiones de diseño en fases iniciales —como la curación de datos y los objetivos de entrenamiento— pueden alinearse con el éxito experimental final mediante una asignación efectiva de crédito. Para tender puentes entre comunidades y establecer un marco de referencia común, primero presentamos una visión integrada que alinea la terminología, la evaluación y las etapas del flujo de trabajo entre la IA y la ciencia de materiales. Luego, analizamos el campo a través de dos lentes específicos: desde la perspectiva de la IA, la revisión detalla las fortalezas de los Modelos de Lenguaje Grande (LLM) en reconocimiento de patrones, análisis predictivo y procesamiento del lenguaje natural para la minería de literatura, caracterización de materiales y predicción de propiedades; desde la perspectiva de la ciencia de materiales, se destacan aplicaciones en diseño de materiales, optimización de procesos y la aceleración de flujos de trabajo computacionales mediante la integración con herramientas externas (por ejemplo, DFT, laboratorios robóticos). Finalmente, contrastamos los enfoques pasivos y reactivos con el diseño agentivo, catalogando las contribuciones actuales al tiempo que impulsamos sistemas que persiguen objetivos de largo alcance con autonomía, memoria y uso de herramientas. Esta revisión traza una hoja de ruta práctica hacia agentes LLM autónomos y conscientes de la seguridad, orientados a descubrir materiales novedosos y útiles.
La implementación de GRPO en modelos de Flow Matching ha demostrado ser eficaz para la generación de texto a imagen. Sin embargo, los paradigmas existentes suelen propagar una recompensa basada en el resultado a todos los pasos de eliminación de ruido precedentes, sin distinguir el efecto local de cada paso. Además, la clasificación grupal actual compara principalmente trayectorias en pasos de tiempo emparejados e ignora las dependencias dentro de la trayectoria, donde ciertas acciones tempranas de eliminación de ruido pueden afectar a estados posteriores mediante interacciones implícitas y retardadas. Proponemos TurningPoint-GRPO (TP-GRPO), un marco GRPO que alivia la dispersión de recompensas a nivel de paso y modela explícitamente los efectos a largo plazo dentro de la trayectoria de eliminación de ruido. TP-GRPO introduce dos innovaciones clave: (i) sustituye las recompensas basadas en resultados por recompensas incrementales a nivel de paso, proporcionando una señal de aprendizaje densa y consciente del paso que aísla mejor el efecto "puro" de cada acción de eliminación de ruido, y (ii) identifica puntos de inflexión (pasos que invierten la tendencia de recompensa local y hacen que la evolución posterior de la recompensa sea consistente con la tendencia general de la trayectoria) y asigna a estas acciones una recompensa agregada a largo plazo para capturar su impacto retardado. Los puntos de inflexión se detectan únicamente mediante cambios de signo en las recompensas incrementales, lo que hace que TP-GRPO sea eficiente y libre de hiperparámetros. Experimentos exhaustivos también demuestran que TP-GRPO aprovecha las señales de recompensa de manera más efectiva y mejora consistentemente la generación. El código de demostración está disponible en https://github.com/YunzeTong/TurningPoint-GRPO.
Los recientes avances en modelos de generación de imágenes han permitido predecir estados futuros de Interfaces Gráficas de Usuario (GUI) basándose en instrucciones del usuario. Sin embargo, los benchmarks existentes se centran principalmente en la fidelidad visual del dominio general, dejando subexplorada la evaluación de transiciones de estado y coherencia temporal en contextos específicos de GUI. Para abordar esta brecha, presentamos GEBench, un benchmark integral para evaluar la interacción dinámica y la coherencia temporal en la generación de GUI. GEBench comprende 700 muestras cuidadosamente seleccionadas que abarcan cinco categorías de tareas, cubriendo tanto interacciones de un solo paso como trayectorias multi-paso a través de escenarios realistas y ficticios, así como la localización de puntos de anclaje. Para apoyar la evaluación sistemática, proponemos GE-Score, una novedosa métrica de cinco dimensiones que evalúa: Logro de Objetivos, Lógica de Interacción, Consistencia de Contenido, Plausibilidad de la Interfaz y Calidad Visual. Evaluaciones exhaustivas en modelos actuales indican que, aunque funcionan bien en transiciones de un solo paso, tienen dificultades significativas para mantener la coherencia temporal y el anclaje espacial en secuencias de interacción más largas. Nuestros hallazgos identifican la interpretación de iconos, el renderizado de texto y la precisión de localización como cuellos de botella críticos. Este trabajo proporciona una base para la evaluación sistemática y sugiere direcciones prometedoras para futuras investigaciones hacia la construcción de entornos generativos de GUI de alta fidelidad. El código está disponible en: https://github.com/stepfun-ai/GEBench.
La resolución de preguntas científicas de respuesta abierta sigue siendo un desafío para los grandes modelos de lenguaje, particularmente debido a la supervisión y evaluación inherentemente poco confiables. El cuello de botella radica en la construcción de datos y el diseño de recompensas para el post-entrenamiento científico. Desarrollamos un pipeline sistemático de procesamiento de datos a gran escala que transforma datos científicos heterogéneos de código abierto en el conjunto de datos Dr. SCI, que comprende 1 millón de preguntas en ocho materias STEM, con divisiones explícitas verificables/de respuesta abierta, anotación escalable de dificultad y rúbricas detalladas que operacionalizan la evaluación para respuestas abiertas. Basándonos en este conjunto de datos, proponemos el pipeline de post-entrenamiento Dr. SCI, que rediseña el flujo de trabajo estándar SFT -> RL mediante tres componentes: (i) SFT de Expansión de Exploración, que amplía la cobertura de patrones de razonamiento del modelo antes del RL; (ii) Plan de Estudios de Dificultad Dinámica, que adapta los datos de entrenamiento a la capacidad científica en evolución del modelo; y (iii) RL Guiado por SciRubric, que permite un aprendizaje por refuerzo estable en preguntas científicas de respuesta abierta mediante evaluación basada en rúbricas con corrección explícita de respuestas. Qwen3-4B-Base entrenado utilizando el pipeline Dr. SCI alcanza 63.2 en GPQA-diamond y 32.4 en GPQA-general, mejorando consistentemente respecto a líneas base fuertemente post-entrenadas como o1-mini y GPT-4o, lo que demuestra ganancias sustanciales en el razonamiento científico, especialmente en entornos de respuesta abierta.
A pesar de las crecientes capacidades de comprensión de video de los recientes Modelos de Lenguaje Grandes Multimodales (MLLMs), los puntos de referencia de video existentes evalúan principalmente la comprensión basándose en el conocimiento estático e interno de los modelos, en lugar de su capacidad para aprender y adaptarse a partir de contextos novedosos y dinámicos con pocos ejemplos. Para cerrar esta brecha, presentamos el Aprendizaje en Contexto para Video impulsado por Demostraciones, una nueva tarea centrada en aprender a partir de demostraciones en contexto para responder preguntas sobre los videos objetivo. Junto con esto, proponemos Demo-ICL-Bench, un punto de referencia desafiante diseñado para evaluar las capacidades de aprendizaje en contexto para video impulsado por demostraciones. Demo-ICL-Bench se construye a partir de 1200 videos instructivos de YouTube con preguntas asociadas, de los cuales se derivan dos tipos de demostraciones: (i) resumir los subtítulos del video para la demostración textual; y (ii) los videos instructivos correspondientes como demostraciones en video. Para abordar efectivamente este nuevo desafío, desarrollamos Demo-ICL, un MLLM con una estrategia de entrenamiento de dos etapas: ajuste fino supervisado por video y optimización directa de preferencias asistida por información, que mejora conjuntamente la capacidad del modelo para aprender a partir de ejemplos en contexto. Experimentos exhaustivos con MLLMs de vanguardia confirman la dificultad de Demo-ICL-Bench, demuestran la efectividad de Demo-ICL y, por lo tanto, revelan futuras direcciones de investigación.
La memoria es cada vez más central para los agentes de modelos de lenguaje grande (LLM) que operan más allá de una única ventana de contexto; sin embargo, la mayoría de los sistemas existentes dependen de una construcción de memoria fuera de línea e independiente de la consulta, que puede ser ineficiente y puede descartar información crítica para la consulta. Aunque la utilización de memoria en tiempo de ejecución es una alternativa natural, trabajos anteriores a menudo incurren en una sobrecarga sustancial y ofrecen un control explícito limitado sobre la compensación entre rendimiento y costo. En este trabajo, presentamos BudgetMem, un marco de memoria para agentes en tiempo de ejecución que permite un control explícito y consciente de la consulta sobre el rendimiento y el costo. BudgetMem estructura el procesamiento de la memoria como un conjunto de módulos de memoria, cada uno ofrecido en tres niveles de presupuesto (es decir, Bajo/Medio/Alto). Un enrutador ligero realiza el enrutamiento de niveles de presupuesto entre módulos para equilibrar el rendimiento de la tarea y el costo de construcción de la memoria, implementado como una política neuronal compacta entrenada con aprendizaje por refuerzo. Utilizando BudgetMem como banco de pruebas unificado, estudiamos tres estrategias complementarias para realizar los niveles de presupuesto: implementación (complejidad del método), razonamiento (comportamiento de inferencia) y capacidad (tamaño del modelo del módulo). En LoCoMo, LongMemEval y HotpotQA, BudgetMem supera a líneas de base sólidas cuando se prioriza el rendimiento (es decir, configuración de alto presupuesto) y ofrece mejores fronteras de precisión-costo bajo presupuestos más ajustados. Además, nuestro análisis desentraña las fortalezas y debilidades de las diferentes estrategias de niveles, aclarando cuándo cada eje ofrece las compensaciones más favorables bajo distintos regímenes de presupuesto.
Los modelos de lenguaje de gran tamaño (LLM) son cada vez más capaces de llevar a cabo tareas del mundo real de larga duración. Sin embargo, a medida que crece la cantidad de contexto, su fiabilidad a menudo se deteriora, un fenómeno conocido como "deterioro del contexto" (context rot). Los puntos de referencia existentes para contextos largos se centran principalmente en entornos de un solo paso que evalúan la capacidad de un modelo para recuperar información de un fragmento largo. Sin embargo, en escenarios realistas, los LLM a menudo necesitan actuar como agentes que exploran entornos, siguen instrucciones y planes, extraen información útil y predicen acciones correctas bajo un contexto que crece dinámicamente. Para evaluar a los agentes de lenguaje en tales entornos, presentamos LOCA-bench (un punto de referencia para Agentes de LOngo Contexto). Dado un mensaje de tarea, LOCA-bench aprovecha el control automático y escalable de los estados del entorno para regular la longitud del contexto del agente. Este diseño permite a LOCA-bench extender la longitud del contexto potencialmente hasta el infinito de manera controlada, manteniendo fija la semántica subyacente de la tarea. LOCA-bench evalúa a los agentes de lenguaje como una combinación de modelos y andamios (scaffolds), incluyendo varias estrategias de gestión del contexto. Si bien el rendimiento del agente generalmente se degrada a medida que los estados del entorno se vuelven más complejos, las técnicas avanzadas de gestión del contexto pueden mejorar sustancialmente la tasa de éxito general. Liberamos LOCA-bench como código abierto para proporcionar una plataforma para evaluar modelos y andamios en escenarios agenticos de contexto largo: https://github.com/hkust-nlp/LOCA-bench
El avance de los modelos de lenguaje de gran escala (LLM) ha acelerado significativamente el desarrollo de agentes de búsqueda capaces de recopilar información de forma autónoma mediante interacciones web multi-turno. Se han propuesto diversos puntos de referencia para evaluar dichos agentes. Sin embargo, los benchmarks existentes a menudo construyen consultas de forma inversa a partir de respuestas, produciendo tareas artificiales desalineadas con las necesidades del mundo real. Además, estos benchmarks tienden a centrarse en localizar información específica o en agregar información de múltiples fuentes, mientras dependen de conjuntos de respuestas estáticas propensos a la contaminación de datos. Para salvar estas brechas, presentamos GISA, un benchmark para Asistentes Generales de Búsqueda de Información que comprende 373 consultas creadas por humanos y que reflejan escenarios auténticos de búsqueda de información. GISA presenta cuatro formatos de respuesta estructurados (ítem, conjunto, lista y tabla), permitiendo una evaluación determinista. Integra tanto el razonamiento profundo como la agregación amplia de información dentro de tareas unificadas, e incluye un subconjunto dinámico con respuestas actualizadas periódicamente para resistir la memorización. Cabe destacar que GISA proporciona trayectorias de búsqueda humanas completas para cada consulta, ofreciendo referencias de oro para la supervisión a nivel de proceso y el aprendizaje por imitación. Los experimentos en LLM principales y productos de búsqueda comerciales revelan que incluso el modelo con mejor rendimiento alcanza solo un 19.30% de coincidencia exacta, con un rendimiento que se degrada notablemente en tareas que requieren planificación compleja y recopilación exhaustiva de información. Estos hallazgos subrayan un margen sustancial de mejora futura.
La ejecución de tareas complejas en terminal sigue siendo un desafío significativo para los LLM de pesos abiertos, limitada por dos restricciones fundamentales. En primer lugar, los entornos de entrenamiento ejecutables y de alta fidelidad son escasos: los entornos sintetizados a partir de repositorios del mundo real carecen de diversidad y escalabilidad, mientras que las trayectorias sintetizadas por LLM adolecen de alucinaciones. En segundo lugar, el ajuste por instrucción estándar utiliza trayectorias expertas que rara vez exhiben los errores simples comunes en modelos más pequeños. Esto crea un desajuste distribucional, dejando a los modelos estudiantes mal equipados para recuperarse de sus propios fallos en tiempo de ejecución. Para salvar estas brechas, presentamos TermiGen, un pipeline integral para sintetizar entornos verificables y trayectorias expertas resilientes. TermiGen genera primero tareas funcionalmente válidas y contenedores Docker mediante un bucle iterativo de refinamiento multi-agente. Posteriormente, empleamos un protocolo Generador-Crítico que inyecta errores activamente durante la recolección de trayectorias, sintetizando datos ricos en ciclos de corrección de errores. Ajustado fino sobre este conjunto de datos generado por TermiGen, nuestro TermiGen-Qwen2.5-Coder-32B alcanza una tasa de aprobación del 31.3% en TerminalBench. Esto establece un nuevo estado del arte en modelos de pesos abiertos, superando a los baselines existentes y sobrepasando notablemente a modelos propietarios capaces como o4-mini. El conjunto de datos está disponible en https://github.com/ucsb-mlsec/terminal-bench-env.
La generación de informes de investigación profundos requiere la adquisición de información a gran escala y la síntesis de análisis basados en conocimientos, lo que supone un desafío significativo para los modelos lingüísticos actuales. La mayoría de los enfoques existentes siguen un paradigma de planificar-y-escribir, cuyo rendimiento depende en gran medida de la calidad del esquema inicial. Sin embargo, la construcción de un esquema integral en sí misma exige una fuerte capacidad de razonamiento, lo que hace que los sistemas actuales de investigación profunda dependan casi exclusivamente de modelos grandes de código cerrado o en línea. Esta dependencia genera barreras prácticas para el despliegue e introduce problemas de seguridad y privacidad para los datos de los usuarios. En este trabajo, presentamos AgentCPM-Report, una solución local ligera pero de alto rendimiento compuesta por un marco que refleja el proceso de escritura humano y un agente de investigación profunda de 8B parámetros. Nuestro marco utiliza una Política de Escritura como Razonamiento (WARP), que permite a los modelos revisar dinámicamente los esquemas durante la generación del informe. Bajo esta política, el agente alterna entre la Redacción Basada en Evidencias y la Profundización Impulsada por el Razonamiento, apoyando conjuntamente la adquisición de información, el refinamiento del conocimiento y la evolución iterativa del esquema. Para dotar eficazmente a los modelos pequeños de esta capacidad, introducimos una estrategia de Entrenamiento Agéntico Multi-Etapa, que consiste en un inicio en frío, RL de habilidades atómicas y RL de pipeline holístico. Los experimentos en DeepResearch Bench, DeepConsult y DeepResearch Gym demuestran que AgentCPM-Report supera a los principales sistemas de código cerrado, con ganancias sustanciales en Perspectiva.
La inteligencia espacial corporizada requiere que los agentes actúen para adquirir información bajo observabilidad parcial. Si bien los modelos fundacionales multimodales sobresalen en la percepción pasiva, su capacidad para la exploración activa y autodirigida sigue siendo poco estudiada. Proponemos la Teoría del Espacio, definida como la capacidad de un agente para adquirir información activamente mediante una exploración autodirigida y activa, y para construir, revisar y explotar una creencia espacial a partir de observaciones secuenciales y parciales. Evaluamos esto mediante un punto de referencia donde el objetivo es la exploración impulsada por la curiosidad para construir un mapa cognitivo preciso. Una innovación clave es el sondeo de creencias espaciales, que solicita a los modelos que revelen sus representaciones espaciales internas en cada paso. Nuestra evaluación de los modelos de vanguardia revela varios cuellos de botella críticos. Primero, identificamos una Brecha Activo-Pasiva, donde el rendimiento cae significativamente cuando los agentes deben recopilar información de forma autónoma. En segundo lugar, encontramos una alta ineficiencia, ya que los modelos exploran de manera no sistemática en comparación con proxies basados en programas. Mediante el sondeo de creencias, diagnosticamos que, si bien la percepción es un cuello de botella inicial, las creencias globales sufren de inestabilidad que hace que el conocimiento espacial se degrade con el tiempo. Finalmente, utilizando un paradigma de falsa creencia, descubrimos la Inercia de la Creencia, donde los agentes no logran actualizar sus previsiones obsoletas con nueva evidencia. Este problema está presente en los agentes basados en texto, pero es particularmente grave en los modelos basados en visión. Nuestros hallazgos sugieren que los modelos fundacionales actuales tienen dificultades para mantener creencias espaciales coherentes y revisables durante la exploración activa.
Este trabajo presenta WorldCompass, un novedoso marco de trabajo de post-entrenamiento por Refuerzo del Aprendizaje (RL) para modelos del mundo basados en vídeo interactivo y de horizonte largo, permitiéndoles explorar el mundo de manera más precisa y consistente basándose en señales de interacción. Para "dirigir" eficazmente la exploración del modelo del mundo, introducimos tres innovaciones clave adaptadas al paradigma de generación autoregresiva de vídeo: 1) Estrategia de despliegue a nivel de *clip*: Generamos y evaluamos múltiples muestras en un *clip* objetivo único, lo que aumenta significativamente la eficiencia del despliegue y proporciona señales de recompensa de grano fino. 2) Funciones de recompensa complementarias: Diseñamos funciones de recompensa tanto para la precisión en el seguimiento de la interacción como para la calidad visual, las cuales proporcionan supervisión directa y suprimen eficazmente comportamientos de *reward-hacking*. 3) Algoritmo de RL eficiente: Empleamos la estrategia de ajuste fino *negative-aware* junto con varias optimizaciones de eficiencia para mejorar de forma eficiente y efectiva la capacidad del modelo. Las evaluaciones realizadas sobre el modelo del mundo de código abierto de vanguardia, WorldPlay, demuestran que WorldCompass mejora significativamente la precisión interactiva y la fidelidad visual en diversos escenarios.
Los modelos de lenguaje grande (LLM) químicos dependen predominantemente de Cadenas de Pensamiento (CoT) explícitas en lenguaje natural para realizar razonamientos complejos. Sin embargo, el razonamiento químico es inherentemente continuo y estructural, y forzarlo a encajar en tokens lingüísticos discretos introduce una discrepancia fundamental en la representación que limita tanto la eficiencia como el rendimiento. Presentamos LatentChem, una interfaz de razonamiento latente que desacopla el cómputo químico de la generación textual, permitiendo a los modelos realizar razonamientos de múltiples pasos directamente en un espacio latente continuo, mientras emiten lenguaje solo para las salidas finales. Notablemente, observamos un comportamiento emergente consistente: cuando se optimizan únicamente para el éxito en la tarea, los modelos internalizan espontáneamente el razonamiento, abandonando progresivamente las derivaciones textuales verbosas en favor del cómputo latente implícito. Este cambio no es meramente estilístico, sino computacionalmente ventajoso. En diversos puntos de referencia de razonamiento químico, LatentChem logra una tasa de victorias no empatadas del 59.88% sobre líneas base sólidas basadas en CoT en ChemCoTBench, mientras ofrece una aceleración promedio en la inferencia de 10.84 veces. Nuestros resultados aportan evidencia empírica de que el razonamiento químico se realiza de manera más natural y efectiva como dinámicas latentes continuas, en lugar de trayectorias lingüísticas discretizadas.
La inferencia de contexto largo con Modelos de Lenguaje Grandes (LLMs) es costosa debido a la atención cuadrática y al crecimiento de las cachés clave-valor, lo que motiva la compresión de contexto. En este trabajo, estudiamos la compresión de contexto suave, donde un contexto largo se condensa en un pequeño conjunto de representaciones continuas. Los métodos existentes suelen readaptar el propio LLM como un compresor entrenable, dependiendo de la autoatención capa por capa para agregar información de manera iterativa. Sostenemos que este paradigma sufre dos limitaciones estructurales: (i) sobrescritura progresiva de representaciones a través de las capas y (ii) asignación no coordinada de la capacidad de compresión entre tokens. Proponemos ComprExIT (Compresión de Contexto mediante Transmisión Explícita de Información), un marco liviano que formula la compresión suave en un nuevo paradigma: transmisión explícita de información sobre estados ocultos congelados del LLM. Esto desacopla la compresión de la dinámica interna de autoatención del modelo. ComprExIT realiza (i) transmisión en profundidad para transmitir selectivamente información multicapa a anclajes de tokens, mitigando la sobrescritura progresiva, y (ii) transmisión en anchura para agregar anclajes en un pequeño número de espacios mediante un plan de transmisión globalmente optimizado, garantizando una asignación coordinada de la información. En seis benchmarks de respuesta a preguntas, ComprExIT supera consistentemente a los métodos de compresión de contexto más avanzados mientras introduce solo ~1% de parámetros adicionales, demostrando que la transmisión explícita y coordinada de información permite una compresión de contexto largo más efectiva y robusta.
La deducción, la inducción y la abducción son paradigmas fundamentales de razonamiento, esenciales para el pensamiento lógico humano. Aunque la mejora del razonamiento en los Modelos de Lenguaje a Gran Escala (LLM) ha atraído importantes esfuerzos de investigación, aún no se ha explorado sistemáticamente hasta qué punto estos paradigmas fundamentales inducen generalización. En este estudio, elucidamos cómo la interacción entre estos paradigmas centrales influye en el comportamiento razonador de los LLM. Para ello, primero recopilamos un nuevo conjunto de datos de trayectorias de razonamiento a partir de tareas simbólicas, cada una enfocada en uno de los tres paradigmas fundamentales, para abstraer del conocimiento concreto del mundo. Luego, investigamos formas efectivas de inducir estas habilidades en los LLM. Experimentamos con una batería de métodos que incluyen el fine-tuning simple y enfoques más complejos para aumentar la profundidad del modelo o transformar un modelo denso en una mezcla de expertos. Evaluamos exhaustivamente los modelos inducidos en tareas realistas fuera de dominio, formuladas completamente en lenguaje natural y que contienen conocimiento del mundo real. Nuestros resultados revelan que nuestro enfoque produce una fuerte generalizabilidad con ganancias sustanciales de rendimiento (hasta 14.60) en tareas realistas.
Los grandes modelos de razonamiento (LRM) logran un alto rendimiento en tareas complejas de razonamiento mediante la generación de trayectorias de razonamiento largas y multi-etapa, pero la escalabilidad en tiempo de inferencia conlleva un coste de despliegue sustancial. Un desafío clave es que la dificultad de generación varía dentro de una única salida, mientras que los enfoques existentes orientados a la eficiencia ignoran esta variación intra-generación o dependen de un enrutamiento supervisado a nivel de token con alta complejidad del sistema. Presentamos RelayGen, un marco de conmutación dinámica de modelos a nivel de segmento, que no requiere entrenamiento y aprovecha la variación de dificultad en el razonamiento de larga duración. Mediante un análisis offline de la incertidumbre de generación usando márgenes de probabilidad de tokens, demostramos que un control a nivel de segmento de grano grueso es suficiente para capturar las transiciones de dificultad dentro de una trayectoria de razonamiento. RelayGen identifica señales de conmutación específicas del modelo que indican transiciones a segmentos de menor dificultad y delega dinámicamente su continuación a un modelo más pequeño, preservando el razonamiento de alta dificultad en el modelo grande. En múltiples benchmarks de razonamiento, RelayGen reduce sustancialmente la latencia de inferencia preservando la mayor parte de la precisión de los modelos grandes. Cuando se combina con decodificación especulativa, RelayGen logra hasta 2.2 veces de aceleración extremo a extremo con menos del 2\% de degradación en precisión, sin requerir entrenamiento adicional ni componentes de enrutamiento aprendidos.
La cuantización solo de pesos se ha convertido en un enfoque estándar para servir eficientemente grandes modelos de lenguaje (LLMs). Sin embargo, los métodos existentes no logran comprimir modelos eficazmente a niveles binarios (1 bit), ya que requieren grandes cantidades de datos y capacidad de cómputo o incurren en almacenamiento adicional. En este trabajo, proponemos NanoQuant, el primer método de cuantización posterior al entrenamiento (PTQ) para comprimir LLMs tanto a niveles binarios como a niveles inferiores a 1 bit. NanoQuant formula la cuantización como un problema de factorización binaria de bajo rango, y comprime los pesos de precisión completa en matrices binarias de bajo rango y escalas. Específicamente, utiliza un método eficiente de multiplicadores de dirección alterna (ADMM) para inicializar con precisión matrices binarias latentes y escalas, y luego ajusta los parámetros inicializados mediante un proceso de reconstrucción por bloques y del modelo. En consecuencia, NanoQuant establece una nueva frontera de Pareto en la cuantización posterior al entrenamiento de baja memoria, logrando una precisión de vanguardia incluso con tasas de compresión inferiores a 1 bit. NanoQuant hace viable el despliegue a gran escala en hardware de consumo. Por ejemplo, comprime Llama2-70B en 25.8 veces en solo 13 horas en una sola H100, permitiendo que un modelo de 70B opere en una GPU de consumo de 8 GB.
Los modelos fundacionales, incluyendo los Modelos de Lenguaje a Gran Escala (LLM), los Modelos de Lenguaje Multimodales a Gran Escala (MLLM), los Modelos Generativos de Imagen (es decir, Modelos de Texto a Imagen y Modelos de Edición de Imágenes) y los Modelos Generativos de Video, se han convertido en herramientas esenciales con amplias aplicaciones en diversos dominios como el derecho, la medicina, la educación, las finanzas, la ciencia y más. A medida que estos modelos experimentan un despliegue creciente en el mundo real, garantizar su fiabilidad y responsabilidad se ha vuelto crítico para la academia, la industria y los gobiernos. Esta revisión aborda el desarrollo fiable y responsable de los modelos fundacionales. Exploramos problemas críticos, incluyendo el sesgo y la equidad, la seguridad y la privacidad, la incertidumbre, la explicabilidad y el cambio de distribución. Nuestra investigación también cubre las limitaciones de los modelos, como las alucinaciones, así como métodos como la alineación y la detección de Contenido Generado por Inteligencia Artificial (AIGC). Para cada área, revisamos el estado actual del campo y esbozamos direcciones futuras de investigación concretas. Adicionalmente, discutimos las intersecciones entre estas áreas, destacando sus conexiones y desafíos compartidos. Esperamos que nuestra revisión fomente el desarrollo de modelos fundacionales que no solo sean potentes, sino también éticos, confiables, fiables y socialmente responsables.
Recientemente, los modelos de difusión de video autorregresivos (AR) han logrado un rendimiento notable. Sin embargo, debido a sus limitadas duraciones de entrenamiento, surge una brecha entre el entrenamiento y la prueba al evaluar en horizontes más largos, lo que conduce a una rápida degradación visual. Siguiendo a Self Forcing, que estudia la brecha entrenamiento-prueba dentro de la duración del entrenamiento, este trabajo estudia dicha brecha más allá de la duración del entrenamiento, es decir, la brecha entre los horizontes limitados durante el entrenamiento y los horizontes de duración abierta durante las pruebas. Dado que las pruebas de duración abierta pueden extenderse más allá de cualquier ventana finita de entrenamiento, y el entrenamiento con videos largos es computacionalmente costoso, buscamos una solución libre de entrenamiento para cerrar esta brecha. Para explorar una solución libre de entrenamiento, realizamos un análisis sistemático del mantenimiento de la caché AR. Estas ideas conducen a Rolling Sink. Basado en Self Forcing (entrenado con clips de solo 5 segundos), Rolling Sink escala efectivamente la síntesis de video AR a duraciones ultra largas (por ejemplo, 5-30 minutos a 16 FPS) en el momento de la prueba, con sujetos consistentes, colores estables, estructuras coherentes y movimientos suaves. Como demuestran extensos experimentos, Rolling Sink logra una fidelidad visual y una coherencia temporal en horizontes largos superiores en comparación con los baselines state-of-the-art (SOTA). Página del proyecto: https://rolling-sink.github.io/
A pesar del rápido progreso en los Modelos de Lenguaje Grandes Multimodales (MLLMs), el razonamiento espacial visual sigue siendo poco fiable cuando las respuestas correctas dependen de cómo se vería una escena desde puntos de vista no observados o alternativos. Trabajos recientes abordan este problema aumentando el razonamiento con modelos del mundo para la imaginación visual, pero cuestiones como cuándo es realmente necesaria la imaginación, qué cantidad de ella es beneficiosa y cuándo se vuelve perjudicial siguen sin comprenderse bien. En la práctica, la imaginación indiscriminada puede aumentar la carga computacional e incluso degradar el rendimiento al introducir evidencia engañosa. En este trabajo, presentamos un análisis en profundidad de la imaginación visual en tiempo de prueba como un recurso controlable para el razonamiento espacial. Estudiamos cuándo la evidencia visual estática es suficiente, cuándo la imaginación mejora el razonamiento, y cómo la imaginación excesiva o innecesaria afecta a la precisión y la eficiencia. Para respaldar este análisis, presentamos AVIC, un marco adaptativo en tiempo de prueba con modelos del mundo que razona explícitamente sobre la suficiencia de la evidencia visual actual antes de invocar y escalar selectivamente la imaginación visual. En varios puntos de referencia de razonamiento espacial (SAT, MMSI) y un punto de referencia de navegación embodada (R2R), nuestros resultados revelan escenarios claros donde la imaginación es crítica, marginal o perjudicial, y muestran que el control selectivo puede igualar o superar a las estrategias de imaginación fija con sustancialmente menos llamadas al modelo del mundo y tokens de lenguaje. En conjunto, nuestros hallazgos subrayan la importancia de analizar y controlar la imaginación en tiempo de prueba para un razonamiento espacial eficiente y fiable.
La generación de procedimientos paso a paso de "cómo hacer" es una capacidad clave de los LLM: los consejos prácticos se solicitan comúnmente en chatbots, y la planificación secuencial es crucial para razonar sobre tareas complejas. Sin embargo, medir y mejorar la validez procedimental a escala en tareas del mundo real sigue siendo un desafío poco estudiado. Para abordarlo, presentamos How2Everything, un marco escalable para evaluar y mejorar la generación de procedimientos condicionados por objetivos. Nuestro marco incluye How2Mine, que extrae 351.000 procedimientos de 980.000 páginas web en 14 temas y se escala fácilmente a corpus más grandes. De este conjunto construimos How2Bench, un set de evaluación de 7.000 ejemplos equilibrado entre temas. Para puntuar salidas de modelos de forma fiable, desarrollamos How2Score, un protocolo de evaluación que utiliza un LLM como juez para detectar si una generación contiene fallos críticos que impedirían lograr el objetivo. Para una evaluación reproducible y de bajo coste, destilamos un modelo frontera en un modelo abierto de 8B, logrando un 80,5% de concordancia con anotadores humanos. How2Bench revela tendencias claras de escalado entre tamaños de modelo y etapas de entrenamiento, proporcionando señal temprana durante el preentrenamiento. Finalmente, el RL usando How2Score como recompensa mejora el rendimiento en How2Bench en más de 10 puntos en tres modelos sin regresiones sistemáticas en benchmarks estándar, con ganancias robustas frente a la memorización superficial de documentos fuente o el cumplimiento de formato. En conjunto, How2Everything demuestra cómo los datos web de preentrenamiento pueden sustentar un bucle cerrado de evaluación y mejora de capacidades a escala.
La elicitación de razonamiento ha surgido como una técnica poderosa para mejorar el rendimiento de los modelos de lenguaje grandes (LLM) en tareas complejas mediante la inducción del pensamiento. Sin embargo, su efectividad en escenarios realistas de agentes interactuando con usuarios sigue sin estar clara. En este artículo, realizamos un estudio exhaustivo sobre el efecto del pensamiento explícito en agentes LLM que interactúan con usuarios. Nuestros experimentos abarcan siete modelos, tres puntos de referencia y dos instanciaciones de pensamiento, y los evaluamos mediante un análisis taxonómico cuantitativo de respuestas y estudios de caso cualitativos sobre propagación de fallos. Contrario a lo esperado, encontramos que el pensamiento obligatorio a menudo resulta contraproducente para los agentes en entornos de interacción con usuarios, causando una degradación anómala del rendimiento en varios LLM. Nuestro hallazgo clave revela que el pensamiento vuelve a los agentes más "introvertidos" al acortar las respuestas y reducir la divulgación de información a los usuarios, lo que debilita el intercambio de información agente-usuario y conduce a fallos en tareas subsiguientes. Además, demostramos que solicitar explícitamente la divulgación de información mejora consistentemente el rendimiento en diversas familias de modelos, sugiriendo que la transparencia proactiva es un mecanismo vital para la optimización de agentes. En general, nuestro estudio sugiere que la conciencia de la transparencia informativa es una perspectiva crucial pero poco explorada para el diseño futuro de agentes de razonamiento en escenarios del mundo real. Nuestro código está disponible en https://github.com/deeplearning-wisc/Thinking-Agent.
Los paradigmas actuales para verificación de código dependen en gran medida de mecanismos externos—como pruebas unitarias basadas en ejecución o jueces auxiliares basados en LLM—que suelen ser intensivos en mano de obra o están limitados por las capacidades del modelo evaluador. Esto plantea una pregunta fundamental, aunque inexplorada: ¿Puede evaluarse la corrección funcional de un LLM únicamente a partir de su estructura computacional interna? Nuestro objetivo principal es investigar si la dinámica neuronal del modelo codifica señales internamente decodificables que sean predictivas de la validez lógica durante la generación de código. Inspirados por la interpretabilidad mecanicista, proponemos tratar la verificación de código como una tarea de diagnóstico mecanicista, mapeando la trayectoria algorítmica explícita del modelo en grafos de atribución a nivel de línea. Mediante la descomposición de flujos residuales complejos, buscamos identificar las firmas estructurales que distinguen el razonamiento sólido del fallo lógico dentro de los circuitos internos del modelo. El análisis en Python, C++ y Java confirma que las señales intrínsecas de corrección son robustas en diversas sintaxis. Las características topológicas de estos grafos internos predicen la corrección con mayor fiabilidad que las heurísticas superficiales y permiten intervenciones causales dirigidas para corregir lógica errónea. Estos hallazgos establecen la introspección interna como una propiedad decodificable para verificar código generado. Nuestro código está disponible en https:// github.com/bruno686/CodeCircuit.
El desarrollo de la inteligencia artificial puede considerarse como una evolución de los paradigmas de aprendizaje basados en datos, donde los cambios sucesivos en la organización y utilización de los datos impulsan continuamente los avances en la capacidad de los modelos. La investigación actual en LLM está dominada por un paradigma que depende en gran medida del escalado unidireccional del volumen de datos, encontrándose cada vez más con cuellos de botella en la disponibilidad de datos, el coste de adquisición y la eficiencia del entrenamiento. En este trabajo, sostenemos que el desarrollo de la AGI está entrando en una nueva fase de coevolución datos-modelo, en la que los modelos guían activamente la gestión de datos mientras que los datos de alta calidad, a su vez, amplifican las capacidades del modelo. Para implementar esta visión, proponemos un marco de gestión de datos por niveles, diseñado para apoyar todo el ciclo de vida del entrenamiento de LLM en diversos objetivos de aprendizaje y restricciones de coste. Específicamente, introducimos un marco de gestión de datos de niveles L0 a L4, que abarca desde recursos brutos sin curar hasta conocimiento organizado y verificable. Es importante destacar que los LLM se utilizan plenamente en los procesos de gestión de datos, como la puntuación de calidad y la edición de contenidos, para refinar los datos en todos los niveles. Cada nivel se caracteriza por distintas propiedades de los datos, estrategias de gestión y roles en el entrenamiento, lo que permite asignar los datos estratégicamente a lo largo de las etapas de entrenamiento del LLM, incluyendo el pre-entrenamiento, el entrenamiento intermedio y la alineación. El marco equilibra la calidad de los datos, el coste de adquisición y el beneficio marginal del entrenamiento, proporcionando un enfoque sistemático para una gestión de datos escalable y sostenible. Validamos la eficacia del marco propuesto mediante estudios empíricos, en los que se construyen conjuntos de datos por niveles a partir de corpus en bruto y se utilizan en múltiples fases de entrenamiento. Los resultados experimentales demuestran que la utilización de datos consciente de los niveles mejora significativamente la eficiencia del entrenamiento y el rendimiento del modelo. Para facilitar futuras investigaciones, ponemos a disposición de la comunidad nuestros conjuntos de datos por niveles y nuestras herramientas de procesamiento.
El aprendizaje por refuerzo (RL) se utiliza ampliamente para el control de humanoides, con métodos *on-policy* como la Optimización de Políticas Proximales (PPO) que permiten un entrenamiento robusto mediante simulación paralela a gran escala y, en algunos casos, un despliegue *zero-shot* en robots reales. Sin embargo, la baja eficiencia muestral de los algoritmos *on-policy* limita la adaptación segura a nuevos entornos. Aunque el RL *off-policy* y el RL basado en modelos han demostrado una mayor eficiencia muestral, aún existe una brecha entre el preentrenamiento a gran escala y el ajuste fino eficiente en humanoides. En este artículo, encontramos que el algoritmo *off-policy* Soft Actor-Critic (SAC), con actualizaciones de lotes grandes y una alta relación Actualización-a-Datos (UTD), respalda de manera fiable el preentrenamiento a gran escala de políticas de locomoción para humanoides, logrando un despliegue *zero-shot* en robots reales. Para la adaptación, demostramos que estas políticas preentrenadas con SAC pueden ajustarse en nuevos entornos y tareas fuera de distribución utilizando métodos basados en modelos. La recolección de datos en el nuevo entorno ejecuta una política determinista, mientras que la exploración estocástica se confina a un modelo del mundo informado por la física. Esta separación mitiga los riesgos de la exploración aleatoria durante la adaptación, al mismo tiempo que preserva la cobertura exploratoria para la mejora. En general, el enfoque combina la eficiencia en tiempo real del preentrenamiento con simulación a gran escala con la eficiencia muestral del aprendizaje basado en modelos durante el ajuste fino.
Presentamos MotionCrafter, un marco basado en difusión de vídeo que reconstruye conjuntamente la geometría 4D y estima el movimiento denso a partir de un vídeo monocular. El núcleo de nuestro método es una novedosa representación conjunta de mapas de puntos 3D densos y flujos de escena 3D en un sistema de coordenadas compartido, y un nuevo VAE 4D para aprender eficazmente esta representación. A diferencia de trabajos anteriores que fuerzan la alineación estricta de los valores 3D y los latentes con los latentes del VAE RGB —a pesar de sus distribuciones fundamentalmente diferentes— demostramos que dicha alineación es innecesaria y conduce a un rendimiento subóptimo. En su lugar, introducimos una nueva estrategia de normalización de datos y entrenamiento del VAE que transfiere mejor los priores de difusión y mejora enormemente la calidad de la reconstrucción. Experimentos exhaustivos en múltiples conjuntos de datos demuestran que MotionCrafter alcanza un rendimiento de vanguardia tanto en reconstrucción de geometría como en estimación de flujo de escena denso, logrando mejoras del 38,64% y del 25,0% en la reconstrucción de geometría y movimiento, respectivamente, todo ello sin ninguna post-optimización. Página del proyecto: https://ruijiezhu94.github.io/MotionCrafter_Page
Si bien los últimos años han presenciado avances rápidos en la síntesis de voz, los sistemas de síntesis de voz cantada (SVS) de código abierto aún enfrentan barreras significativas para su implementación industrial, particularmente en términos de robustez y generalización *zero-shot*. En este informe, presentamos SoulX-Singer, un sistema SVS de código abierto y alta calidad diseñado considerando aspectos prácticos de implementación. SoulX-Singer admite la generación controlada de canto condicionada por partituras musicales simbólicas (MIDI) o representaciones melódicas, permitiendo un control flexible y expresivo en flujos de trabajo de producción reales. Entrenado con más de 42,000 horas de datos vocales, el sistema admite chino mandarín, inglés y cantonés, y logra consistentemente una calidad de síntesis de vanguardia en todos los idiomas bajo diversas condiciones musicales. Además, para permitir una evaluación confiable del rendimiento SVS *zero-shot* en escenarios prácticos, construimos SoulX-Singer-Eval, un benchmark dedicado con una estricta separación entrenamiento-prueba, facilitando la evaluación sistemática en entornos *zero-shot*.
Lograr una locomoción estable y energéticamente eficiente es esencial para que los robots humanoides operen de forma continua en aplicaciones del mundo real. Los enfoques existentes de MPC (Control Predictivo por Modelos) y RL (Aprendizaje por Refuerzo) a menudo dependen de métricas relacionadas con la energía integradas en un marco de optimización multiobjetivo, lo que requiere un extenso ajuste de hiperparámetros y a menudo da lugar a políticas subóptimas. Para abordar estos desafíos, proponemos ECO (Optimización con Restricciones de Energía), un marco de RL restringido que separa las métricas relacionadas con la energía de las recompensas, reformulándolas como restricciones explícitas de desigualdad. Este método proporciona una representación física clara e interpretable de los costes energéticos, permitiendo un ajuste de hiperparámetros más eficiente e intuitivo para mejorar la eficiencia energética. ECO introduce restricciones dedicadas para el consumo de energía y el movimiento de referencia, aplicadas mediante el método Lagrangiano, para lograr una marcha estable, simétrica y energéticamente eficiente para robots humanoides. Evaluamos ECO comparándolo con MPC, RL estándar con moldeado de recompensas y cuatro métodos de RL restringido de vanguardia. Los experimentos, que incluyen transferencias sim-a-sim y sim-a-real en el robot humanoide de tamaño infantil BRUCE, demuestran que ECO reduce significativamente el consumo de energía en comparación con los métodos de referencia, manteniendo al mismo tiempo un rendimiento de marcha robusto. Estos resultados destacan un avance sustancial en la locomoción eficiente de humanoides. Todas las demostraciones experimentales pueden encontrarse en el sitio web del proyecto: https://sites.google.com/view/eco-humanoid.
Los modelos de recompensa (RMs) son cruciales para el entrenamiento de grandes modelos de lenguaje (LLMs), aunque normalmente dependen de pares de preferencias anotados manualmente a gran escala. Con el despliegue generalizado de los LLMs, las interacciones en entornos reales han surgido como una fuente rica de señales de recompensa implícitas. Esto plantea la pregunta: ¿Podemos desarrollar modelos de recompensa directamente a partir de interacciones en entornos reales? En este trabajo, exploramos esta posibilidad adoptando WildChat como fuente de interacción y proponiendo un pipeline para extraer retroalimentación humana confiable, obteniendo 186k instancias de alta calidad para entrenar WildReward mediante regresión ordinal directamente sobre la retroalimentación del usuario, sin pares de preferencias. Experimentos exhaustivos demuestran que WildReward logra un rendimiento comparable o incluso superior en comparación con los modelos de recompensa convencionales, con una calibración mejorada y una consistencia entre muestras. También observamos que WildReward se beneficia directamente de la diversidad de usuarios, donde más usuarios producen modelos de recompensa más sólidos. Finalmente, aplicamos WildReward al entrenamiento DPO en línea y observamos mejoras significativas en diversas tareas. El código y los datos se publican en https://github.com/THU-KEG/WildReward.
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) ha surgido como un método crítico para mejorar las capacidades de razonamiento de los Modelos de Lenguaje a Gran Escala (LLMs). Sin embargo, el entrenamiento continuo a menudo conduce al colapso de la entropía de la política, caracterizado por una rápida disminución de la entropía que resulta en una sobreconfianza prematura, una reducción de la diversidad de las salidas y normas de gradiente que se desvanecen, lo que inhibe el aprendizaje. El Recorte que Preserva Gradientes es un factor principal que influye en estas dinámicas, pero las estrategias de mitigación existentes son en gran medida estáticas y carecen de un marco que conecte los mecanismos de recorte con un control preciso de la entropía. Este artículo propone reformular el control de la entropía en el Aprendizaje por Refuerzo desde la perspectiva del Recorte que Preserva Gradientes. Primero verificamos teórica y empíricamente las contribuciones de regiones específicas de la tasa de importancia muestral al crecimiento y la reducción de la entropía. Aprovechando estos hallazgos, introducimos un novedoso mecanismo de regulación que utiliza un umbral de recorte dinámico para gestionar la entropía con precisión. Además, diseñamos y evaluamos estrategias dinámicas de control de la entropía, incluyendo aumento-luego-disminución, disminución-aumento-disminución y decaimiento oscilatorio. Los resultados experimentales demuestran que estas estrategias mitigan efectivamente el colapso de la entropía y logran un rendimiento superior en múltiples benchmarks.
La asignación de cómputo en tiempo de prueba en los grandes modelos de razonamiento (LRM, por sus siglas en inglés) es una práctica ampliamente utilizada con aplicaciones en la resolución de problemas matemáticos, síntesis de código y planificación. Trabajos recientes han abordado este problema mediante el escalado de la autoconsistencia y el pensamiento paralelo, añadiendo "tokens de pensamiento" genéricos e incitando a los modelos a releer la pregunta antes de responder. Lamentablemente, estos enfoques inyectan tokens independientes de la tarea o imponen heurísticas que no explican —y a menudo ignoran— la repetición espontánea que muchos LRM exhiben al inicio de sus cadenas internas. En contraste, nosotros analizamos y aprovechamos la tendencia del modelo a replantear la pregunta, a lo que denominamos el Eco del Prompt (EOP), como un mecanismo de configuración del cómputo cargado al inicio. Formalizamos su costo probabilístico planteando la eliminación del eco como un condicionamiento basado en rechazo y definiendo la Brecha de Probabilidad del Eco (ΔL) como un proxy computable. Esto proporciona el nexo teórico faltante que vincula la repetición temprana con las ganancias de verosimilitud y la precisión subsiguiente. Sin embargo, esto por sí solo no especifica cómo explotar el EOP. En consecuencia, desarrollamos el Fine-Tuning Supervisado Destilado por Eco (ED-SFT) para inculcar un patrón de "eco-y-luego-razonar" mediante fine-tuning supervisado, y el Prompting Ecóico (EP) para re-anclar el modelo a mitad de la traza sin necesidad de entrenamiento. Si bien son prometedores, cuantificar los beneficios más allá de la verbosidad no es trivial. Por lo tanto, realizamos análisis de verosimilitud controlados por longitud y sufijo, junto con estudios de atención por capas, demostrando que el EOP aumenta la atención de la respuesta hacia el prefijo de la respuesta en las capas medias, lo que es consistente con un mecanismo de reenfoque de la atención. Evaluamos en GSM8K, MathQA, Hendrycks-MATH, AIME24 y MATH-500 bajo configuraciones y presupuestos de decodificación idénticos, y encontramos ganancias consistentes respecto a los baselines. El código está disponible en https://github.com/hhh2210/echoes-as-anchors.
Los sistemas agentes se evalúan mediante benchmarks en los que los agentes interactúan con entornos para resolver tareas. La mayoría de los artículos reportan una puntuación pass@1 calculada a partir de una única ejecución por tarea, asumiendo que esto proporciona una estimación fiable del rendimiento. Ponemos a prueba esta suposición recopilando 60,000 trayectorias agentes en SWE-Bench-Verified, abarcando tres modelos y dos scaffolds. Encontramos una varianza sustancial: las estimaciones pass@1 de una sola ejecución varían entre 2.2 y 6.0 puntos porcentuales dependiendo de qué ejecución se seleccione, con desviaciones estándar que superan 1.5 puntos porcentuales incluso con temperatura 0. Esta varianza tiene implicaciones críticas: las mejoras reportadas de 2-3 puntos porcentuales pueden reflejar ruido en la evaluación en lugar de un progreso algorítmico genuino. Mediante un análisis a nivel de token, mostramos que las trayectorias divergen tempranamente, a menudo dentro del primer pequeño porcentaje de tokens, y que estas pequeñas diferencias se convierten en cascada en diferentes estrategias de solución. Para permitir una evaluación fiable de los sistemas agentes, recomendamos tres prácticas concretas: (1) estimar pass@1 a partir de múltiples ejecuciones independientes por tarea, especialmente al medir pequeñas mejoras, (2) utilizar análisis de potencia estadística para determinar el número de ejecuciones necesarias para detectar los tamaños del efecto esperados, y (3) considerar métricas como pass@k (límite optimista) y pass^k (límite pesimista) con k>1 para caracterizar mejor el rango completo de rendimiento. Si bien estas prácticas aumentan el costo de la evaluación, son esenciales para distinguir el progreso científico genuino del ruido estadístico.
La tokenización es una elección de diseño crucial para el modelado neuronal del lenguaje en lenguas morfológicamente ricas (LMR) como el turco, donde la aglutinación productiva plantea desafíos tanto para la eficiencia del vocabulario como para la fidelidad morfológica. Estudios previos han explorado familias de tokenizadores y tamaños de vocabulario, pero típicamente (i) varían el vocabulario sin controlar sistemáticamente el corpus de entrenamiento del tokenizador, (ii) ofrecen diagnósticos intrínsecos limitados, y (iii) evalúan un espectro reducido de tareas posteriores. Presentamos el primer estudio integral y fundamentado sobre la tokenización por subpalabras en turco; un "manifiesto de las subpalabras", que varía conjuntamente el tamaño del vocabulario y el tamaño del corpus de entrenamiento del tokenizador (acoplamiento de datos y vocabulario), compara múltiples familias de tokenizadores bajo presupuestos de parámetros equiparados (WordPiece, nivel morfológico y líneas de base de caracteres), y evalúa mediante pruebas semánticas (NLI, STS, análisis de sentimiento, NER), sintácticas (POS, análisis de dependencias) y sensibles a la morfología. Para explicar por qué los tokenizadores tienen éxito o fracasan, introducimos un kit de herramientas de diagnóstico consciente de la morfología que va más allá de los agregados generales para incluir F1 micro/macro a nivel de límites, atomicidad de lema versus aciertos de límites superficiales desacoplados, índices de sobre/segmentación insuficiente, distancias de edición de caracteres/palabras (CER/WER), tasas de continuación, y cobertura de tipos de afijos y atomicidad a nivel de token. Nuestras contribuciones son cuádruples: (i) una investigación sistemática de la tríada vocabulario-corpus-éxito; (ii) un marco de evaluación unificado y consciente de la morfología que vincula diagnósticos intrínsecos con resultados extrínsecos; (iii) comparaciones controladas que identifican cuándo la tokenización a nivel de carácter y a nivel morfológico resulta beneficiosa; y (iv) una publicación de código abierto que incluye el código de evaluación, pipelines de tokenizadores y modelos. Como el primer trabajo de su tipo, este "manifiesto de las subpalabras" ofrece orientación práctica para construir tokenizadores efectivos en LMR y establece una base reproducible para futuras investigaciones.
La comprensión emocional es esencial para construir agentes socialmente inteligentes. Aunque los modelos lingüísticos grandes multimodales recientes han mostrado un rendimiento sólido en esta tarea, persisten dos desafíos clave: las asociaciones espurias entre emociones y claves audiovisuales irrelevantes, y las alucinaciones de claves audiovisuales impulsadas por los sesgos textuales en el núcleo del modelo lingüístico. Para cuantificar y comprender estos problemas, presentamos EmoReAlM, un punto de referencia diseñado para evaluar MLLMs en asociaciones claves-emociones, alucinaciones y concordancia multimodal. Posteriormente proponemos AVEm-DPO, una técnica de optimización de preferencias que alinea las respuestas del modelo con las entradas audiovisuales y consultas centradas en emociones. Específicamente, construimos preferencias sobre respuestas que exhiben asociaciones espurias o alucinaciones, y pares de entrada audiovisual guiados por indicaciones textuales. También incluimos un término de regularización que penaliza la dependencia de sesgos textuales, mitigando así las alucinaciones de claves específicas por modalidad. Los resultados experimentales en DFEW, RAVDESS y EMER demuestran que nuestro método mejora significativamente el rendimiento de los modelos de referencia base con ganancias de rendimiento relativo del 6-19% en entornos de cero disparos. Al proporcionar tanto un punto de referencia riguroso como un marco de optimización robusto, este trabajo permite la evaluación e mejora fundamentadas de MLLMs para la comprensión emocional y la IA social. El código, modelos y punto de referencia se publicarán en https://avere-iclr.github.io.
Los recientes avances en arquitecturas de mezcla de expertos han demostrado que los modelos expertos individuales pueden entrenarse de manera federada, es decir, de forma aislada de otros expertos utilizando un modelo base común para facilitar la coordinación. Sin embargo, planteamos la hipótesis de que los expertos de tamaño completo podrían no ser necesarios para todos los dominios y que, en su lugar, los adaptadores de bajo rango podrían ser suficientes. Aquí presentamos FlexMoRE, una Mezcla Flexible de Expertos con Rango Heterogéneo, que puede consistir en expertos de tamaño completo o adaptadores de un rango adecuado. Investigamos sistemáticamente la relación de compromiso entre el rango del experto y el rendimiento en tareas posteriores mediante la evaluación de 6 expertos con rangos desde 2^0 hasta 2^{14}, lo que resulta en experimentos que abarcan 150 mezclas (96 con 2 expertos, 54 con 7 expertos) evaluadas en 120 tareas. Para nuestros experimentos, partimos de FlexOlmo y convertimos sus expertos preentrenados en versiones de bajo rango. Nuestro análisis de regresión del rango del experto al rendimiento en tareas posteriores revela que el rango de mejor rendimiento es sustancialmente mayor para benchmarks con alto contenido de razonamiento que para benchmarks con alto contenido de conocimiento. Estos hallazgos sobre la sensibilidad al rango tienen implicaciones directas para la eficiencia de memoria: utilizando rangos óptimos, FlexMoRE produce un mejor rendimiento en tareas posteriores (puntuación promedio 47.18) en comparación con la mezcla de referencia de expertos de tamaño completo al estilo de FlexOlmo (puntuación promedio 45.46) con menos de un tercio de los parámetros (10.75B para FlexMoRE frente a 33.27B para FlexOlmo). Todo el código estará disponible.
Los modelos lingüísticos (LM) modernos tienden a memorizar porciones de sus datos de entrenamiento y emiten fragmentos textuales de forma literal. Cuando las fuentes subyacentes son sensibles o están protegidas por derechos de autor, dicha reproducción plantea problemas de consentimiento y compensación para los creadores, así como riesgos de cumplimiento normativo para los desarrolladores. Proponemos Anchored Decoding (Decodificación Anclada), un método plug-and-play aplicable durante la inferencia para suprimir la copia literal: permite la decodificación desde cualquier LM riesgoso entrenado con datos de licencias mixtas, manteniendo la generación dentro de una proximidad acotada respecto a un LM seguro entrenado de forma permisiva. Anchored Decoding asigna de manera adaptativa un presupuesto de información elegido por el usuario a lo largo de la trayectoria de generación y aplica restricciones por paso que producen una garantía a nivel de secuencia, permitiendo un balance ajustable entre riesgo y utilidad. Para hacer que Anchored Decoding sea práctico, presentamos un nuevo modelo seguro entrenado permisivamente (TinyComma 1.8B), así como Anchored_{Byte} Decoding (Decodificación Anclada a Nivel de Byte), una variante de nuestro método que permite la fusión transversal de vocabularios mediante el framework ByteSampler (Hayase et al., 2025). Evaluamos nuestros métodos en seis pares de modelos mediante evaluaciones de riesgo de copyright y utilidad en generación de texto extenso. Anchored y Anchored_{Byte} Decoding definen una nueva frontera de Pareto, preservando una fluidez y factualidad casi originales mientras eliminan hasta el 75% de la brecha medible de copia (promediada sobre seis métricas de copia) entre la línea base riesgosa y una referencia segura, con una sobrecarga de inferencia modesta.
Los modelos de lenguaje de gran tamaño dependen de cachés KV para evitar cálculos redundantes durante la decodificación autoregresiva, pero a medida que crece la longitud del contexto, la lectura y escritura de la caché puede saturar rápidamente el ancho de banda de la memoria de la GPU. Trabajos recientes han explorado la compresión de la caché KV, aunque la mayoría de los enfoques pasan por alto la naturaleza dependiente de los datos de las cachés KV y su variación entre capas. Presentamos KV-CoRE (Compresibilidad de la Caché KV por Evaluación de Rango), un método basado en SVD para cuantificar la compresibilidad de bajo rango dependiente de los datos de las cachés KV. KV-CoRE calcula la aproximación de bajo rango óptima bajo la norma de Frobenius y, al estar libre de gradientes y ser incremental, permite una evaluación eficiente a nivel de conjunto de datos y por capas. Utilizando este método, analizamos múltiples modelos y conjuntos de datos que abarcan cinco dominios del inglés y dieciséis idiomas, descubriendo patrones sistemáticos que vinculan la compresibilidad con la arquitectura del modelo, los datos de entrenamiento y la cobertura lingüística. Como parte de este análisis, empleamos el Rango Efectivo Normalizado como métrica de compresibilidad y demostramos que se correlaciona fuertemente con la degradación del rendimiento bajo compresión. Nuestro estudio establece un marco de evaluación fundamentado y el primer benchmark a gran escala de la compresibilidad de la caché KV en LLMs, ofreciendo perspectivas para la compresión dinámica y consciente de los datos, y el desarrollo de modelos centrado en los datos.
Los recuperadores de interacción tardía multivector como ColBERT logran una calidad de recuperación de vanguardia, pero su costo en tiempo de consulta está dominado por el cálculo exhaustivo de interacciones MaxSim a nivel de token para cada documento candidato. Si bien aproximar la interacción tardía con representaciones de vector único reduce el costo, a menudo conlleva una pérdida sustancial de precisión. Presentamos Col-Bandit, un algoritmo de poda en tiempo de consulta que reduce esta carga computacional planteando la rerclasificación como un problema de identificación Top-K de población finita. Col-Bandit mantiene límites conscientes de la incertidumbre sobre las puntuaciones de documentos parcialmente observados y revela de forma adaptativa solo las entradas MaxSim (documento, token de consulta) necesarias para determinar los mejores resultados bajo límites de decisión estadística con una relajación ajustable. A diferencia de los enfoques de grano grueso que podan documentos o tokens completos fuera de línea, Col-Bandit esparcifica la matriz de interacción sobre la marcha. Opera como una capa de reemplazo inmediato (drop-in) y sin ajuste previo (zero-shot) sobre sistemas multivector estándar, sin requerir modificaciones en el índice, preprocesamiento offline o reentrenamiento del modelo. Los experimentos en benchmarks textuales (BEIR) y multimodales (REAL-MM-RAG) muestran que Col-Bandit preserva la fidelidad de la clasificación mientras reduce las operaciones de punto flotante (FLOPs) de MaxSim hasta en 5 veces, lo que indica que la puntuación densa por interacción tardía contiene una redundancia sustancial que puede identificarse y podarse eficientemente en tiempo de consulta.
Las habilidades de agente amplían las capacidades de los agentes de modelos de lenguaje grande (LLM) con módulos reutilizables, similares a programas, que definen condiciones de activación, lógica procedural e interacciones con herramientas. A medida que estas habilidades proliferan en mercados públicos, no está claro qué tipos están disponibles, cómo los usuarios las adoptan y qué riesgos plantean. Para responder estas preguntas, realizamos un análisis a gran escala y basado en datos de 40.285 habilidades listadas públicamente en un mercado principal. Nuestros resultados muestran que la publicación de habilidades tiende a ocurrir en ráfagas cortas que siguen los cambios en la atención de la comunidad. También encontramos que el contenido de habilidades está altamente concentrado en flujos de trabajo de ingeniería de software, mientras que la recuperación de información y la creación de contenido representan una parte sustancial de la adopción. Más allá de las tendencias de contenido, descubrimos un pronunciado desequilibrio entre oferta y demanda entre categorías, y demostramos que la mayoría de las habilidades se mantienen dentro de los límites típicos de longitud de prompts a pesar de una distribución de longitud de cola pesada. Finalmente, observamos una fuerte homogeneidad del ecosistema, con redundancia generalizada a nivel de intención, e identificamos riesgos de seguridad no triviales, incluyendo habilidades que permiten acciones con cambios de estado o a nivel de sistema. En general, nuestros hallazgos proporcionan una instantánea cuantitativa de las habilidades de agente como una capa de infraestructura emergente para agentes e informan trabajos futuros sobre reutilización, estandarización y diseño consciente de la seguridad de habilidades.
Las ecuaciones en derivadas parciales son precisas para modelar fenómenos físicos, biológicos y gráficos. Sin embargo, los métodos numéricos adolecen de la maldición de la dimensionalidad, altos costes computacionales y discretizaciones específicas del dominio. Nuestro objetivo es explorar las ventajas y desventajas de diferentes solucionadores de EDP, y aplicarlos a problemas específicos de simulación científica, incluyendo solución directa, problemas inversos y descubrimiento de ecuaciones. En particular, extendemos el reciente solucionador CNF (NeurIPS 2023) a configuraciones multivariables dependientes y no lineales, junto con aplicaciones posteriores. Los resultados incluyen la implementación de métodos seleccionados, técnicas de autoajuste, evaluación en problemas de referencia y un estudio exhaustivo de solucionadores neuronales de EDP y aplicaciones de simulación científica.
La generación aumentada por recuperación (RAG) mejora el razonamiento de los LLM en tareas intensivas en conocimiento, pero los flujos de trabajo de RAG existentes conllevan una sobrecarga sustancial de recuperación y generación cuando se aplican a la concordancia de entidades a gran escala. Para abordar esta limitación, presentamos CE-RAG4EM, una arquitectura RAG de bajo costo que reduce la computación mediante la recuperación y generación por lotes basada en bloqueo. También presentamos un marco unificado para analizar y evaluar sistemas RAG para concordancia de entidades, centrándonos en optimizaciones conscientes del bloqueo y en la granularidad de la recuperación. Experimentos exhaustivos sugieren que CE-RAG4EM puede lograr una calidad de concordancia comparable o mejorada mientras reduce sustancialmente el tiempo de ejecución de extremo a extremo en comparación con líneas de base sólidas. Nuestro análisis revela además que los parámetros clave de configuración introducen una compensación inherente entre el rendimiento y la sobrecarga, ofreciendo una guía práctica para diseñar sistemas RAG eficientes y escalables para la concordancia de entidades y la integración de datos.
Presentamos a Aster, un agente de inteligencia artificial para el descubrimiento científico autónomo capaz de operar más de 20 veces más rápido que los marcos de trabajo existentes. Dada una tarea, un programa inicial y un script para evaluar el rendimiento del programa, Aster mejora el programa de forma iterativa, lo que a menudo conduce a nuevos rendimientos de vanguardia. La reducción significativa en el número de iteraciones requeridas para nuevos descubrimientos que ofrece Aster expande el dominio de los problemas tratables para incluir tareas con largas duraciones de evaluación, como las ejecuciones de entrenamiento de aprendizaje automático que duran varias horas. Aplicamos Aster a problemas en matemáticas, ingeniería de núcleos GPU, biología, neurociencia y entrenamiento de modelos de lenguaje. Más específicamente: el problema de superposición mínima de Erdos, la optimización del núcleo TriMul, un problema de eliminación de ruido en análisis de células individuales, el entrenamiento de un modelo de predicción de actividad neuronal para obtener buenos resultados en ZAPBench, y la NanoGPT Speedrun Competition. Aster obtiene resultados de vanguardia (SOTA) en cada tarea, excepto en ZAPBench, donde iguala el rendimiento de la mejor solución humana con menos de 1/190 parte del cómputo. Aster es accesible mediante una interfaz web y una API en asterlab.ai.
Los Modelos de Lenguaje Grandes (LLM) prometen acelerar el descubrimiento mediante el razonamiento a través del panorama científico en expansión. Sin embargo, el desafío ya no es el acceso a la información, sino conectarla de manera significativa y que trascienda dominios. En la ciencia de materiales, donde la innovación exige integrar conceptos desde la química molecular hasta el rendimiento mecánico, esto es especialmente agudo. Ni los humanos ni los LLM de agente único pueden contender completamente con este torrente de información, siendo estos últimos a menudo propensos a alucinaciones. Para abordar este cuello de botella, presentamos un marco de multiagente guiado por grafos de conocimiento a gran escala para encontrar sustitutos sostenibles de las sustancias perfluoroalquiladas y polifluoroalquiladas (PFAS), productos químicos actualmente bajo intenso escrutinio regulatorio. Los agentes en el marco se especializan en la descomposición de problemas, la recuperación de evidencia, la extracción de parámetros de diseño y el recorrido de grafos, descubriendo conexiones latentes entre distintos focos de conocimiento para apoyar la generación de hipótesis. Los estudios de ablación muestran que la canalización completa de multiagente supera al prompting de una sola vez, subrayando el valor de la especialización distribuida y el razonamiento relacional. Demostramos que, al adaptar las estrategias de recorrido de grafos, el sistema alterna entre búsquedas explotadoras centradas en resultados críticos para el dominio y búsquedas exploratorias que sacan a la luz interconexiones emergentes. Ilustrado a través del ejemplo de los tubos biomédicos, el marco genera alternativas sostenibles libres de PFAS que equilibran el rendimiento tribológico, la estabilidad térmica, la resistencia química y la biocompatibilidad. Este trabajo establece un marco que combina grafos de conocimiento con razonamiento multiagente para expandir el espacio de diseño de materiales, mostrando varios candidatos de diseño iniciales para demostrar el enfoque.
Los embeddings de texto permiten numerosas aplicaciones de PLN pero enfrentan graves riesgos de privacidad por ataques de inversión de embeddings, que pueden exponer atributos sensibles o reconstruir texto original. Las defensas existentes de privacidad diferencial asumen una sensibilidad uniforme entre dimensiones de embedding, generando ruido excesivo y degradando la utilidad. Proponemos SPARSE, un marco centrado en el usuario para protección de privacidad específica por concepto en embeddings de texto. SPARSE combina (1) aprendizaje de máscara diferenciable para identificar dimensiones sensibles a la privacidad para conceptos definidos por el usuario, y (2) el mecanismo de Mahalanobis que aplica ruido elíptico calibrado por sensibilidad dimensional. A diferencia de la inyección esférica tradicional de ruido, SPARSE perturba selectivamente dimensiones sensibles preservando semántica no sensible. Evaluado en seis conjuntos de datos con tres modelos de embedding y escenarios de ataque, SPARSE reduce consistentemente la filtración de privacidad mientras logra un rendimiento superior en tareas posteriores comparado con métodos state-of-the-art de privacidad diferencial.
Investigaciones recientes demuestran que los objetivos de Alineamiento de Preferencias (AP) actúan como estimadores de divergencia entre distribuciones de respuestas alineadas (elegidas) y no alineadas (rechazadas). En este trabajo, extendemos esta perspectiva basada en divergencia a entornos de alineamiento generales, como el aprendizaje por refuerzo con recompensas verificables (RLVR), donde solo se dispone de recompensas ambientales. Dentro de este marco unificado, proponemos la Optimización de Políticas Relativas para Grupos-f (f-GRPO), una clase de aprendizaje por refuerzo *on-policy*, y la Pérdida de Alineamiento Híbrida-f (f-HAL), objetivos híbridos *on/off-policy*, para el alineamiento general de LLM basados en la representación variacional de las f-divergencias. Proveemos garantías teóricas de que estas clases de objetivos mejoran la recompensa promedio tras el alineamiento. Empíricamente, validamos nuestro marco en tareas tanto de RLVR (Razonamiento Matemático) como de AP (Alineamiento de Seguridad), demostrando un rendimiento y flexibilidad superiores en comparación con métodos actuales.
Presentamos la primera formalización integral en Lean 4 de la teoría del aprendizaje estadístico (SLT) basada en la teoría de procesos empíricos. Nuestra infraestructura formal de extremo a extremo implementa los contenidos faltantes en la biblioteca Mathlib más reciente de Lean 4, incluyendo un desarrollo completo de la concentración gaussiana de Lipschitz, la primera formalización del teorema de la integral de entropía de Dudley para procesos sub-gaussianos, y una aplicación a la regresión de mínimos cuadrados (dispersa) con una tasa óptima. El proyecto se llevó a cabo utilizando un flujo de trabajo colaborativo humano-IA, en el que los humanos diseñan las estrategias de demostración y los agentes de IA ejecutan la construcción táctica de las pruebas, dando como resultado una caja de herramientas para SLT en Lean 4 verificada por humanos. Más allá de la implementación, el proceso de formalización expone y resuelve supuestos implícitos y detalles faltantes en los libros de texto estándar de SLT, imponiendo una comprensión granular, línea por línea, de la teoría. Este trabajo establece una base formal reutilizable y abre la puerta a desarrollos futuros en la teoría del aprendizaje automático. El código está disponible en https://github.com/YuanheZ/lean-stat-learning-theory.
La Recuperación Multimodal Universal (UMR) busca realizar búsquedas de cualquier tipo a cualquier tipo a través de texto y visión, sin embargo, los modelos modernos de *embeddings* siguen siendo frágiles cuando las consultas requieren razonamiento latente (por ejemplo, resolver referencias subespecificadas o hacer coincidir restricciones compositivas). Sostenemos que esta fragilidad a menudo es inducida por los datos: cuando las imágenes contienen evidencia "silenciosa" y las consultas dejan semántica clave implícita, un único paso de incrustación debe tanto razonar como comprimir, fomentando una coincidencia de características espuria. Proponemos un marco centrado en los datos que desacopla estos roles externalizando el razonamiento antes de la recuperación. Utilizando un modelo fuerte de Visión y Lenguaje, hacemos explícita la semántica implícita mediante la generación densa de descripciones de la evidencia visual en las entradas del corpus, resolviendo referencias multimodales ambiguas en las consultas y reescribiendo instrucciones verbosas en restricciones de recuperación concisas. La mejora en el momento de la inferencia por sí sola es insuficiente; el recuperador debe ser entrenado con estas representaciones semánticamente densas para evitar un cambio de distribución y explotar completamente la señal añadida. En M-BEIR, nuestro método de entrenamiento aumentado con razonamiento produce ganancias consistentes sobre líneas base sólidas, con ablaciones que muestran que la mejora del corpus beneficia principalmente a consultas intensivas en conocimiento, mientras que la mejora de la consulta es crítica para solicitudes de modificación compositiva. Publicamos nuestro código en https://github.com/AugmentedRetrieval/ReasoningAugmentedRetrieval.
El movimiento colectivo en los cardúmenes de peces ejemplifica la autoorganización emergente en sistemas de materia activa, sin embargo, las herramientas computacionales para simular y analizar estas dinámicas permanecen fragmentadas entre los grupos de investigación. Presentamos dewi-kadita, una biblioteca de Python de código abierto que implementa el modelo tridimensional basado en zonas de Couzin con diagnósticos integrales de entropía adaptados para la investigación del comportamiento colectivo marino. La biblioteca introduce siete métricas de teoría de la información —entropía de cohesión del cardumen, entropía de polarización, entropía de estratificación por profundidad, entropía de momento angular, entropía del vecino más cercano, entropía de correlación de velocidades y entropía de la forma del cardumen— que caracterizan características organizativas distintas inaccesibles para los parámetros de orden clásicos. Estas métricas se combinan en un Índice de Cardumen Oceánico (ICO) que proporciona una medida escalar única del desorden colectivo. La validación en cuatro configuraciones canónicas (enjambre, toro, paralelo dinámico, altamente paralelo) confirma la reproducción correcta de los comportamientos de fase conocidos: el enjambre mantiene el desorden con polarización P < 0.1 e ICO aprox. 0.71, mientras que el estado altamente paralelo alcanza P = 0.998 con ICO = 0.24 y la entropía de correlación de velocidades se reduce a cero. El marco de entropía discrimina con éxito las configuraciones de toro y paralelo dinámico, que exhiben magnitudes comparables de parámetros de orden a través de diferentes mecanismos organizativos. La compilación justo a tiempo (JIT) de Numba acelera los cálculos de interacciones por pares entre 10 y 100 veces, permitiendo simulaciones de 150-250 agentes durante 1000-2000 pasos de tiempo en menos de cinco minutos en hardware de estación de trabajo estándar. La salida en formato NetCDF4 garantiza la interoperabilidad con las herramientas de análisis oceanográfico. La biblioteca satisface la necesidad de una infraestructura estandarizada y reproducible en el modelado del comportamiento colectivo, análoga a los códigos establecidos de dinámica molecular.
El descubrimiento causal es fundamental para el avance de campos basados en datos como la IA científica y el análisis de datos; sin embargo, los enfoques existentes enfrentan importantes cuellos de botella en eficiencia temporal y espacial al escalar a grafos grandes. Para abordar este desafío, presentamos CauScale, una arquitectura neuronal diseñada para el descubrimiento causal eficiente que escala la inferencia a grafos de hasta 1000 nodos. CauScale mejora la eficiencia temporal mediante una unidad de reducción que comprime los *embeddings* de datos y mejora la eficiencia espacial adoptando pesos de atención compartidos para evitar mantener mapas de atención específicos por eje. Para mantener una alta precisión en el descubrimiento causal, CauScale adopta un diseño de doble flujo: un flujo de datos extrae evidencia relacional de observaciones de alta dimensión, mientras que un flujo de grafo integra *priors* gráficos estadísticos y preserva señales estructurales clave. CauScale escala exitosamente a grafos de 500 nodos durante el entrenamiento, donde trabajos previos fallan debido a limitaciones de espacio. En datos de prueba con diversas escalas de grafos y mecanismos causales, CauScale alcanza un 99.6% de mAP en datos dentro de la distribución y un 84.4% en datos fuera de la distribución, mientras ofrece aceleraciones en la inferencia de 4 a 13,000 veces sobre métodos anteriores. Nuestra página del proyecto se encuentra en https://github.com/OpenCausaLab/CauScale.