Artículos de investigación en IA seleccionados diariamente con traducciones
Los Modelos de Lenguaje Grandes (LLM) han logrado un éxito notable en la comprensión del código fuente, pero a medida que los sistemas de software aumentan en escala, la eficiencia computacional se ha convertido en un cuello de botella crítico. Actualmente, estos modelos se basan en un paradigma basado en texto que trata el código fuente como una secuencia lineal de tokens, lo que conlleva un aumento lineal en la longitud del contexto y los costos computacionales asociados. El rápido avance de los Modelos de Lenguaje Multimodales (MLLM) introduce una oportunidad para optimizar la eficiencia representando el código fuente como imágenes renderizadas. A diferencia del texto, que es difícil de comprimir sin perder significado semántico, la modalidad de imagen es inherentemente adecuada para la compresión. Al ajustar la resolución, las imágenes pueden escalarse a una fracción de su costo original en tokens mientras siguen siendo reconocibles para los modelos con capacidades visuales. Para explorar la viabilidad de este enfoque, realizamos el primer estudio sistemático sobre la efectividad de los MLLM para la comprensión de código. Nuestros experimentos revelan que: (1) los MLLM pueden comprender código efectivamente con una reducción sustancial de tokens, logrando compresiones de hasta 8x; (2) los MLLM pueden aprovechar eficazmente pistas visuales como el resaltado de sintaxis, mejorando el rendimiento en completado de código bajo compresiones de 4x; y (3) tareas de comprensión de código como la detección de clones muestran una resistencia excepcional a la compresión visual, con algunas tasas de compresión incluso superando ligeramente a las entradas de texto sin procesar. Nuestros hallazgos destacan tanto el potencial como las limitaciones actuales de los MLLM en la comprensión de código, lo que señala un cambio hacia la representación de código en modalidad de imagen como una vía para una inferencia más eficiente.
Los agentes de lenguaje han demostrado un gran potencial para la automatización de tareas. Materializar este potencial en tareas cada vez más complejas y de horizonte temporal prolongado ha impulsado el surgimiento de un paradigma de subagentes-como-herramientas para la resolución de tareas multi-paso. Sin embargo, los diseños existentes carecen de una visión de abstracción dinámica de los subagentes, lo que perjudica la adaptabilidad. Abordamos este desafío con una abstracción de agente unificada e independiente del framework, que modela cualquier agente como una tupla (Instrucción, Contexto, Herramientas, Modelo). Esta tupla actúa como una receta composicional de capacidades, permitiendo al sistema generar ejecutores especializados para cada tarea bajo demanda. Basándonos en esta abstracción, presentamos un sistema agentivo, AOrchestra, donde el orquestador central concreta la tupla en cada paso: selecciona el contexto relevante para la tarea, elige herramientas y modelos, y delega la ejecución mediante la creación automática de agentes sobre la marcha. Este diseño permite reducir el esfuerzo de ingeniería humana y mantiene la independencia del framework con soporte plug-and-play para diversos agentes como ejecutores de tareas. También posibilita un equilibrio controlable entre rendimiento y coste, permitiendo al sistema aproximarse a la eficiencia de Pareto. En tres benchmarks desafiantes (GAIA, SWE-Bench, Terminal-Bench), AOrchestra logra una mejora relativa del 16.28% frente al baseline más fuerte cuando se empareja con Gemini-3-Flash. El código está disponible en: https://github.com/FoundationAgents/AOrchestra
Este trabajo surge de observaciones complementarias previas sobre la dinámica de la Cadena de Pensamiento (CoT): se demuestra que los Modelos de Lenguaje a Gran Escala (LLMs) realizan una planificación latente del razonamiento subsiguiente antes de la emergencia de la CoT, lo que disminuye la importancia de la CoT explícita; sin embargo, la CoT sigue siendo crítica para tareas que requieren razonamiento de múltiples pasos. Para profundizar en la comprensión de la relación entre los estados internos de los LLMs y sus trayectorias de razonamiento verbalizado, investigamos la capacidad de planificación latente de los LLMs mediante nuestro método de sondeo, Tele-Lens, aplicado a estados ocultos en diversos dominios de tareas. Nuestros resultados empíricos indican que los LLMs exhiben un horizonte miope, realizando principalmente transiciones incrementales sin una planificación global precisa. Aprovechando esta característica, proponemos una hipótesis para mejorar la estimación de incertidumbre de la CoT, la cual validamos demostrando que un pequeño subconjunto de posiciones de la CoT puede representar efectivamente la incertidumbre de toda la trayectoria. Además, subrayamos la importancia de explotar la dinámica de la CoT y demostramos que se puede lograr el reconocimiento automático de la omisión de la CoT sin degradación del rendimiento. Nuestro código, datos y modelos están disponibles en https://github.com/lxucs/tele-lens.
La automatización de la investigación en IA difiere de la ingeniería de software general debido a la evaluación computacionalmente costosa (por ejemplo, el entrenamiento de modelos) y a la atribución de rendimiento opaca. Los agentes actuales basados en LLM tienen dificultades aquí, generando a menudo scripts monolíticos que ignoran los costes de ejecución y los factores causales. Presentamos MARS (Agente Modular con Búsqueda Reflexiva), un marco optimizado para la investigación autónoma en IA. MARS se basa en tres pilares: (1) Planificación Consciente del Presupuesto mediante Búsqueda de Árbol de Monte Carlo (MCTS) con restricciones de coste para equilibrar explícitamente el rendimiento con el gasto de ejecución; (2) Construcción Modular, que emplea una canalización "Diseñar-Descomponer-Implementar" para gestionar repositorios de investigación complejos; y (3) Memoria Reflexiva Comparativa, que aborda la asignación de crédito analizando diferencias entre soluciones para destilar insights de alta señal. MARS logra un rendimiento de vanguardia entre los marcos de código abierto en MLE-Bench bajo configuraciones comparables, manteniendo competitividad con los métodos líderes del ranking global. Además, el sistema exhibe cualitativamente momentos de "¡Eureka!", donde el 63% de las lecciones utilizadas se originan de transferencia entre ramas, demostrando que el agente generaliza efectivamente los insights a través de las rutas de búsqueda.
Si bien los Modelos de Lenguaje a Gran Escala (LLMs) sobresalen en tareas de corto plazo, escalarlos a flujos de trabajo agenticos de largo horizonte sigue siendo un desafío. El cuello de botella principal radica en la escasez de datos de entrenamiento que capturen estructuras auténticas de dependencia a largo plazo y dinámicas evolutivas entre etapas: los métodos de síntesis existentes se limitan a escenarios de característica única restringidos por la distribución del modelo, o incurren en costos prohibitivos de anotación humana, sin poder proporcionar una supervisión escalable y de alta calidad. Abordamos esto reconceptualizando la síntesis de datos a través del lente de la evolución del software del mundo real. Nuestra idea clave: las secuencias de Pull Requests (PRs) encarnan naturalmente las señales de supervisión para el aprendizaje de largo horizonte. Estas descomponen objetivos complejos en unidades de envío verificables, mantienen la coherencia funcional a través de iteraciones y codifican patrones auténticos de refinamiento mediante historiales de corrección de errores. Basándonos en esto, proponemos daVinci-Agency, que extrae sistemáticamente supervisión estructurada de cadenas de PRs mediante tres mecanismos interconectados: (1) descomposición progresiva de tareas mediante commits continuos, (2) aplicación de consistencia a largo plazo a través de objetivos funcionales unificados, y (3) refinamiento verificable a partir de trayectorias auténticas de corrección de errores. A diferencia de las trayectorias sintéticas que tratan cada paso de forma independiente, la estructura de daVinci-Agency basada en PRs preserva inherentemente las dependencias causales y los refinamientos iterativos esenciales para enseñar un comportamiento persistente orientado a objetivos, y permite una alineación natural con el modelado de tareas de ciclo completo a nivel de proyecto. Las trayectorias resultantes son sustanciales (con un promedio de 85k tokens y 116 llamadas a herramientas), y sin embargo, son notablemente eficientes en datos: el ajuste fino de GLM-4.6 en 239 muestras de daVinci-Agency produce mejoras generalizadas en diversos benchmarks, logrando notablemente una ganancia relativa del 47% en Toolathlon. Más allá del rendimiento en benchmarks, nuestro análisis confirma...
Los métodos existentes para el control del movimiento humano en la generación de vídeo suelen basarse en poses 2D o en modelos paramétricos 3D explícitos (por ejemplo, SMPL) como señales de control. Sin embargo, las poses 2D vinculan el movimiento de manera rígida al punto de vista de control, impidiendo la síntesis de nuevas vistas. Los modelos 3D explícitos, aunque estructuralmente informativos, adolecen de imprecisiones inherentes (por ejemplo, ambigüedad de profundidad y dinámicas inexactas) que, al utilizarse como una restricción fuerte, anulan la potente conciencia 3D intrínseca de los generadores de vídeo a gran escala. En este trabajo, revisitamos el control del movimiento desde una perspectiva consciente de la 3D, abogando por una representación de movimiento implícita y agnóstica a la vista que se alinee naturalmente con las predisposiciones espaciales del generador, en lugar de depender de restricciones reconstruidas externamente. Presentamos 3DiMo, que entrena conjuntamente un codificador de movimiento con un generador de vídeo preentrenado para destilar los fotogramas de control en tokens de movimiento compactos y agnósticos a la vista, que se inyectan semánticamente mediante atención cruzada. Para fomentar la conciencia 3D, entrenamos con una supervisión rica en vistas (es decir, vídeos de vista única, multivista y con cámara en movimiento), forzando la coherencia del movimiento a través de diversos puntos de vista. Adicionalmente, utilizamos una supervisión geométrica auxiliar que aprovecha SMPL solo para una inicialización temprana y se reduce gradualmente a cero, permitiendo que el modelo transite de una guía 3D externa al aprendizaje de una comprensión genuina del movimiento espacial 3D a partir de los datos y de las predisposiciones del generador. Los experimentos confirman que 3DiMo reproduce fielmente los movimientos de control con una manipulación de cámara flexible y guiada por texto, superando significativamente a los métodos existentes tanto en fidelidad del movimiento como en calidad visual.
Los modelos del mundo han surgido como una frontera crítica en la investigación de IA, con el objetivo de mejorar los modelos grandes infundiéndoles dinámicas físicas y conocimiento del mundo. El objetivo central es permitir que los agentes comprendan, predigan e interactúen con entornos complejos. Sin embargo, el panorama actual de la investigación sigue fragmentado, con enfoques centrados predominantemente en inyectar conocimiento del mundo en tareas aisladas, como la predicción visual, la estimación 3D o la fundamentación simbólica, en lugar de establecer una definición o marco unificado. Si bien estas integraciones específicas por tarea producen ganancias de rendimiento, a menudo carecen de la coherencia sistemática requerida para una comprensión holística del mundo. En este artículo, analizamos las limitaciones de tales enfoques fragmentados y proponemos una especificación de diseño unificada para los modelos del mundo. Sugerimos que un modelo del mundo robusto no debe ser una colección dispersa de capacidades, sino un marco normativo que incorpore integralmente la interacción, la percepción, el razonamiento simbólico y la representación espacial. Este trabajo pretende ofrecer una perspectiva estructurada para guiar la investigación futura hacia modelos del mundo más generales, robustos y fundamentados en principios.
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) ha surgido como un enfoque clave para mejorar el razonamiento de los LLM. Sin embargo, los marcos estándar como la Optimización de Políticas de Grupo Relativo (GRPO) suelen emplear un presupuesto de ejecución uniforme, lo que conduce a una ineficiencia de recursos. Además, los métodos adaptativos existentes a menudo se basan en métricas a nivel de instancia, como las tasas de aprobación de tareas, que no logran capturar el estado de aprendizaje dinámico del modelo. Para abordar estas limitaciones, proponemos CoBA-RL, un algoritmo de aprendizaje por refuerzo diseñado para asignar adaptativamente los presupuestos de ejecución en función de la capacidad en evolución del modelo. Específicamente, CoBA-RL utiliza una función de Valor Orientada a la Capacidad para mapear las tareas con sus posibles ganancias de entrenamiento y emplea una estrategia voraz basada en montículos para autocalibrar eficientemente la distribución de recursos computacionales hacia las muestras con alto valor de entrenamiento. Experimentos exhaustivos demuestran que nuestro enfoque orquesta eficazmente la compensación entre exploración y explotación, logrando mejoras consistentes en la generalización a través de múltiples benchmarks desafiantes. Estos hallazgos subrayan que cuantificar el valor de entrenamiento de las muestras y optimizar la asignación del presupuesto son cruciales para avanzar en la eficiencia del post-entrenamiento de los LLM.
La destilación por coincidencia de distribución (DMD) alinea un generador de múltiples pasos con su contraparte de pocos pasos para permitir una generación de alta calidad con bajo costo de inferencia. Sin embargo, la DMD tiende a sufrir de colapso modal, ya que su formulación de KL inverso fomenta inherentemente un comportamiento de búsqueda de modos, para lo cual los remedios existentes suelen depender de regularización perceptiva o adversarial, incurriendo así en una sobrecarga computacional sustancial e inestabilidad en el entrenamiento. En este trabajo, proponemos un marco de destilación con roles separados que desentrama explícitamente las funciones de los pasos destilados: el primer paso se dedica a preservar la diversidad de muestras mediante un objetivo de predicción de destino (por ejemplo, predicción-v), mientras que los pasos subsiguientes se centran en el refinamiento de la calidad bajo la pérdida DMD estándar, bloqueando los gradientes del objetivo DMD en el primer paso. Denominamos a este enfoque DMD con Diversidad Preservada (DP-DMD), el cual, a pesar de su simplicidad —sin red perceptiva principal, sin discriminador, sin redes auxiliares y sin imágenes de referencia adicionales— preserva la diversidad de muestras mientras mantiene una calidad visual a la par de los métodos más avanzados en extensos experimentos de texto a imagen.
Los recientes avances en los modelos de lenguaje a gran escala (LLM) han permitido a los agentes de ingeniería de software abordar tareas complejas de modificación de código. La mayoría de los enfoques existentes dependen de retroalimentación de ejecución en entornos containerizados, que requieren una configuración completa de dependencias y la ejecución física de programas y pruebas. Si bien es efectivo, este paradigma es intensivo en recursos y difícil de mantener, complicando sustancialmente el entrenamiento de agentes y limitando la escalabilidad. Proponemos SWE-World, un marco libre de Docker que reemplaza los entornos de ejecución física con un sustituto aprendido para entrenar y evaluar agentes de ingeniería de software. SWE-World aprovecha modelos basados en LLM entrenados con datos de interacción reales entre agente y entorno para predecir resultados de ejecución intermedios y retroalimentación final de pruebas, permitiendo que los agentes aprendan sin interactuar con entornos containerizados físicos. Este diseño preserva el bucle estándar de interacción agente-entorno mientras elimina la necesidad de costosas construcciones y mantenimientos de entorno durante la optimización y evaluación del agente. Además, dado que SWE-World puede simular los resultados de evaluación final de trayectorias candidatas sin envío real, permite seleccionar la mejor solución entre múltiples intentos en tiempo de prueba, facilitando así la escalabilidad efectiva en tiempo de prueba (TTS) en tareas de ingeniería de software. Los experimentos en SWE-bench Verified demuestran que SWE-World eleva a Qwen2.5-Coder-32B del 6.2% al 52.0% mediante SFT libre de Docker, al 55.0% con RL libre de Docker, y al 68.2% con TTS adicional. El código está disponible en https://github.com/RUCAIBox/SWE-World.
En este informe técnico, presentamos SWE-Master, un marco de trabajo post-entrenamiento de código abierto y completamente reproducible para construir agentes efectivos de ingeniería de software. SWE-Master explora sistemáticamente la pipeline completa de desarrollo de agentes, incluyendo la síntesis de trayectorias maestras y la curación de datos, SFT de horizonte largo, RL con retroalimentación de ejecución real, y el diseño del marco de inferencia. Partiendo de un modelo base de código abierto con capacidades iniciales limitadas en IS, SWE-Master demuestra cómo un método de optimización sistemática puede potenciar fuertes habilidades para resolver tareas de IS de horizonte largo. Evaluamos SWE-Master en SWE-bench Verified, un benchmark estándar para tareas realistas de ingeniería de software. Bajo configuraciones experimentales idénticas, nuestro enfoque logra una tasa de resolución del 61.4% con Qwen2.5-Coder-32B, superando sustancialmente a los baselines de código abierto existentes. Al incorporar además la escalabilidad en tiempo de prueba (TTS) con retroalimentación del entorno basada en LLM, SWE-Master alcanza un 70.8% en TTS@8, demostrando un fuerte potencial de rendimiento. SWE-Master proporciona una base práctica y transparente para avanzar en la investigación reproducible sobre agentes de ingeniería de software. El código está disponible en https://github.com/RUCAIBox/SWE-Master.
Actualmente, la formación y evaluación de informes generados por DeepResearch sigue siendo un desafío debido a la falta de señales de recompensa verificables. En consecuencia, la evaluación basada en rúbricas se ha convertido en una práctica común. Sin embargo, los enfoques existentes dependen de rúbricas predefinidas y generales que carecen de la granularidad suficiente, o de rúbricas específicas para cada consulta construidas manualmente, lo cual es costoso y difícil de escalar. En este artículo, proponemos un proceso para entrenar generadores de rúbricas específicas por consulta, alineados con las preferencias humanas y adaptados para la generación de informes de DeepResearch. Primero construimos un conjunto de datos de consultas al estilo DeepResearch anotadas con preferencias humanas sobre informes emparejados, y entrenamos generadores de rúbricas mediante aprendizaje por refuerzo con una recompensa híbrida que combina la supervisión de preferencias humanas y la evaluación de rúbricas basada en LLM. Para manejar mejor el razonamiento de largo horizonte, introducimos además un flujo de trabajo de Estados de Markov Multi-agente (MaMs) para la generación de informes. Demostramos empíricamente que nuestros generadores de rúbricas proporcionan una supervisión más discriminativa y mejor alineada con los humanos que las estrategias de diseño de rúbricas existentes. Además, cuando se integran en el marco de entrenamiento MaMs, los sistemas DeepResearch equipados con nuestros generadores de rúbricas superan consistentemente a todos los baselines de código abierto en DeepResearch Bench y logran un rendimiento comparable al de los modelos cerrados líderes.
El pensamiento paralelo ha surgido como un paradigma prometedor para el razonamiento, aunque impone cargas computacionales significativas. Los métodos de eficiencia existentes se basan principalmente en señales locales por trayectoria y carecen de mecanismos fundamentados para explotar la dinámica global entre las ramas paralelas. Introducimos el sondeo bidimensional (2D probing), una interfaz que expone la dinámica de amplitud-profundidad del pensamiento paralelo mediante la obtención periódica de respuestas intermedias de todas las ramas. Nuestro análisis revela tres hallazgos clave: escalado no monótono en las asignaciones de amplitud-profundidad, longitudes heterogéneas de las ramas de razonamiento y estabilización temprana del consenso global. Guiados por estos hallazgos, presentamos Parallel-Probe, un controlador que no requiere entrenamiento y está diseñado para optimizar el pensamiento paralelo en línea. Parallel-Probe emplea una parada temprana basada en consenso para regular la profundidad del razonamiento y una poda de ramas basada en la desviación para ajustar dinámicamente la amplitud. Experimentos exhaustivos en tres benchmarks y con múltiples modelos demuestran que Parallel-Probe establece un frente de Pareto superior para el escalado en tiempo de prueba. En comparación con la votación mayoritaria estándar, reduce los tokens secuenciales hasta en un 35,8% y el coste total de tokens en más de un 25,8%, manteniendo una precisión competitiva.
Los recientes avances en los modelos de recompensa multimodal (RM) han impulsado significativamente el desarrollo de la generación visual. Los marcos existentes suelen adoptar modelos de preferencia al estilo Bradley-Terry o aprovechar modelos de lenguaje visual (VLM) generativos como jueces, para posteriormente optimizar los modelos de generación visual mediante aprendizaje por refuerzo. Sin embargo, los RM actuales adolecen de limitaciones inherentes: a menudo siguen un paradigma único que asume una distribución de preferencias monolítica o se basa en rúbricas de evaluación fijas. Como resultado, son insensibles a las señales visuales específicas del contenido, lo que conduce a una desalineación sistemática con las preferencias humanas, subjetivas y dependientes del contexto. Inspirándonos en la evaluación humana, proponemos UnifiedReward-Flex, un modelo de recompensa personalizado unificado para la generación visual que combina el modelado de recompensas con un razonamiento flexible y adaptable al contexto. Específicamente, dado un *prompt* y el contenido visual generado, primero interpreta la intención semántica y se fundamenta en la evidencia visual, luego construye dinámicamente una evaluación jerárquica instanciando criterios granulares bajo dimensiones de alto nivel predefinidas y auto-generadas. Nuestro pipeline de entrenamiento sigue un proceso de dos etapas: (1) primero destilamos trazas de razonamiento estructuradas y de alta calidad de VLM avanzados de código cerrado para impulsar el Fine-Tuning Supervisado (SFT), dotando al modelo de comportamientos de razonamiento flexibles y adaptables al contexto; (2) luego realizamos una optimización de preferencia directa (DPO) en pares de preferencias cuidadosamente seleccionados para fortalecer aún más la fidelidad del razonamiento y la alineación discriminativa. Para validar la eficacia, integramos UnifiedReward-Flex en el marco GRPO para la síntesis de imágenes y videos, y los extensos resultados demuestran su superioridad.
La rerclasificación es un componente crítico de los sistemas de recuperación modernos, que normalmente combinan un recuperador eficiente de primera etapa con un modelo más expresivo para refinar los resultados. Si bien los grandes modelos de razonamiento han impulsado avances rápidos en la rerclasificación centrada en texto, la rerclasificación basada en razonamiento para la recuperación de vídeo sigue estando poco explorada. Para abordar esta brecha, presentamos RANKVIDEO, un rerclasificador basado en razonamiento para la recuperación de vídeo que razona explícitamente sobre pares consulta-vídeo utilizando el contenido del vídeo para evaluar la relevancia. RANKVIDEO se entrena mediante un currículum de dos etapas que consiste en un ajuste fino supervisado basado en percepción, seguido de un entrenamiento de rerclasificación que combina objetivos de distilación de puntos, pares y confianza del profesor, y está respaldado por una canalización de síntesis de datos para construir pares consulta-vídeo intensivos en razonamiento. Los experimentos en el benchmark a gran escala MultiVENT 2.0 demuestran que RANKVIDEO mejora consistentemente el rendimiento de recuperación dentro de un marco de dos etapas, produciendo una mejora promedio del 31% en nDCG@10 y superando a alternativas de rerclasificación basadas solo en texto y en lenguaje visual, siendo además más eficiente.
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) ha avanzado el razonamiento de los LLM, pero sigue limitado por una exploración ineficiente bajo presupuestos limitados de ejecución (rollout), lo que conduce a un bajo éxito de muestreo y a un entrenamiento inestable en tareas complejas. Descubrimos que muchos fracasos de exploración no surgen de la dificultad del problema, sino de un pequeño número de tokens en el prompt que introducen interferencias. Basándonos en esta idea, proponemos el Marco de Muestreo con Menos Ruido (LENS), que primero genera prompts identificando y eliminando los tokens de interferencia, y luego transfiere las ejecuciones exitosas del proceso de purificación para supervisar la optimización de la política en los prompts originales ruidosos, permitiendo que el modelo aprenda a ignorar las interferencias en entornos reales de prompting ruidoso. Los resultados experimentales muestran que LENS supera significativamente a GRPO, logrando un mayor rendimiento y una convergencia más rápida, con una ganancia promedio del 3.88% y una aceleración de más de 1.6 veces. Nuestro trabajo subraya el papel crítico de la poda de tokens de interferencia para mejorar la eficiencia de las ejecuciones, ofreciendo una nueva perspectiva para la investigación en RLVR.
La inteligencia de búsqueda está evolucionando desde la Investigación Profunda hacia la Investigación Amplia, un paradigma esencial para recuperar y sintetizar información integral bajo restricciones complejas en paralelo. Sin embargo, el progreso en este campo se ve obstaculizado por la falta de benchmarks dedicados y metodologías de optimización para la amplitud de búsqueda. Para abordar estos desafíos, realizamos un análisis exhaustivo de la Investigación Amplia desde dos perspectivas: Pipeline de Datos y Optimización de Agentes. Primero, producimos WideSeekBench, un benchmark de Búsqueda General de Información Amplia (GBIS) construido mediante un pipeline de datos riguroso y multifásico para garantizar diversidad en el volumen de información objetivo, las restricciones lógicas y los dominios. En segundo lugar, presentamos WideSeek, una arquitectura dinámica de múltiples agentes jerárquicos que puede bifurcar autónomamente subagentes paralelos según los requisitos de la tarea. Además, diseñamos un marco de entrenamiento unificado que linealiza las trayectorias multiagente y optimiza el sistema utilizando RL de extremo a extremo. Los resultados experimentales demuestran la efectividad de WideSeek y el RL multiagente, destacando que escalar el número de agentes es una dirección prometedora para avanzar en el paradigma de la Investigación Amplia.
En el modelado generativo discreto, dos paradigmas dominantes muestran capacidades divergentes: los Modelos de Lenguaje de Difusión Enmascarada (MDLM) sobresalen en comprensión semántica y generalización zero-shot, mientras que los Modelos de Lenguaje de Difusión con Ruido Uniforme (UDLM) logran una alta calidad de generación en pocos pasos; sin embargo, ninguno alcanza un rendimiento equilibrado en ambas dimensiones. Para abordar esto, proponemos XDLM, que une ambos paradigmas mediante un núcleo de ruido estacionario. XDLM ofrece dos contribuciones clave: (1) proporciona una unificación teórica fundamentada de MDLM y UDLM, recuperando cada paradigma como un caso especial; y (2) un cuello de botella de memoria aliviado, habilitado por una simplificación algebraica de las probabilidades posteriores. Los experimentos demuestran que XDLM avanza la frontera de Pareto entre la capacidad de comprensión y la calidad de generación. Cuantitativamente, XDLM supera a UDLM por 5.4 puntos en benchmarks de texto zero-shot y supera a MDLM en generación de imágenes en pocos pasos (FID 54.1 frente a 80.8). Al escalarse para ajustar un modelo de lenguaje grande de 8B de parámetros, XDLM alcanza 15.0 en MBPP con solo 32 pasos, duplicando efectivamente el rendimiento de la línea base. Finalmente, el análisis de la dinámica del entrenamiento revela el potencial superior de XDLM para el escalado a largo plazo. El código está disponible en https://github.com/MzeroMiko/XDLM.
El paradigma de la homotopía, un principio general para resolver problemas complejos, aparece en diversos dominios como la optimización robusta, optimización global, búsqueda de raíces polinómicas y muestreo. Los solucionadores prácticos para estos problemas suelen seguir una estructura predictor-corrector (PC), pero dependen de heurísticas artesanales para tamaños de paso y terminación de iteraciones, que a menudo son subóptimas y específicas de cada tarea. Para abordar esto, unificamos estos problemas bajo un marco único, lo que permite diseñar un solucionador neuronal general. Basándonos en esta visión unificada, proponemos Neural Predictor-Corrector (NPC), que reemplaza las heurísticas artesanales con políticas aprendidas automáticamente. NPC formula la selección de políticas como un problema de toma de decisiones secuencial y aprovecha el aprendizaje por refuerzo para descubrir automáticamente estrategias eficientes. Para mejorar aún más la generalización, introducimos un mecanismo de entrenamiento amortizado, permitiendo un entrenamiento único fuera de línea para una clase de problemas y una inferencia en línea eficiente en nuevas instancias. Los experimentos en cuatro problemas de homotopía representativos demuestran que nuestro método generaliza efectivamente a instancias no vistas. Supera consistentemente a los métodos clásicos y especializados en eficiencia, mientras demuestra una estabilidad superior entre tareas, destacando el valor de unificar los métodos de homotopía en un marco neuronal único.
La complejidad cuadrática de la atención sigue siendo el principal cuello de botella en la inferencia de contextos largos para los modelos de lenguaje grandes. Los métodos de aceleración previos o bien esparsifican el mapa de atención con patrones estructurados o eliminan permanentemente tokens en capas específicas, lo que puede retener tokens irrelevantes o depender de decisiones tempranas irreversibles a pesar de la dinámica capa a capa y por cabezal de la importancia de los tokens. En este artículo, proponemos Token Sparse Attention, un mecanismo ligero y dinámico de esparsificación a nivel de token que comprime las matrices Q, K, V por cabezal a un conjunto reducido de tokens durante la atención y luego descomprime la salida de vuelta a la secuencia original, permitiendo que la información del token sea reconsiderada en capas subsiguientes. Además, Token Sparse Attention expone un nuevo punto de diseño en la intersección de la selección de tokens y la atención dispersa. Nuestro enfoque es totalmente compatible con las implementaciones de atención densa, incluyendo Flash Attention, y puede componerse sin problemas con kernels de atención dispersa existentes. Los resultados experimentales muestran que Token Sparse Attention mejora consistentemente la relación precisión-latencia, logrando una aceleración de la atención de hasta 3.2x en contextos de 128K tokens con una degradación de precisión inferior al 1%. Estos resultados demuestran que la esparsificación dinámica e intercalada a nivel de token es una estrategia complementaria y efectiva para la inferencia escalable de contextos largos.
Ayudar a usuarios no expertos a desarrollar sitios web interactivos complejos se ha convertido en una tarea popular para los agentes de código basados en LLM. Sin embargo, los agentes de código existentes tienden a generar solo páginas web frontend, enmascarando la falta de procesamiento y almacenamiento de datos full-stack real con efectos visuales llamativos. Cabe destacar que la construcción de aplicaciones web full-stack de nivel productivo es mucho más desafiante que solo generar páginas frontend, ya que exige un control cuidadoso del flujo de datos, una comprensión integral de paquetes y dependencias en constante actualización, y una localización precisa de errores oscuros en la base de código. Para abordar estas dificultades, presentamos FullStack-Agent, un sistema de agente unificado para la codificación agentiva full-stack que consta de tres partes: (1) FullStack-Dev, un marco multiagente con fuertes capacidades de planificación, edición de código, navegación de bases de código y localización de errores. (2) FullStack-Learn, un método innovador de escalado de datos y auto-mejora que retro-traduce repositorios de sitios web rastreados y sintetizados para mejorar el modelo LLM base de FullStack-Dev. (3) FullStack-Bench, un benchmark integral que prueba sistemáticamente las funcionalidades frontend, backend y de base de datos del sitio web generado. Nuestro FullStack-Dev supera al método estado del arte anterior en un 8.7%, 38.2% y 15.9% en los casos de prueba de frontend, backend y base de datos, respectivamente. Adicionalmente, FullStack-Learn aumenta el rendimiento de un modelo de 30B en un 9.7%, 9.5% y 2.8% en los tres conjuntos de casos de prueba mediante la auto-mejora, demostrando la efectividad de nuestro enfoque. El código se ha publicado en https://github.com/mnluzimu/FullStack-Agent.
Determinar una mezcla de datos efectiva es un factor clave en el pre-entrenamiento de Modelos de Lenguaje a Gran Escala (LLM), donde los modelos deben equilibrar la competencia general con la destreza en tareas complejas como matemáticas y programación. Sin embargo, identificar una mezcla óptima sigue siendo un desafío abierto, ya que los enfoques existentes dependen de experimentos proxy a pequeña escala poco fiables o requieren una exploración a gran escala prohibitivamente costosa. Para abordar esto, proponemos Decouple Searching from Training Mix (DeMix), un marco novedoso que aprovecha la fusión de modelos para predecir proporciones de datos óptimas. En lugar de entrenar modelos proxy para cada mezcla muestreada, DeMix entrena modelos componentes en conjuntos de datos candidatos a gran escala y deriva proxies de mezcla de datos mediante fusión ponderada de modelos. Este paradigma desacopla la búsqueda de los costes de entrenamiento, permitiendo evaluar mezclas muestreadas ilimitadas sin carga adicional de entrenamiento y facilitando así un mejor descubrimiento de mezclas mediante más pruebas de búsqueda. Experimentos exhaustivos demuestran que DeMix rompe la compensación entre suficiencia, precisión y eficiencia, obteniendo la mezcla óptima con mayor rendimiento en benchmarks a un coste de búsqueda menor. Adicionalmente, publicamos DeMix Corpora, un conjunto de datos integral de 22 billones de tokens que comprende datos de pre-entrenamiento de alta calidad con mezclas validadas para facilitar la investigación abierta. Nuestro código y DeMix Corpora están disponibles en https://github.com/Lucius-lsr/DeMix.
El razonamiento multimodal adaptativo ha surgido como una frontera prometedora en los Modelos de Visión y Lenguaje (VLM), con el objetivo de modular dinámicamente entre el razonamiento visual aumentado con herramientas y el razonamiento textual para mejorar tanto la efectividad como la eficiencia. Sin embargo, las evaluaciones existentes se basan en etiquetas estáticas de dificultad y métricas simplistas, que no logran capturar la naturaleza dinámica de la dificultad en relación con las diversas capacidades de los modelos. En consecuencia, oscurecen la distinción entre la selección de modo adaptativo y el rendimiento general, al tiempo que descuidan los análisis de procesos granulares. En este artículo, proponemos AdaptMMBench, un benchmark integral para el razonamiento multimodal adaptativo en cinco dominios: mundo real, OCR, GUI, conocimiento y matemáticas, que abarca tanto tareas de percepción directa como de razonamiento complejo. AdaptMMBench utiliza la métrica del Coeficiente de Correlación de Matthews (MCC) para evaluar la racionalidad de la selección de los distintos modos de razonamiento, aislando esta capacidad de metacognición mediante la identificación dinámica de las dificultades de la tarea basada en los límites de capacidad de los modelos. Además, AdaptMMBench facilita la evaluación multidimensional del proceso a través de la cobertura de pasos clave, la efectividad de las herramientas y la eficiencia computacional. Nuestra evaluación revela que, si bien la selección de modo adaptativo escala con la capacidad del modelo, se desacopla notablemente de la precisión final. Por el contrario, la cobertura de pasos clave se alinea con el rendimiento, aunque la efectividad de las herramientas sigue siendo altamente inconsistente entre las arquitecturas de los modelos.
Comprender la cultura requiere razonar a través del contexto, la tradición y el conocimiento social implícito, yendo mucho más allá de recordar hechos aislados. Sin embargo, la mayoría de los benchmarks de preguntas y respuestas (QA) centrados en la cultura se basan en preguntas de un solo paso, lo que puede permitir que los modelos exploten pistas superficiales en lugar de demostrar un razonamiento cultural genuino. En este trabajo, presentamos ID-MoCQA, el primer conjunto de datos de QA multi-paso a gran escala para evaluar la comprensión cultural de los modelos de lenguaje grandes (LLMs), basado en tradiciones indonesias y disponible tanto en inglés como en indonesio. Presentamos un nuevo marco que transforma sistemáticamente preguntas culturales de un solo paso en cadenas de razonamiento multi-paso que abarcan seis tipos de pistas (por ejemplo, de sentido común, temporales, geográficas). Nuestra canalización de validación multi-etapa, que combina la revisión por expertos y un filtrado mediante LLM-como-juez, garantiza pares de preguntas y respuestas de alta calidad. Nuestra evaluación a través de modelos de vanguardia revela brechas sustanciales en el razonamiento cultural, particularmente en tareas que requieren inferencias matizadas. ID-MoCQA proporciona un benchmark desafiante y esencial para avanzar en la competencia cultural de los LLMs.
Los modelos de mundo video autoregresivos predicen observaciones visuales futuras condicionadas a acciones. Si bien son efectivos en horizontes cortos, estos modelos a menudo tienen dificultades con la generación de largo horizonte, ya que los pequeños errores de predicción se acumulan con el tiempo. Métodos anteriores mitigan esto introduciendo modelos profesor preentrenados y una coincidencia de distribución a nivel de secuencia, lo que conlleva un coste computacional adicional y no logra prevenir la propagación de errores más allá del horizonte de entrenamiento. En este trabajo, proponemos LIVE, un modelo de mundo video interactivo de Largo horIzonte que impone una acumulación de error acotada mediante un novedoso objetivo de consistencia cíclica, eliminando así la necesidad de destilación basada en un profesor. Específicamente, LIVE primero realiza un *rollout* hacia adelante a partir de fotogramas de verdad terreno y luego aplica un proceso de generación inverso para reconstruir el estado inicial. La pérdida de difusión se calcula posteriormente en el estado terminal reconstruido, proporcionando una restricción explícita sobre la propagación de errores a largo horizonte. Además, ofrecemos una visión unificada que engloba diferentes enfoques e introducimos un currículum de entrenamiento progresivo para estabilizar el entrenamiento. Los experimentos demuestran que LIVE logra un rendimiento de vanguardia en benchmarks de largo horizonte, generando videos estables y de alta calidad mucho más allá de las longitudes de *rollout* de entrenamiento.
La capacidad de seguimiento modal se refiere a la habilidad de los modelos de lenguaje grandes multimodales (MLLMs, por sus siglas en inglés) para utilizar selectivamente contextos multimodales según las instrucciones del usuario. Esta capacidad es fundamental para garantizar la seguridad y confiabilidad en implementaciones del mundo real. Sin embargo, los mecanismos subyacentes que gobiernan este proceso de toma de decisiones siguen siendo poco comprendidos. En este artículo, investigamos su mecanismo de funcionamiento a través de la lente del flujo de información. Nuestros hallazgos revelan que los tokens de instrucción funcionan como anclajes estructurales para la arbitración modal: las capas de atención superficiales realizan una transferencia de información no selectiva, enrutando señales multimodales hacia estos anclajes como un búfer latente; la competencia modal se resuelve dentro de las capas de atención profundas guiadas por la intención de la instrucción, mientras que las capas MLP exhiben inercia semántica, actuando como una fuerza adversaria. Además, identificamos un conjunto disperso de cabezas de atención especializadas que impulsan esta arbitración. Las intervenciones causales demuestran que manipular solo un 5% de estas cabezas críticas puede disminuir la tasa de seguimiento modal en un 60% mediante bloqueo, o aumentarla en un 60% mediante la amplificación dirigida de muestras fallidas. Nuestro trabajo representa un avance sustancial hacia la transparencia del modelo y ofrece un marco fundamentado para la orquestación de información multimodal en los MLLMs.
La especialización de roles en sistemas de agentes multi-LLM a menudo se realiza mediante multi-LoRA, donde los agentes comparten un modelo base preentrenado y difieren únicamente a través de adaptadores ligeros. A pesar de compartir los pesos del modelo base, cada agente construye y almacena de forma independiente su propia caché KV para las mismas trayectorias largas aumentadas con herramientas, lo que genera una sobrecarga sustancial de memoria y cálculo. Los métodos existentes para compartir la caché KV pasan en gran medida por alto este entorno multi-LoRA. Observamos que, entre agentes, las diferencias en la caché están dominadas por las salidas del adaptador, mientras que las activaciones del modelo base preentrenado compartido permanecen altamente similares. Basándonos en esta observación, proponemos LRAgent, un marco para compartir caché KV para agentes multi-LoRA que descompone la caché en un componente base compartido de los pesos preentrenados y un componente dependiente del adaptador de los pesos LoRA. LRAgent reduce la sobrecarga de memoria compartiendo el componente base y almacenando el componente del adaptador en su forma inherente de bajo rango, y reduce aún más la sobrecarga computacional, habilitada por arquitecturas multi-LoRA de A-compartida, al compartir también la caché de bajo rango y evitar cálculos redundantes para contextos ya procesados por otros agentes. Para reconstruir eficientemente las contribuciones del adaptador en tiempo de ejecución, presentamos Flash-LoRA-Attention, un núcleo que reordena el cálculo de atención para evitar materializar la caché de bajo rango a su dimensión completa. LRAgent logra un rendimiento y una latencia del primer token cercanos al almacenamiento en caché totalmente compartido, al mismo tiempo que preserva una precisión cercana a la línea base de almacenamiento en caché no compartido en diversos puntos de referencia de preguntas y respuestas agenticas.
El razonamiento integrado con búsqueda permite a los agentes de lenguaje trascender el conocimiento paramétrico estático mediante la consulta activa de fuentes externas. Sin embargo, el entrenamiento de estos agentes mediante aprendizaje por refuerzo se ve obstaculizado por el problema de asignación de crédito a múltiples escalas: los métodos existentes suelen depender de recompensas dispersas a nivel de trayectoria que no logran distinguir entre un razonamiento de alta calidad y conjeturas fortuitas, lo que conduce a comportamientos de búsqueda redundantes o engañosos. Para abordar esto, proponemos Search-R2, un novedoso marco de colaboración Actor-Refinador que mejora el razonamiento mediante intervención dirigida, optimizando ambos componentes conjuntamente durante el entrenamiento. Nuestro enfoque descompone el proceso de generación en un Actor, que produce trayectorias de razonamiento iniciales, y un Meta-Refinador, que diagnostica y repara selectivamente pasos defectuosos mediante un mecanismo de 'corte y regeneración'. Para proporcionar una supervisión de grano fino, introducimos un diseño de recompensa híbrido que combina la corrección del resultado con una recompensa de proceso densa que cuantifica la densidad de información de la evidencia recuperada. Teóricamente, formalizamos la interacción Actor-Refinador como una política de mezcla suavizada, demostrando que la corrección selectiva produce ganancias estrictas de rendimiento sobre líneas base sólidas. Experimentos exhaustivos en varios conjuntos de datos de QA generales y de múltiples saltos demuestran que Search-R2 supera consistentemente a las líneas base sólidas basadas en RAG y RL en diferentes escalas de modelos, logrando una precisión de razonamiento superior con una sobrecarga mínima.
A medida que los Modelos de Lenguaje a Gran Escala (LLMs) transitan de conjuntos de entrenamiento cuidadosamente seleccionados hacia entornos del mundo real de naturaleza abierta, surge una limitación fundamental: el entrenamiento estático no puede seguir el ritmo del cambio continuo en los entornos de despliegue. Escalar la capacidad de cómputo en el momento del entrenamiento y de la inferencia mejora las capacidades estáticas, pero no cierra esta brecha entre entrenamiento y despliegue. Sostenemos que abordar esta limitación requiere un nuevo eje de escalado: la evolución. Los métodos existentes de adaptación durante el despliegue, ya sea el ajuste fino paramétrico o la acumulación heurística en memoria, carecen de la capacidad de agencia estratégica necesaria para diagnosticar fallos y producir mejoras duraderas. Nuestra postura es que la evolución agéntica representa el futuro inevitable de la adaptación de los LLMs, elevando la propia evolución de una canalización fija a un agente evolucionador autónomo. Materializamos esta visión en un marco general, A-Evolve, que trata la mejora durante el despliegue como un proceso de optimización deliberado y orientado a objetivos sobre el estado persistente del sistema. Además, proponemos la hipótesis del escalado evolutivo: la capacidad de adaptación escala con la capacidad de cómputo asignada a la evolución, posicionando a la evolución agéntica como una vía escalable hacia una adaptación sostenida y de horizonte abierto en el mundo real.
Presentamos WorldVQA, un benchmark diseñado para evaluar el conocimiento visual mundial atómico de los Modelos de Lenguaje Grandes Multimodales (MLLM). A diferencia de las evaluaciones actuales, que a menudo fusionan la recuperación de conocimiento visual con el razonamiento, WorldVQA desacopla estas capacidades para medir estrictamente "lo que el modelo memoriza". El benchmark evalúa la capacidad atómica de fundamentar y nombrar entidades visuales a lo largo de una taxonomía estratificada, que abarca desde objetos comunes de clases principales hasta rarezas de cola larga. Esperamos que WorldVQA sirva como una prueba rigurosa de la factualidad visual, estableciendo así un estándar para evaluar la amplitud enciclopédica y las tasas de alucinación de los modelos frontera actuales y de próxima generación.
Los agentes autónomos impulsados por modelos de lenguaje grande (LLM) prometen acelerar el descubrimiento científico de principio a fin, pero evaluar rigurosamente su capacidad para realizar descubrimientos verificables sigue siendo un desafío central. Los puntos de referencia existentes enfrentan una disyuntiva: o bien dependen en gran medida de evaluaciones de LLM-como-juez sobre los resultados de investigación generados automáticamente, o bien optimizan métricas de rendimiento convenientes pero aisladas que ofrecen proxies burdos para la perspicacia científica. Para abordar esta brecha, presentamos FIRE-Bench (Evaluación de Redescubrimiento de Perspicacia de Ciclo Completo), un punto de referencia que evalúa a los agentes a través del redescubrimiento de hallazgos establecidos provenientes de investigaciones recientes y de alto impacto en aprendizaje automático. A los agentes se les proporciona únicamente una pregunta de investigación de alto nivel extraída de un estudio verificado y publicado, y deben explorar ideas de forma autónoma, diseñar experimentos, implementar código, ejecutar sus planes y derivar conclusiones respaldadas por evidencia empírica. Evaluamos una gama de agentes de última generación con arquitecturas base de LLM de vanguardia, como gpt-5, en FIRE-Bench. Nuestros resultados muestran que la investigación científica de ciclo completo sigue siendo un desafío para los sistemas de agentes actuales: incluso los agentes más potentes logran un éxito limitado en el redescubrimiento (<50 F1), exhiben una alta varianza entre ejecuciones y muestran modos de falla recurrentes en el diseño experimental, la ejecución y el razonamiento basado en evidencia. FIRE-Bench proporciona un marco riguroso y diagnóstico para medir el progreso hacia un descubrimiento científico confiable impulsado por agentes.
Alinear objetos con descripciones textuales correspondientes es un desafío fundamental y un requisito realista en la comprensión visión-lenguaje. Si bien los modelos recientes de incrustación multimodal sobresalen en la alineación global imagen-texto, a menudo luchan con la alineación de grano fino entre regiones de la imagen y frases específicas. En este trabajo, presentamos ObjEmbed, un novedoso modelo de incrustación MLLM que descompone la imagen de entrada en múltiples incrustaciones regionales, cada una correspondiente a un objeto individual, junto con incrustaciones globales. Soporta una amplia gama de tareas de comprensión visual como *visual grounding*, recuperación de imágenes locales y recuperación de imágenes globales. ObjEmbed posee tres propiedades clave: (1) Representación Orientada a Objetos: Captura tanto aspectos semánticos como espaciales de los objetos generando dos incrustaciones complementarias para cada región: una incrustación de objeto para correspondencia semántica y una incrustación IoU que predice la calidad de la localización. La puntuación final de correspondencia de objetos combina la similitud semántica con el IoU predicho, permitiendo una recuperación más precisa. (2) Versatilidad: Maneja sin problemas tanto tareas a nivel de región como a nivel de imagen. (3) Codificación Eficiente: Todos los objetos en una imagen, junto con la imagen completa, se codifican en una sola pasada hacia adelante para lograr alta eficiencia. Un rendimiento superior en 18 benchmarks diversos demuestra su fuerte discriminación semántica.
El cribado pan-cáncer en tomografías computarizadas a gran escala sigue siendo un desafío para los métodos de IA existentes, principalmente debido a la dificultad de localizar diversos tipos de lesiones diminutas en grandes volúmenes de TC. El extremo desequilibrio entre primer plano y fondo dificulta significativamente que los modelos se concentren en las regiones enfermas, mientras que la atención redundante en las regiones sanas no solo disminuye la eficiencia, sino que también aumenta los falsos positivos. Inspirados en la estrategia diagnóstica de vistazo y enfoque de los radiólogos, presentamos GF-Screen, un marco de aprendizaje por refuerzo de Vistazo y Enfoque para el cribado pan-cáncer. GF-Screen emplea un modelo de Vistazo para localizar las regiones enfermas y un modelo de Enfoque para segmentar con precisión las lesiones, donde los resultados de segmentación del modelo de Enfoque se utilizan para recompensar al modelo de Vistazo mediante Aprendizaje por Refuerzo (RL). Específicamente, el modelo de Vistazo recorta un grupo de subvolúmenes de todo el volumen de TC y aprende a seleccionar los subvolúmenes con lesiones para que el modelo de Enfoque los segmente. Dado que la operación de selección no es diferenciable para el entrenamiento de segmentación, proponemos emplear los resultados de segmentación para recompensar al modelo de Vistazo. Para optimizar el modelo de Vistazo, introducimos un novedoso paradigma de aprendizaje relativo grupal, que emplea una comparación relativa grupal para priorizar predicciones de alta ventaja y descartar predicciones de baja ventaja dentro de grupos de subvolúmenes, mejorando no solo la eficiencia sino también reduciendo los falsos positivos. De esta manera, por primera vez, extendemos eficazmente técnicas de vanguardia de RL para abordar los desafíos específicos del cribado pan-cáncer. Experimentos exhaustivos en 16 conjuntos de datos internos y 7 externos a través de 9 tipos de lesiones demostraron la efectividad de GF-Screen. Notablemente, GF-Screen lidera la tabla de clasificación de validación pública del desafío pan-cáncer MICCAI FLARE25, superando por un amplio margen a la solución campeona de FLARE24 (+25.6% DSC y +28.2% NSD).
Recientemente ha habido un interés significativo en la investigación sobre el entrenamiento de modelos de lenguaje grandes (LLMs) con aprendizaje por refuerzo (RL) en tareas del mundo real, como la generación de código en múltiples turnos. Si bien el RL en línea tiende a tener un mejor rendimiento que el RL fuera de línea, su mayor costo de entrenamiento e inestabilidad dificultan su adopción generalizada. En este artículo, partimos de la observación de que la generación de código en múltiples turnos puede formularse como un proceso de decisión de Markov recuperable en un solo paso y proponemos el aprendizaje de bandido contextual con trayectorias fuera de línea (Cobalt), un nuevo método que combina los beneficios del RL en línea y fuera de línea. Cobalt primero recopila trayectorias de generación de código utilizando un LLM de referencia y las divide en trayectorias parciales que sirven como prompts contextuales. Luego, durante el aprendizaje en línea de bandidos, el LLM se entrena para completar cada prompt de trayectoria parcial mediante la generación de código en un solo paso. Cobalt supera a dos líneas base de RL en línea multi-turno basadas en GRPO y VeRPO, y mejora sustancialmente a R1-Distill 8B y Qwen3 8B con incrementos de hasta 9.0 y 6.2 puntos absolutos en las puntuaciones Pass@1 en LiveCodeBench. Además, analizamos los comportamientos de hackeo de recompensas en contexto (in-context reward hacking) de los LLMs y aumentamos el entrenamiento de Cobalt con trayectorias perturbadas para mitigar este problema. En general, nuestros resultados demuestran que Cobalt es una solución prometedora para tareas de toma de decisiones iterativas, como la generación de código en múltiples turnos. Nuestro código y datos están disponibles en https://github.com/OSU-NLP-Group/cobalt.
A pesar de los recientes avances en los modelos de visión y lenguaje (VLMs), los enfoques existentes a menudo no logran generar respuestas personalizadas basadas en las experiencias específicas del usuario, ya que carecen de la capacidad de asociar entradas visuales con el contexto visual-textual acumulado por el usuario. Formalizamos este desafío como *personalización visual contextualizada*, que requiere el reconocimiento visual y la recuperación textual de experiencias visuales personalizadas por parte de los VLMs al interpretar nuevas imágenes. Para abordar este problema, proponemos CoViP, un marco unificado que trata la generación de descripciones de imágenes personalizadas como una tarea central para la personalización visual contextualizada y mejora esta capacidad mediante un post-entrenamiento basado en aprendizaje por refuerzo y una generación aumentada con descripciones. Además, introducimos evaluaciones de diagnóstico que descartan explícitamente soluciones de acceso directo textual y verifican si los VLMs aprovechan verdaderamente el contexto visual. Experimentos exhaustivos demuestran que los VLMs existentes, tanto de código abierto como propietarios, presentan limitaciones sustanciales, mientras que CoViP no solo mejora la generación de descripciones de imágenes personalizadas, sino que también produce ganancias holísticas en diversas tareas de personalización posteriores. Estos resultados destacan a CoViP como una etapa crucial para permitir una personalización visual contextualizada robusta y generalizable.
Los Modelos de Lenguaje Grande (LLM) y los Modelos de Lenguaje Visual (VLM) han demostrado capacidades notables. Sin embargo, su despliegue se ve obstaculizado por costos computacionales significativos. Los métodos existentes de poda estructurada, aunque eficientes para el hardware, a menudo sufren una degradación significativa de la precisión. En este artículo, argumentamos que este fracaso se origina en un enfoque de poda independiente de la etapa que pasa por alto los roles asimétricos entre las etapas de prellenado (prefill) y decodificación (decode). Mediante la introducción de un mecanismo de compuerta virtual, nuestro análisis de importancia revela que las capas profundas son críticas para la predicción del siguiente token (decode) pero en gran medida redundantes para la codificación del contexto (prefill). Aprovechando esta percepción, proponemos Poda Solo de Prellenado (POP), una estrategia de inferencia consciente de la etapa que omite de forma segura las capas profundas durante la etapa de prellenado, computacionalmente intensiva, mientras retiene el modelo completo para la etapa sensible de decodificación. Para permitir la transición entre etapas, introducimos proyecciones independientes de Clave-Valor (KV) para mantener la integridad de la caché, y una estrategia de manejo de límites para garantizar la precisión del primer token generado. Experimentos exhaustivos en Llama-3.1, Qwen3-VL y Gemma-3 a través de diversas modalidades demuestran que POP logra una aceleración de hasta 1.37 veces en la latencia de prellenado con una pérdida de rendimiento mínima, superando efectivamente las limitaciones de compensación entre precisión y eficiencia de los métodos de poda estructurada existentes.
La fundamentación de Interfaces Gráficas de Usuario (GUI) tiene como objetivo traducir instrucciones en lenguaje natural a coordenadas de pantalla ejecutables, permitiendo la interacción automatizada con la GUI. Sin embargo, una fundamentación incorrecta puede dar lugar a acciones costosas y difíciles de revertir (por ejemplo, aprobaciones de pagos erróneas), lo que genera preocupaciones sobre la fiabilidad de los modelos. En este artículo, presentamos SafeGround, un marco consciente de la incertidumbre para modelos de fundamentación de GUI que permite predicciones conscientes del riesgo mediante calibraciones previas a las pruebas. SafeGround aprovecha un método de cuantificación de incertidumbre consciente de la distribución para capturar la dispersión espacial de muestras estocásticas procedentes de las salidas de cualquier modelo dado. Luego, mediante el proceso de calibración, SafeGround deriva un umbral de decisión en tiempo de prueba con un control de la tasa de descubrimiento falso (FDR) estadísticamente garantizado. Aplicamos SafeGround en múltiples modelos de fundamentación de GUI para el desafiante benchmark ScreenSpot-Pro. Los resultados experimentales muestran que nuestra medida de incertidumbre supera consistentemente a los métodos de referencia existentes en la distinción entre predicciones correctas e incorrectas, mientras que el umbral calibrado permite de forma fiable un control de riesgo riguroso y el potencial de mejoras sustanciales en la precisión a nivel del sistema. En múltiples modelos de fundamentación de GUI, SafeGround mejora la precisión a nivel del sistema hasta en 5.38 puntos porcentuales en comparación con la inferencia basada únicamente en Gemini.
Los recientes avances en los modelos de lenguaje a gran escala (LLM) han abierto nuevas vías para acelerar la investigación científica. Si bien estos modelos son cada vez más capaces de ayudar en tareas rutinarias, su capacidad para contribuir al descubrimiento matemático novedoso y de nivel experto es menos conocida. Presentamos una colección de estudios de caso que demuestran cómo los investigadores han colaborado exitosamente con modelos avanzados de IA, específicamente los modelos basados en Gemini de Google (en particular, Gemini Deep Think y sus variantes avanzadas), para resolver problemas abiertos, refutar conjeturas y generar nuevas demostraciones en diversas áreas de la informática teórica, así como en otras áreas como la economía, la optimización y la física. A partir de estas experiencias, extraemos técnicas comunes para una colaboración efectiva entre humanos e IA en la investigación teórica, como el refinamiento iterativo, la descomposición de problemas y la transferencia de conocimiento interdisciplinario. Si bien la mayoría de nuestros resultados provienen de esta metodología interactiva y conversacional, también destacamos casos específicos que van más allá de las interfaces de chat estándar. Estos incluyen desplegar el modelo como un revisor adversario riguroso para detectar fallos sutiles en demostraciones existentes, e integrarlo en un bucle "neuro-simbólico" que escribe y ejecuta código de forma autónoma para verificar derivaciones complejas. En conjunto, estos ejemplos subrayan el potencial de la IA no solo como una herramienta de automatización, sino como un socio versátil y genuino en el proceso creativo del descubrimiento científico.
El reconocimiento facial que preserva la privacidad basado en transformaciones (PPFR) tiene como objetivo verificar identidades ocultando los datos faciales de atacantes y proveedores de servicios maliciosos. Las evaluaciones existentes tratan principalmente la privacidad como resistencia a la reconstrucción a nivel de píxel, medida mediante PSNR y SSIM. Demostramos que esta visión centrada en la reconstrucción es insuficiente. Presentamos FaceLinkGen, un ataque de extracción de identidad que realiza vinculación/emparejamiento y regeneración facial directamente desde las plantillas protegidas, sin recuperar los píxeles originales. En tres sistemas PPFR recientes, FaceLinkGen alcanza una precisión de emparejamiento superior al 98.5% y un éxito de regeneración por encima del 96%, y aún supera el 92% en emparejamiento y el 94% en regeneración en un escenario de conocimiento casi nulo. Estos resultados exponen una brecha estructural entre las métricas de distorsión de píxeles, ampliamente utilizadas en la evaluación PPFR, y la privacidad real. Demostramos que el ofuscamiento visual deja la información de identidad ampliamente expuesta tanto a intrusos externos como a proveedores de servicios no confiables.
Los modelos de lenguaje pequeños son cada vez más vistos como un enfoque prometedor y rentable para la IA agentiva, con defensores que afirman que son lo suficientemente capaces para flujos de trabajo agentivos. Sin embargo, aunque los agentes pequeños pueden igualar estrechamente a los más grandes en tareas simples, sigue sin estar claro cómo escala su rendimiento con la complejidad de la tarea, cuándo los modelos grandes se vuelven necesarios y cómo aprovechar mejor los agentes pequeños para cargas de trabajo de horizonte largo. En este trabajo, demostramos empíricamente que el rendimiento de los agentes pequeños no escala con la complejidad de la tarea en búsquedas profundas y tareas de programación, e introducimos Subastas de Estrategias para la Eficiencia de Cargas de Trabajo (SALE), un marco de agente inspirado en los mercados de trabajadores autónomos. En SALE, los agentes pujan con planes estratégicos breves, que son puntuados por un mecanismo sistemático de costo-valor y refinados mediante una memoria de subasta compartida, permitiendo el enrutamiento por tarea y la auto-mejora continua sin necesidad de entrenar un enrutador separado o ejecutar todos los modelos hasta su finalización. En diversas tareas de búsqueda profunda y programación de complejidad variable, SALE reduce la dependencia del agente más grande en un 53%, disminuye el costo general en un 35% y mejora consistentemente el pass@1 del agente más grande con solo una sobrecarga insignificante más allá de ejecutar la traza final. En contraste, los enrutadores establecidos que se basan en descripciones de tareas tienen un rendimiento inferior al del agente más grande o no logran reducir el costo —a menudo ambas cosas—, lo que subraya su mala adaptación a los flujos de trabajo agentivos. Estos resultados sugieren que, aunque los agentes pequeños pueden ser insuficientes para cargas de trabajo complejas, pueden "escalarse" eficazmente mediante una asignación de tareas coordinada y una auto-mejora en tiempo de prueba. En un sentido más amplio, motivan una visión a nivel de sistemas de la IA agentiva en la que las ganancias de rendimiento provienen menos de modelos individuales cada vez más grandes y más de mecanismos de coordinación inspirados en el mercado que organizan a agentes heterogéneos en ecosistemas eficientes y adaptativos.
En este trabajo, revisitamos la optimización de los Transformers desde la perspectiva de la geometría de segundo orden y establecemos una conexión directa entre el diseño arquitectónico, la escala de las activaciones, la matriz Hessiana y la tasa de aprendizaje máxima tolerable. Introducimos una estrategia de normalización simple, denominada SimpleNorm, que estabiliza por construcción las escalas de las activaciones intermedias. Luego, mediante el análisis de la Hessiana de la pérdida con respecto a las activaciones de la red, demostramos teóricamente que SimpleNorm reduce significativamente la norma espectral de la Hessiana, permitiendo así tasas de aprendizaje estables más grandes. Validamos nuestros hallazgos teóricos mediante extensos experimentos en grandes modelos GPT con escalas de parámetros de 1B, 1.4B, 7B y 8B. Empíricamente, SimpleGPT, nuestra red basada en SimpleNorm, tolera tasas de aprendizaje de 3 a 10 veces mayores que las convencionales, demuestra consistentemente una fuerte estabilidad de optimización y logra un rendimiento sustancialmente mejor que las líneas base bien establecidas. Específicamente, al entrenar modelos de escala 7B durante 60K pasos, SimpleGPT alcanza una pérdida de entrenamiento 0.08 inferior a la de LLaMA2 con QKNorm, reduciendo la pérdida de 2.290 a 2.208. Nuestro código fuente será liberado en https://github.com/Ocram7/SimpleGPT.
Con la llegada de los Modelos de Lenguaje a Gran Escala (LLMs), los agentes de propósito general han experimentado avances fundamentales. Sin embargo, evaluar estos agentes presenta desafíos únicos que los distinguen de los benchmarks estáticos de preguntas y respuestas. Observamos que los benchmarks actuales para agentes están fuertemente contaminados por factores externos, incluyendo las indicaciones del sistema (prompts), las configuraciones del conjunto de herramientas y las dinámicas del entorno. Las evaluaciones existentes a menudo dependen de marcos fragmentados y específicos del investigador, donde la ingeniería de prompts para el razonamiento y el uso de herramientas varía significativamente, lo que dificulta atribuir las mejoras de rendimiento al modelo en sí. Además, la falta de datos ambientales estandarizados conduce a errores no rastreables y resultados no reproducibles. Esta falta de estandarización introduce una injusticia y opacidad sustanciales en el campo. Proponemos que un marco de evaluación unificado es esencial para el avance riguroso de la evaluación de agentes. Con este fin, presentamos una propuesta dirigida a estandarizar la evaluación de agentes.
La segmentación de imágenes médicas está evolucionando desde modelos específicos por tarea hacia marcos generalizables. Investigaciones recientes aprovechan los Modelos de Lenguaje Grandes Multimodales (MLLMs) como agentes autónomos, empleando aprendizaje por refuerzo con recompensa verificable (RLVR) para orquestar herramientas especializadas como el Segment Anything Model (SAM). Sin embargo, estos enfoques a menudo dependen de estrategias de interacción rígidas y de un solo turno, y carecen de supervisión a nivel de proceso durante el entrenamiento, lo que limita su capacidad para explotar plenamente el potencial dinámico de las herramientas interactivas y conduce a acciones redundantes. Para salvar esta brecha, proponemos MedSAM-Agent, un marco que reformula la segmentación interactiva como un proceso de toma de decisiones autónoma en múltiples pasos. En primer lugar, introducimos una estrategia de *prompting* híbrida para la generación de trayectorias curadas por expertos, permitiendo que el modelo internalice heurísticas de decisión similares a las humanas y estrategias de refinamiento adaptativas. Además, desarrollamos un pipeline de entrenamiento en dos etapas que integra la verificación de resultados multi-turno de extremo a extremo con un diseño de recompensa de proceso con fidelidad clínica para promover la parsimonia en la interacción y la eficiencia decisional. Experimentos exhaustivos en 6 modalidades médicas y 21 conjuntos de datos demuestran que MedSAM-Agent logra un rendimiento de vanguardia, unificando efectivamente el razonamiento médico autónomo con una optimización iterativa y robusta. El código está disponible https://github.com/CUHK-AIM-Group/MedSAM-Agent{aquí}.
Las interfaces clínicas cerebro-texto están diseñadas para pacientes paralizados que no pueden proporcionar grabaciones de entrenamiento extensas. El pre-entrenamiento mejora la generalización eficiente en datos mediante el aprendizaje de distribuciones previas estadísticas entre sujetos, pero estas distribuciones previas dependen críticamente del contexto. Mientras que el habla natural puede desarrollarse gradualmente durante minutos, la mayoría de los métodos se pre-entrenan con solo unos segundos de contexto. Por lo tanto, proponemos MEG-XL, un modelo pre-entrenado con 2.5 minutos de contexto MEG por muestra, 5-300 veces más largo que trabajos anteriores, y equivalente a 191k tokens, capturando contexto neural extendido. Al ajustar el modelo para la tarea de decodificación de palabras a partir de datos cerebrales, MEG-XL iguala el rendimiento supervisado con una fracción de los datos (por ejemplo, 1 hora vs 50 horas) y supera a los modelos fundacionales cerebrales. Encontramos que los modelos pre-entrenados con contextos más largos aprenden representaciones que se transfieren mejor a la decodificación de palabras. Nuestros resultados indican que el pre-entrenamiento de contexto largo ayuda a explotar el contexto neural extendido que otros métodos descartan innecesariamente. El código, los pesos del modelo y las instrucciones están disponibles en https://github.com/neural-processing-lab/MEG-XL.
La investigación que involucra datos sensibles en materia de privacidad siempre se ha visto limitada por la escasez de datos, lo que contrasta marcadamente con otras áreas que se han beneficiado del escalado de datos. Este desafío se está volviendo cada vez más urgente a medida que a los agentes de IA modernos—como OpenClaw y Gemini Agent—se les otorga acceso persistente a información personal altamente sensible. Para abordar este cuello de botella de larga data y los riesgos crecientes, presentamos Privasis (es decir, oasis de privacidad), el primer conjunto de datos sintético a gran escala (millones de registros) construido completamente desde cero—un extenso reservorio de textos con información privada rica y diversa—diseñado para ampliar y acelerar la investigación en áreas donde el procesamiento de datos sociales sensibles es inevitable. En comparación con los conjuntos de datos existentes, Privasis, que comprende 1,4 millones de registros, ofrece una escala órdenes de magnitud mayor con calidad, y una diversidad mucho mayor en varios tipos de documentos, incluyendo historiales médicos, documentos legales, registros financieros, calendarios y mensajes de texto, con un total de 55,1 millones de atributos anotados, como etnia, fecha de nacimiento, lugar de trabajo, etc. Utilizamos Privasis para construir un corpus paralelo para el saneamiento de textos con nuestra canalización que descompone los textos y aplica un saneamiento dirigido. Nuestros modelos compactos de saneamiento (<=4B) entrenados en este conjunto de datos superan a los modelos de lenguaje grandes más avanzados, como GPT-5 y Qwen-3 235B. Planeamos publicar los datos, modelos y código para acelerar la investigación futura en dominios y agentes sensibles a la privacidad.
La mejora de las capacidades de razonamiento de los modelos de lenguaje grandes (LLM) generalmente depende de la habilidad del modelo para muestrear una solución correcta que pueda ser reforzada o de la existencia de un modelo más fuerte capaz de resolver el problema. Sin embargo, muchos problemas difíciles siguen siendo intratables incluso para los modelos de vanguardia actuales, lo que impide la extracción de señales de entrenamiento válidas. Una alternativa prometedora es aprovechar las soluciones humanas expertas de alta calidad, pero la imitación ingenua de estos datos fracasa porque son fundamentalmente fuera de distribución: las soluciones expertas suelen ser didácticas y contienen lagunas de razonamiento implícitas destinadas a lectores humanos y no a modelos computacionales. Además, las soluciones expertas de alta calidad son costosas, lo que exige métodos de entrenamiento eficientes en muestras y generalizables. Proponemos el Aprendizaje por Imitación con Alineación Distribucional (DAIL), un método de dos pasos que salva la brecha distribucional transformando primero las soluciones expertas en trazas de razonamiento detalladas y dentro de distribución, para luego aplicar un objetivo contrastivo que centre el aprendizaje en las perspectivas y metodologías expertas. Encontramos que DAIL puede aprovechar menos de 1000 soluciones expertas de alta calidad para lograr ganancias del 10-25% en pass@k en los modelos Qwen2.5-Instruct y Qwen3, mejorar la eficiencia del razonamiento entre 2x y 4x, y permitir la generalización fuera de dominio.
La retroalimentación de alta calidad es esencial para una interacción efectiva entre humanos e IA. Esta sirve para salvar brechas de conocimiento, corregir desviaciones y moldear el comportamiento del sistema, tanto durante la interacción como a lo largo del desarrollo del modelo. Sin embargo, a pesar de su importancia, la retroalimentación humana dirigida a las IA suele ser escasa y de baja calidad. Esta disparidad motiva un examen crítico de la retroalimentación humana durante las interacciones con las IA. Para comprender y superar los desafíos que impiden a los usuarios proporcionar retroalimentación de alta calidad, realizamos dos estudios que examinan la dinámica de la retroalimentación entre humanos y agentes conversacionales (AC). Nuestro estudio formativo, a través de la lente de las máximas de Grice, identificó cuatro Barreras de Retroalimentación —Base Común, Verificabilidad, Comunicación e Informatividad— que impiden que los usuarios proporcionen una retroalimentación de alta calidad. Basándonos en estos hallazgos, derivamos tres desiderátums de diseño y demostramos que los sistemas que incorporan andamiajes alineados con estos desiderátums permitieron a los usuarios proporcionar una retroalimentación de mayor calidad. Finalmente, detallamos un llamado a la acción a la comunidad más amplia de la IA para lograr avances en las capacidades de los Modelos de Lenguaje a Gran Escala que superen las Barreras de Retroalimentación.
Las relaciones entre objetos y lenguaje son fundamentales para la comunicación significativa entre humanos e IA, y para una inteligencia encarnada prácticamente útil. Presentamos HieraNav, una tarea de navegación hacia objetivos multi-granular y de vocabulario abierto donde los agentes interpretan instrucciones en lenguaje natural para alcanzar objetivos en cuatro niveles semánticos: escena, habitación, región e instancia. Para ello, presentamos Language as a Map (LangMap), un benchmark a gran escala construido a partir de escaneos 3D interiores del mundo real con anotaciones exhaustivas verificadas por humanos y tareas que abarcan estos niveles. LangMap proporciona etiquetas de región, descripciones de región discriminativas, descripciones de instancia discriminativas que cubren 414 categorías de objetos, y más de 18.000 tareas de navegación. Cada objetivo cuenta con descripciones tanto concisas como detalladas, permitiendo la evaluación en diferentes estilos de instrucción. LangMap logra una calidad de anotación superior, superando a GOAT-Bench en un 23.8% en precisión discriminativa utilizando cuatro veces menos palabras. Las evaluaciones exhaustivas de modelos zero-shot y supervisados en LangMap revelan que un contexto y memoria más ricos mejoran el éxito, mientras que los objetivos de cola larga, pequeños, dependientes del contexto y distantes, así como la finalización de múltiples objetivos, siguen siendo desafiantes. HieraNav y LangMap establecen un banco de pruebas riguroso para avanzar en la navegación encarnada impulsada por lenguaje. Proyecto: https://bo-miao.github.io/LangMap
Comprender el funcionamiento de los componentes del transformador en los LLM es fundamental, ya que constituye el núcleo de los recientes avances tecnológicos en inteligencia artificial. En este trabajo, revisamos los desafíos asociados con la interpretabilidad de los módulos de retroalimentación (FFN) y proponemos MemoryLLM, que busca desacoplar los FFN de la autoatención y nos permite estudiar los FFN desacoplados como una memoria de recuperación neuronal libre de contexto a nivel de token. En detalle, investigamos cómo los tokens de entrada acceden a las ubicaciones de memoria dentro de los parámetros del FFN y la importancia de la memoria del FFN en diferentes tareas posteriores. MemoryLLM logra FFN libres de contexto entrenándolos de forma aislada de la autoatención, utilizando directamente las incrustaciones de tokens. Este enfoque permite precalcular los FFN como búsquedas por token (ToL), posibilitando la transferencia bajo demanda entre la VRAM y el almacenamiento, mejorando además la eficiencia de la inferencia. También presentamos Flex-MemoryLLM, posicionándolo entre un diseño de transformador convencional y MemoryLLM. Esta arquitectura salva la brecha de rendimiento causada por el entrenamiento de FFN con incrustaciones de tokens libres de contexto.
Los sistemas de recomendación multimodal suelen integrar el comportamiento del usuario con datos multimodales de los ítems, capturando así preferencias de usuario más precisas. Paralelamente, con el auge de los modelos grandes (LM), la recomendación multimodal aprovecha cada vez más sus fortalezas en comprensión semántica y razonamiento contextual. Sin embargo, las representaciones de los LM están inherentemente optimizadas para tareas semánticas generales, mientras que los modelos de recomendación dependen en gran medida de las características de identificación única (ID) dispersas de usuarios/ítems. Los trabajos existentes pasan por alto la divergencia representacional fundamental entre los modelos grandes y los sistemas de recomendación, lo que resulta en representaciones multimodales incompatibles y un rendimiento de recomendación subóptimo. Para cerrar esta brecha, proponemos RecGOAT, un marco novedoso y sencillo de alineación semántica dual para recomendación multimodal potenciada por LLM, que ofrece una capacidad de alineación con garantías teóricas. RecGOAT emplea primero redes de atención de grafos para enriquecer la semántica colaborativa modelando las relaciones ítem-ítem, usuario-ítem y usuario-usuario, aprovechando las representaciones LM de usuarios/ítems y el historial de interacciones. Además, diseñamos un marco de alineación progresiva multimodalidad-ID de doble granularidad, que logra una alineación semántica a nivel de instancia y a nivel de distribución mediante aprendizaje contrastivo cross-modal (CMCL) y transporte adaptativo óptimo (OAT), respectivamente. Teóricamente, demostramos que las representaciones unificadas derivadas de nuestro marco de alineación exhiben una consistencia y exhaustividad semántica superiores. Experimentos exhaustivos en tres benchmarks públicos muestran que nuestro RecGOAT logra un rendimiento state-of-the-art, validando empíricamente nuestras perspectivas teóricas. Adicionalmente, el despliegue en una plataforma de publicidad online a gran escala confirma la efectividad y escalabilidad del modelo en escenarios de recomendación industrial. Código disponible en https://github.com/6lyc/RecGOAT-LLM4Rec.
Muchos sistemas de aprendizaje automático tienen acceso a múltiples fuentes de evidencia para un mismo objetivo de predicción; sin embargo, estas fuentes suelen diferir en fiabilidad e informatividad entre distintas entradas. En la clasificación bioacústica, la identidad de la especie puede inferirse tanto a partir de la señal acústica como del contexto espacio-temporal, como la ubicación y la estación del año; aunque la inferencia bayesiana justifica una combinación multiplicativa de evidencias, en la práctica normalmente solo disponemos de predictores discriminativos en lugar de modelos generativos calibrados. Presentamos Fusión bajo Hipótesis Condicionales Independientes (FINCH), un marco de fusión de evidencias log-lineal adaptable que integra un clasificador de audio preentrenado con un predictor espacio-temporal estructurado. FINCH aprende una función de compuerta por muestra que estima la fiabilidad de la información contextual a partir de estadísticas de incertidumbre e informatividad. La familia de fusión resultante contiene al clasificador que solo usa audio como caso especial y acota explícitamente la influencia de la evidencia contextual, dando lugar a una clase de hipótesis con riesgo contenido y con un respaldo interpretable basado únicamente en audio. En diversos puntos de referencia, FINCH supera consistentemente a la fusión de pesos fijos y a las líneas base que solo utilizan audio, mejorando la robustez y las compensaciones de error incluso cuando la información contextual es débil de forma aislada. Logramos un rendimiento de vanguardia en CBI y un rendimiento competitivo o mejorado en varios subconjuntos de BirdSet utilizando un enfoque liviano, interpretable y basado en evidencias. El código está disponible en: \href{https://anonymous.4open.science/r/birdnoise-85CD/README.md}{repositorio-anónimo}.
La caché de clave-valor (KV) de los Modelos de Lenguaje Grandes (LLMs) está basada en prefijos, lo que la hace altamente ineficiente para procesar contextos recuperados en orden arbitrario. Se ha propuesto el Almacenamiento en Caché Independiente de la Posición (PIC) para permitir la reutilización de KV sin restricciones posicionales; sin embargo, los enfoques existentes a menudo conllevan una degradación sustancial de la precisión, lo que limita su adopción práctica. Para abordar este problema, proponemos un PIC nativo mediante la reintroducción de un codificador en los LLMs prevalentes que solo tienen decodificador, entrenándolo explícitamente para admitir PIC. Además, desarrollamos COMB, un sistema de almacenamiento en caché consciente de PIC que se integra perfectamente con los marcos de inferencia existentes. Los resultados experimentales muestran que COMB reduce el Tiempo hasta el Primer Token (TTFT) entre un 51% y un 94% y aumenta el rendimiento en 3 veces con una precisión comparable. Además, la mejora de calidad al utilizar DeepSeek-V2-Lite-Chat demuestra la aplicabilidad de COMB a otros tipos de LLMs que solo tienen decodificador. Nuestro código está disponible en https://github.com/shijuzhao/Comb.