Artículos de investigación en IA seleccionados diariamente con traducciones
A pesar de los rápidos avances en el reconocimiento automático del habla (ASR) y los grandes modelos audiomentales, el reconocimiento robusto en entornos reales sigue estando limitado por un "cuello de botella de robustez acústica": los modelos a menudo pierden la fundamentación acústica y producen omisiones o alucinaciones bajo distorsiones graves y compuestas. Proponemos Mega-ASR, un marco unificado de ASR en entornos reales que combina la construcción escalable de datos compuestos con una optimización progresiva acústico-semántica. Introducimos Voices-in-the-Wild-2M, que abarca 7 fenómenos acústicos clásicos y 54 escenarios compuestos físicamente plausibles, y entrenamos Mega-ASR con Ajuste Fino Supervisado Progresivo Acústico-Semántico y Optimización de Política de Doble Granularidad con Puerta de WER. Experimentos exhaustivos demuestran que Mega-ASR logra ventajas significativas frente a los sistemas de última generación previos en puntos de referencia de ASR en condiciones adversas (45.69% frente a 54.01% en VOiCES R4-B-F, y 21.49% frente a 29.34% en NOIZEUS Sta-0). En escenarios acústicos compuestos complejos, Mega-ASR ofrece además una reducción relativa de WER superior al 30% frente a sólidas líneas base de código abierto y cerrado, estableciendo un paradigma escalable para ASR robusto en entornos reales.
Los recientes avances en modelos de lenguaje multimodal a gran escala han impulsado un creciente interés en los agentes de interfaz gráfica de usuario (GUI), aunque su generalización sigue estando limitada por la escasez de datos de entrenamiento a gran escala que abarquen diversas aplicaciones del mundo real. Los conjuntos de datos existentes dependen en gran medida de anotaciones manuales costosas y suelen circunscribirse a dominios reducidos. Para abordar este desafío, proponemos Video2GUI, un marco completamente automatizado que extrae trayectorias de interacción fundamentadas con la GUI directamente de videos de Internet no etiquetados. Video2GUI emplea una estrategia de filtrado de grueso a fino para identificar videos tutoriales de GUI de alta calidad y convertirlos en trayectorias estructuradas para agentes. Al aplicar este proceso a 500 millones de entradas de metadatos de video, construimos WildGUI, un conjunto de datos a gran escala que contiene 12 millones de trayectorias de interacción que abarcan más de 1.500 aplicaciones y sitios web. El preentrenamiento de Qwen2.5-VL y Mimo-VL en WildGUI produce mejoras consistentes del 5-20% en múltiples puntos de referencia de fundamentación de GUI y acciones, igualando o superando el rendimiento de última generación. Publicaremos tanto el conjunto de datos WildGUI como el proceso Video2GUI para respaldar investigaciones futuras sobre agentes de GUI.
Sin incurrir en una sobrecarga computacional significativa, la generación de videos largos sin entrenamiento tiene como objetivo permitir que los modelos fundacionales de generación de videos produzcan secuencias más extensas. Los marcos autorregresivos a nivel de fotograma, por ejemplo, FIFO-diffusion, ofrecen la ventaja de generar videos de longitud infinita con un consumo de memoria constante. Sin embargo, el desajuste entre el entrenamiento y la inferencia, junto con el desafío de mantener la consistencia a largo plazo, limita la utilización efectiva de los modelos fundacionales. Para mitigar estos problemas, proponemos MIGA, un método novedoso de generación de videos largos con fotogramas infinitos. En primer lugar, proponemos un mecanismo de alineación en dos etapas efectivo que reduce la brecha entre el entrenamiento y la inferencia al disminuir el intervalo de ruido excesivo alimentado al modelo. Luego, introducimos un innovador mecanismo dual de mejora de consistencia, donde el enfoque de autorreflexión corrige los primeros fotogramas de alto ruido y el enfoque de guía de fotogramas de largo alcance aprovecha los fotogramas posteriores de bajo ruido con una amplia cobertura para dirigir la generación, mejorando conjuntamente la consistencia temporal. Experimentos exhaustivos en VBench y NarrLV demuestran el rendimiento de vanguardia de MIGA. Nuestra página del proyecto está disponible en https://xiaokunfeng.github.io/miga_homepage/.
Los modelos de lenguaje multimodal de gran escala (MLLMs) han demostrado una capacidad notable para tender un puente entre la percepción visual y el razonamiento textual, permitiendo una comprensión de cero ejemplos (zero-shot) en diversos escenarios industriales. Sin embargo, su rendimiento en la detección de anomalías industriales (IAD) de vocabulario abierto suele verse limitado por razonamientos desalineados con el dominio e inferencias estructurales alucinadas. Para abordar estos desafíos, proponemos IndusAgent, un marco agéntico aumentado con herramientas para IAD de vocabulario abierto. Específicamente, primero construimos Indus-CoT, un conjunto de datos estructurado que integra observaciones visuales globales, parches locales de alta resolución y prioridades de normalidad de expertos, proporcionando supervisión para el ajuste fino del modelo en trayectorias rigurosas de inspección industrial. Basándonos en esto, IndusAgent orquesta dinámicamente un conjunto de herramientas externas, que incluyen recorte dinámico de regiones, mejora de características de alta frecuencia y recuperación de prioridades, permitiendo así que el agente resuelva activamente ambigüedades visuales y desenrede anomalías sutiles. Además, introducimos un objetivo de aprendizaje por refuerzo con compuertas que optimiza conjuntamente la clasificación de anomalías, la precisión de localización, el razonamiento del tipo de anomalía y el uso eficiente de herramientas, asegurando que la invocación de herramientas ocurra solo cuando sea beneficiosa. Evaluaciones exhaustivas en cinco puntos de referencia de anomalías industriales, incluyendo MVTec-AD, VisA, MPDD, DTD y SDD, demuestran que IndusAgent alcanza un rendimiento de cero ejemplos (zero-shot) de última generación entre todos los métodos existentes, validando nuestra robustez y capacidad de generalización.
El aprendizaje por refuerzo con recompensas verificables (RLVR) se ha convertido en un paradigma dominante para mejorar el razonamiento en modelos de lenguaje grandes (LLMs); sin embargo, la geometría subyacente de las trayectorias de parámetros resultantes sigue estando insuficientemente explorada. En este trabajo demostramos que las trayectorias de pesos en RLVR tienen un rango extremadamente bajo y son altamente predecibles. En concreto, encontramos que la mayoría de las ganancias de rendimiento posteriores se capturan mediante una aproximación de rango 1 de los deltas de parámetros, donde la magnitud de esta proyección evoluciona de forma casi lineal con los pasos de entrenamiento. Motivados por esto, proponemos un método simple y computacionalmente eficiente, RELEX (REinforcement Learning EXtrapolation), que estima el subespacio de rango 1 a partir de una ventana de observación corta y extrapola los puntos de control futuros mediante regresión lineal, sin requerir ningún modelo aprendido. En tres modelos (Qwen2.5-Math-1.5B, Qwen3-4B-Base y Qwen3-8B-Base), RELEX produce puntos de control que igualan o superan el rendimiento de RLVR en benchmarks tanto dentro del dominio como fuera de él, requiriendo tan solo un 15% de los pasos del entrenamiento completo de RLVR. Notablemente, RELEX es capaz de extrapolar mucho más allá de la ventana de observación sin costo de entrenamiento, prediciendo puntos de control hasta 10-20 veces más allá del prefijo observado con mejora continua (por ejemplo, observar solo los primeros 50 pasos y extrapolar a 1000 pasos). Nuestro análisis de ablación confirma la suficiencia minimalista de RELEX: ni aumentar el rango del subespacio ni emplear modelos no lineales produce mayores ganancias en la extrapolación. Finalmente, mostramos que el éxito de RELEX proviene de un efecto de "eliminación de ruido": al proyectar las actualizaciones sobre el subespacio de rango 1, el modelo descarta el ruido de optimización estocástica que de otro modo degradaría el rendimiento durante la extrapolación. Nuestro código está disponible en https://github.com/weizhepei/RELEX.
El rápido avance hacia el razonamiento de contexto largo y la inteligencia multimodal ha convertido la huella de memoria de la caché de Clave-Valor (KV) en un cuello de botella dominante para el despliegue eficiente. Si bien la cuantización por canal establecida se adapta eficazmente a los valores atípicos intrínsecos por canal en los tensores Clave, su eficacia disminuye bajo una compresión extrema. En este trabajo, revisitamos las limitaciones inherentes del paradigma de cuantización por canal desde perspectivas tanto empíricas como teóricas. Nuestro análisis identifica el Desequilibrio de Norma de Tokens (TNI) como el principal cuello de botella para la fidelidad de la cuantización. Demostramos que TNI amplifica sistemáticamente los errores cuando se requieren parámetros de cuantización compartidos para abarcar grupos de tokens que exhiben disparidades sustanciales de norma. En lugar de depender de complejos pipelines de cuantización (p. ej., TurboQuant), proponemos OScaR (Rotación Canalizada a Escala Omni), un framework ligero y preciso de compresión de caché KV para X-LLMs (es decir, LLMs solo de texto, multimodales y omni-modales). Avanzando el paradigma por canal, OScaR emplea Rotación Canalizada seguida de Escalado de Tokens Omni para mitigar la varianza dimensional de secuencia inducida por TNI tanto de forma efectiva como eficiente, respaldado además por nuestro diseño de sistema optimizado y núcleos CUDA. Evaluaciones exhaustivas en X-LLMs muestran que OScaR supera consistentemente a los métodos existentes y logra un rendimiento casi sin pérdidas bajo cuantización INT2, estableciéndose como un framework robusto, de baja complejidad y universal que define un nuevo frente de Pareto. En comparación con la línea base BF16 FlashDecoding-v2, nuestra implementación de OScaR logra una notable aceleración de hasta 3.0x en decodificación, reduce la huella de memoria en 5.3x y aumenta el rendimiento en 4.1x. El código de OScaR está disponible públicamente en https://github.com/ZunhaiSu/OScaR-KV-Quant.
Las capacidades fundamentales establecidas por los Modelos de Lenguaje de Gran Escala (LLMs) han allanado el camino para los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs), dentro de los cuales los Modelos de Lenguaje Auditivo de Gran Escala (LALMs) son esenciales para alcanzar una inteligencia auditiva universal. A pesar de su notable desempeño, la escalada en las capacidades de los LALMs ha superado significativamente el desarrollo de marcos sistémicos que garanticen su fiabilidad. Este estudio presenta una investigación exhaustiva sobre los mecanismos endógenos de los LALMs, detallando las innovaciones arquitectónicas y los algoritmos de alineación que facilitan el razonamiento emergente. En concreto, analizamos cómo la transición hacia marcos unificados de extremo a extremo y la integración de señales acústicas continuas expanden inherentemente la superficie de ataque. Para evaluar rigurosamente los riesgos dentro de estos paradigmas, establecemos una taxonomía integral de la fiabilidad, categorizando vulnerabilidades críticas como el jailbreaking cross-modal, las puertas traseras acústicas latentes y la filtración de privacidad biométrica. Revisamos el estado del arte a través de seis pilares analíticos: alucinación, robustez, seguridad, privacidad, equidad y autenticación. El profundo desequilibrio entre un panorama ofensivo maduro y defensas subdesarrolladas valida aún más las brechas críticas de fiabilidad y los riesgos multidimensionales que enfrenta la inteligencia centrada en el audio. Finalmente, proponemos una hoja de ruta estratégica que aboga por arquitecturas de "Defensa en Profundidad", modelado causal del mundo auditivo e ingeniería de representación intrínseca para cerrar la brecha entre el rendimiento empírico y una inteligencia auditiva intrínsecamente fiable. Nuestro proyecto se ha subido a GitHub https://github.com/Kwwwww74/Awesome-Trustworthy-AudioLLMs.
La Integridad Contextual (IC) define la privacidad no simplemente como la ocultación de información, sino como la regulación de los flujos de información de acuerdo con las normas de un contexto determinado. A medida que los modelos de lenguaje grandes se implementan cada vez más como agentes personales que manejan flujos de trabajo sensibles, la adhesión a la IC se vuelve crítica. Sin embargo, incluso los modelos de frontera siguen siendo poco fiables en las decisiones de divulgación, y las estrategias de mitigación existentes a menudo degradan el rendimiento de la tarea subyacente. Para superar esta compensación entre privacidad y utilidad, proponemos SELFCI, un marco complementario de autodestilación que desacopla la supresión de información de la resolución de tareas. SELFCI optimiza conjuntamente dos divergencias KL inversas independientes sobre distribuciones de profesor distintas derivadas de la retroalimentación: una fomenta la preservación de información relevante para la tarea en aras de la utilidad, mientras que la otra impone una divulgación mínima y adecuada. Esta formulación complementaria induce un objetivo de Producto de Expertos (PoE), alineando la política con la intersección de los requisitos de capacidad y privacidad. Las evaluaciones empíricas demuestran que SELFCI, sin depender de una supervisión externa costosa, supera consistentemente a líneas base competitivas como los algoritmos de aprendizaje por refuerzo en línea (por ejemplo, GRPO). Estas tendencias se extienden además a entornos fuera de dominio que involucran flujos de trabajo agentivos y contexto privado acumulado, lo que sugiere que SELFCI proporciona un camino práctico hacia la alineación con la IC.
Demostramos que los modelos fundacionales de series temporales escalan: una única receta de entrenamiento produce mejoras confiables en la calidad del pronóstico desde 4M hasta 2.5B de parámetros. Publicamos Toto 2.0, una familia de cinco modelos de pronóstico de pesos abiertos entrenados bajo esta receta. La familia Toto 2.0 establece un nuevo estado del arte en tres puntos de referencia de pronóstico: BOOM, nuestro punto de referencia de observabilidad; GIFT-Eval, el punto de referencia estándar de propósito general; y el reciente punto de referencia TIME, resistente a la contaminación. Este informe describe nuestros resultados experimentales y detalla las decisiones de diseño detrás de Toto 2.0: su arquitectura y receta de entrenamiento, datos de entrenamiento y el pipeline de transferencia de hiperparámetros u-muP. Los cinco puntos de control base se publican bajo licencia Apache 2.0.
Los agentes basados en modelos de lenguaje de gran escala (LLM) han surgido recientemente como un paradigma poderoso para resolver tareas complejas mediante planificación, uso de herramientas, recuperación de memoria e interacción en múltiples pasos. Sin embargo, estos flujos de trabajo propios de agentes a menudo introducen una sobrecarga sustancial en el lado de entrada, lo que convierte a la etapa de precarga, intensiva en cómputo, en un cuello de botella clave en la inferencia de contexto largo y múltiples turnos. En este trabajo, proponemos Mix-Quant, un marco de cuantización simple y eficaz que tiene en cuenta las fases para una inferencia rápida en agentes. Primero investigamos la cuantización FP4 en flujos de trabajo de LLM con agentes y observamos que cuantizar todo el proceso de inferencia puede provocar una degradación significativa del rendimiento. Por el contrario, la etapa de precarga exhibe una redundancia de cuantización considerable y, por lo tanto, puede cuantizarse con una pérdida mínima de precisión, a pesar de ser la fuente dominante de cómputo. Basándonos en esta observación, aplicamos la cuantización NVFP4 de alto rendimiento a la fase de precarga, mientras preservamos la precisión BF16 para el decodificado. Al desvincular la aceleración de la precarga de la calidad del decodificado, Mix-Quant combina una cuantización algorítmica consciente de la fase con una ejecución NVFP4 eficiente en hardware para aliviar el cuello de botella de inferencia en agentes LLM. Experimentos exhaustivos en benchmarks de contexto largo y orientados a agentes demuestran que Mix-Quant preserva en gran medida el rendimiento de la tarea, al tiempo que ofrece mejoras significativas en eficiencia, logrando una aceleración de hasta 3 veces durante la precarga.
¿Cómo deberían los futuros sistemas de razonamiento neuronal implementar cómputo extendido? Los Modelos de Razonamiento Recursivo (RRMs) ofrecen una alternativa prometedora a la extensión de secuencia autorregresiva al realizar un refinamiento iterativo de estados latentes con funciones de transición compartidas. No obstante, los RRMs existentes son en gran medida deterministas: siguen una única trayectoria latente y convergen a una sola predicción. Presentamos los Modelos Generativos de Razonamiento Recursivo (GRAM), un marco que transforma el razonamiento recursivo latente en cómputo probabilístico multi-trayectoria. GRAM modela el razonamiento como una trayectoria latente estocástica, lo que permite múltiples hipótesis, estrategias de solución alternativas y escalado en tiempo de inferencia tanto mediante profundidad recursiva como mediante muestreo paralelo de trayectorias. Esto da lugar a un modelo generativo de variables latentes que admite razonamiento condicional mediante p_θ(y | x) y, con entradas fijas o ausentes, generación incondicional mediante p_θ(x). Entrenado con inferencia variacional amortiguada, GRAM supera a las líneas base deterministas recurrentes y recursivas en tareas de razonamiento estructurado y satisfacción de restricciones multi-solución, al tiempo que demuestra capacidad de generación incondicional. https://ahn-ml.github.io/gram-website
Si bien los agentes GUI han logrado avances significativos en la navegación web y tareas básicas del sistema operativo, sus capacidades en flujos de trabajo creativos profesionales siguen estando en gran medida inexploradas. Para cerrar esta brecha, presentamos Cutverse, un benchmark diseñado para evaluar sistemáticamente agentes GUI autónomos en entornos realistas de postproducción de medios. Seleccionamos demostraciones de expertos en 7 aplicaciones profesionales (por ejemplo, Premiere Pro, Photoshop), que cubren 186 tareas complejas y de largo horizonte basadas en flujos de trabajo de edición auténticos, que implican interfaces multimodales densas y secuencias de interacción estrechamente acopladas. Para apoyar una evaluación escalable, desarrollamos un analizador ligero que transforma grabaciones de pantalla en bruto y registros de interacción de bajo nivel en trayectorias de acción GUI estructuradas y composicionales con un fundamento preciso. Evaluaciones exhaustivas revelan que los agentes existentes logran solo un 36.0% de éxito en tareas de edición de medios realistas, lo que subraya los desafíos que plantean los flujos de trabajo complejos y de largo horizonte de postproducción de medios en nuestro benchmark. Si bien los modelos actuales demuestran un fundamento espacial prometedor, alineación multimodal y ejecución coordinada de acciones, siguen siendo limitados en confiabilidad a largo plazo y planificación específica del dominio.
Actualmente, mejorar los Modelos Multimodales Unificados (UMMs) con capacidades de comprensión, generación y edición de imágenes se basa principalmente en el entrenamiento multitarea mixto. Debido a conflictos inherentes entre tareas, esta estrategia requiere pipelines complejos de múltiples etapas, una masiva mezcla de datos y trucos de balanceo, lo que resulta simplemente en una compensación de rendimiento en lugar de un verdadero refuerzo mutuo. Para romper este paradigma, proponemos Uni-Edit, una tarea inteligente de edición de imágenes que actúa como la primera tarea general para el ajuste de UMMs. A diferencia de los pipelines mixtos complejos, Uni-Edit mejora el rendimiento en las tres capacidades a la vez utilizando solo una tarea, una etapa de entrenamiento y un conjunto de datos. Específicamente, primero identificamos la edición de imágenes como una tarea general inherentemente ideal, ya que demanda naturalmente tanto comprensión como generación visual. Sin embargo, los datos de edición existentes se basan en instrucciones simplistas que infrautilizan severamente la capacidad de comprensión del modelo. Para abordar esto, introducimos el primer pipeline automatizado y escalable de síntesis de datos para edición inteligente, transformando diversos datos de VQA en instrucciones de edición complejas y efectivas con preguntas integradas y lógica anidada. Esto produce Uni-Edit-148k, que empareja instrucciones diversas e intensivas en razonamiento con imágenes editadas de alta calidad. Experimentos extensos en BAGEL y Janus-Pro demuestran que el ajuste exclusivo en Uni-Edit logra mejoras integrales en las tres capacidades sin ninguna operación auxiliar.
Evaluar modelos de lenguaje grandes (LLMs) en razonamiento lógico en lenguaje natural es esencial porque las tareas gobernadas por reglas requieren que las conclusiones se deriven estrictamente de las premisas establecidas. Muchos puntos de referencia existentes de razonamiento lógico se generan mediante plantillas de ítems en lenguaje natural a partir de fórmulas muestreadas, proporcionan solo anotaciones formales gruesas o no auditadas, y actualmente son rápidamente saturados por modelos de razonamiento de vanguardia. Presentamos LLMEval-Logic, un punto de referencia de razonamiento lógico en chino construido a partir de escenarios situacionales realistas. Su flujo de trabajo redacta inicialmente y somete a auditoría de expertos los ítems en lenguaje natural junto con sus formalizaciones de referencia, verifica las respuestas anotadas con Z3, construye rúbricas de expertos para la calificación de la conversión de natural a formal, y endurece elementos seleccionados mediante un flujo de trabajo adversarial de circuito cerrado. El punto de referencia se publica en dos subconjuntos emparejados: un subconjunto Base de 246 ítems acompañado de 1400 átomos de rúbrica desarrollados por expertos, y un subconjunto Hard de 190 ítems con 938 subpreguntas de múltiples pasos sobre espacios de modelos cerrados. Al evaluar 14 modelos de lenguaje grandes de vanguardia en LLMEval-Logic, se revelan brechas sustanciales en los modelos actuales: el mejor modelo alcanza solo un 37,5% de precisión en ítems difíciles, e incluso con símbolos de referencia, la puntuación conjunta de formalización Z3+Rúbrica más alta entre los modelos evaluados alcanza solo el 60,16%. Nuestro punto de referencia está disponible públicamente en https://github.com/llmeval/LLMEval-Logic.
El paradigma actual de preentrenamiento para modelos de lenguaje grandes depende de un cómputo masivo y de texto bruto a escala de internet, lo que crea una barrera significativa para la investigación fundamental. En contraste, los sistemas biológicos demuestran un aprendizaje altamente eficiente en términos de muestras mediante procesamiento en múltiples escalas temporales, como la organización funcional del bucle frontoparietal. Inspirándonos en esto, presentamos HRM-Text, que reemplaza los Transformers estándar con un Modelo Recurrente Jerárquico (HRM) que desacopla el cómputo en capas estratégicas de evolución lenta y capas de ejecución de evolución rápida. Para estabilizar esta recurrencia profunda en el modelado del lenguaje, introducimos MagicNorm y la asignación de crédito profundo con calentamiento. Además, en lugar del preentrenamiento estándar con texto bruto, entrenamos exclusivamente con pares de instrucción-respuesta utilizando un objetivo de finalización de tareas y enmascaramiento PrefixLM. Como prueba empírica de existencia de un preentrenamiento eficiente, un modelo HRM-Text de 1B de parámetros entrenado desde cero con solo 40 mil millones de tokens únicos y un presupuesto de $1,500 alcanza un 60.7% en MMLU, 81.9% en ARC-C, 82.2% en DROP, 84.5% en GSM8K y 56.2% en MATH. A pesar de utilizar aproximadamente entre 100 y 900 veces menos tokens de entrenamiento y entre 96 y 432 veces menos cómputo estimado que los modelos de referencia estándar, HRM-Text compite favorablemente con modelos abiertos de 2 a 7B de parámetros. Estos resultados demuestran que el diseño conjunto de arquitecturas y objetivos puede reducir drásticamente la relación cómputo-rendimiento, haciendo que el preentrenamiento desde cero sea accesible para la comunidad investigadora en general.
Los flujos de trabajo de operaciones de activos industriales son sensibles a la latencia, ya que una única consulta de usuario puede requerir la coordinación de datos de sensores, órdenes de trabajo, modos de fallo, herramientas de predicción y agentes específicos del dominio. Evaluamos este problema en AssetOpsBench (AOB), un benchmark de agentes industriales cuyo pipeline de planificación-ejecución expone una sobrecarga repetida derivada del descubrimiento de herramientas, la planificación con LLM, la ejecución de herramientas MCP y la síntesis final. Las técnicas existentes de caché para LLM, como la reutilización de caché KV y el caché semántico basado en embeddings, fueron diseñadas para la atención de chatbots y fallan cuando la validez de la salida depende del tiempo, del activo o de parámetros de sensores. Proponemos dos capas de optimización complementarias para los pipelines de planificación-ejecución de AOB: un caché semántico temporal y un conjunto de optimizaciones del flujo de trabajo MCP que combinan el almacenamiento en caché del descubrimiento de herramientas respaldado por disco y la ejecución paralela de pasos con dependencias conscientes. Las optimizaciones del flujo de trabajo MCP lograron una aceleración de 1.67 veces y redujeron la latencia mediana de extremo a extremo en aproximadamente un 40.0%, mientras que el benchmark del caché temporal alcanzó una aceleración mediana de 30.6 veces en aciertos de caché. Más allá de la aceleración, nuestros resultados revelan un modo de fallo concreto del caché semántico puro para consultas industriales con abundantes parámetros, proporcionando un análisis crítico de cómo las elecciones de almacenamiento en caché interactúan con la corrección de la evaluación en benchmarks de agentes basados en MCP.
Con el avance de las capacidades de la IA, los revisores basados en inteligencia artificial comienzan a implementarse en la revisión por pares científica, pero su capacidad y credibilidad siguen siendo cuestionadas: muchos científicos los consideran simplemente sistemas probabilísticos sin la experiencia necesaria para evaluar investigaciones, mientras que otros investigadores son más optimistas respecto a su preparación sin evidencia concreta. Comprender qué hacen bien los revisores de IA, en qué fallan y qué desafíos persisten es esencial. Sin embargo, las evaluaciones existentes de revisores de IA se han centrado en si sus veredictos coinciden con los veredictos humanos (por ejemplo, alineación de puntuaciones, predicción de aceptación), lo cual es insuficiente para caracterizar sus capacidades y limitaciones. En este artículo, cerramos esta brecha mediante un estudio de anotación experta a gran escala, en el que 45 científicos de dominio en Ciencias Físicas, Biológicas y de la Salud dedicaron 469 horas a calificar 2960 críticas individuales (cada una dirigida a un aspecto específico de un artículo) de revisiones escritas por humanos y generadas por IA de 82 artículos de la familia Nature en cuanto a corrección, importancia y suficiencia de la evidencia. En un compuesto de las tres dimensiones, un agente revisor impulsado por GPT-5.2 supera al revisor humano mejor calificado de cada artículo (60,0 % frente a 48,2 %, p = 0,009), mientras que los tres revisores de IA (incluidos Gemini 3.0 Pro y Claude Opus 4.5) superan al revisor peor calificado en todas las dimensiones. Las críticas precisas de los revisores de IA también son más frecuentemente consideradas significativas y bien fundamentadas, y revelan un 26 % distintivo de problemas que ningún humano plantea. Sin embargo, los revisores de IA se superponen mucho más que los humanos (21 % frente a 3 % para pares de revisores) y presentan 16 debilidades recurrentes que los humanos no comparten, como conocimiento limitado del subcampo, falta de gestión de contexto extenso en múltiples archivos y una postura excesivamente crítica sobre cuestiones menores. En general, nuestros resultados posicionan a los revisores de IA actuales como complementos, no sustitutos, de los revisores humanos.
Los recientes modelos de diseño a imagen han logrado un progreso notable en la controlabilidad espacial. Sin embargo, todavía presentan dificultades con la oclusión entre objetos. Cuando las cajas delimitadoras se superponen, la mayoría de los métodos existentes carecen de información explícita de oclusión, lo que hace que la generación en las regiones de intersección sea inherentemente ambigua y dificulta la determinación de relaciones de oclusión complejas. Como resultado, a menudo producen texturas enredadas o capas físicamente inconsistentes en las áreas superpuestas. Para abordar este problema, primero construimos SA-Z, un conjunto de datos a gran escala enriquecido con orden de oclusión explícito y anotaciones a nivel de píxel. Sobre la base de nuestro conjunto de datos propuesto, presentamos OcclusionFormer, un novedoso marco de Transformador de Difusión consciente de la oclusión que modela explícitamente la prioridad de orden Z mediante la desacoplación de instancias y su composición a través del renderizado volumétrico. Además, para garantizar una precisión espacial detallada, introducimos una pérdida de alineación consultada que supervisa explícitamente instancias individuales y mejora la consistencia semántica. El método propuesto reduce efectivamente la ambigüedad en las regiones superpuestas, impone dependencias de oclusión correctas y preserva la integridad estructural, lo que conduce a ganancias sustanciales de precisión en diversas escenas.
Stable Audio 3 es una familia de modelos rápidos de difusión latente (pequeño, mediano, grande) para la generación y edición de audio de duración variable. Dado que nuestros modelos pueden generar varios minutos de audio, las generaciones de longitud variable son clave para evitar el costo de producir generaciones completas para sonidos cortos. También admitimos el relleno (inpainting), lo que permite la edición dirigida de audio y la continuación de grabaciones breves. Nuestros modelos de difusión latente operan sobre un novedoso autoencoder semántico-acústico que proyecta el audio en un espacio latente compacto, lo que posibilita una generación eficiente basada en difusión, preservando al mismo tiempo la fidelidad del audio y fomentando la estructura semántica en el latente. Finalmente, aplicamos un post-entrenamiento adversarial para acelerar la inferencia y mejorar la calidad de generación, reduciendo el número de pasos de inferencia y mejorando la fidelidad y la adherencia a las indicaciones. Los modelos Stable Audio 3 se entrenan con datos bajo licencia y Creative Commons para generar música y sonidos en menos de 2 segundos en una GPU H200 y en menos de unos segundos en un MacBook Pro M4. Publicamos los pesos de los modelos pequeño y mediano, que pueden ejecutarse en hardware de consumo, junto con sus pipelines de entrenamiento e inferencia.
Para uso práctico, los modelos generativos basados en difusión o flujo deben alinearse con recompensas específicas de la tarea, como la fidelidad al prompt o la preferencia estética. Dicha alineación es un desafío porque la recompensa se define para imágenes de salida limpias, pero el procedimiento de alineación requiere estimaciones de la función de valor en latentes intermedios ruidosos. Los métodos existentes recurren a aproximaciones de estilo Tweedie o de Monte Carlo, equilibrando el sesgo del estimador con el coste computacional: las estimaciones de Tweedie son eficientes pero sesgadas, mientras que las de Monte Carlo son más precisas pero requieren simulaciones costosas. Una alternativa natural sería una función de valor aprendida, pero sigue siendo una cuestión abierta cómo entrenar eficazmente un modelo de valor robusto y general específicamente para latentes ruidosos. Aquí proponemos StitchVM, un marco de cosido de modelos que transfiere eficientemente modelos de recompensa preentrenados para imágenes limpias al régimen de latentes ruidosos. StitchVM parte de un modelo de recompensa truncado en el espacio de píxeles y acopla un backbone de difusión congelado como su cabeza. Del modelo en espacio de píxeles, el híbrido resultante conserva una capacidad de recompensa robusta y cuidadosamente preentrenada; del backbone de difusión, hereda su capacidad nativa para manejar latentes ruidosos. El procedimiento de cosido es excepcionalmente ligero; por ejemplo, coser y ajustar CLIP ViT-L y SD 3.5 Medium solo requiere 10 horas de GPU. Al elevar los potentes modelos de recompensa del espacio de píxeles al espacio latente, StitchVM abre un nuevo estilo de alineación de difusión: en lugar de una aproximación aproximada pero costosa por muestra de la función de valor, la función correcta para los latentes ruidosos reales se construye una vez y luego se amortiza en múltiples muestras e iteraciones. Demostramos que este enfoque produce mejoras en un amplio rango de métodos de guía y post-entrenamiento posteriores: DPS se vuelve 3,2 veces más rápido mientras reduce a la mitad la memoria máxima de GPU, y DiffusionNFT se vuelve 2,3 veces más rápido.
La caché clave-valor (KV) domina el ancho de banda y la huella de memoria en la inferencia autorregresiva de contexto largo. Los códecs recientes con precondicionamiento por rotación (TurboQuant, PolarQuant) muestran que una rotación aleatoria estructurada seguida de un cuantizador escalar por coordenada ajustado a una marginal analíticamente tratable constituye una receta casi óptima para la compresión de KV. OCTOPUS avanza este paradigma mediante la cuantización conjunta de tripletes de coordenadas rotadas. La dirección de cada triplete se mapea a un cuadrado mediante una parametrización octaédrica, y las dos coordenadas resultantes junto con la norma del triplete se cuantizan según Lloyd-Max frente a marginales ajustadas a la implementación. La optimización del error cuadrático por triplete produce una asignación de bits estrictamente no uniforme que depende únicamente de la dimensionalidad total de las claves. Encontramos que el óptimo de calidad en dimensión finita, determinado mediante barridos, es constante en todos los decodificadores reales que evaluamos. El códec es ciego a los datos, en línea y determinista dada una semilla. En texto, video y audio, OCTOPUS iguala o supera a todos los códecs con rotación previos en cada ancho de bit y métrica reportados, con una ventaja que crece a medida que los bits disminuyen para una compresión extrema. Además, una implementación fusionada en Triton reconstruye las claves sobre la marcha sin materializar la clave sin comprimir, por lo que el códec no añade ancho de banda ni latencia en la decodificación por encima de la des cuantización existente. Página del proyecto: https://octopus-quant.github.io/
El aprendizaje por refuerzo a partir de recompensas verificables (RLVR) sufre señales de resultado dispersas, lo que genera graves cuellos de botella de exploración en tareas de razonamiento complejas. Métodos recientes de autodestilación en política intentan abordar esto utilizando retroalimentación lingüística para generar supervisión densa a nivel de token. Sin embargo, estos enfoques dependen de un profesor fijo y pasivo para interpretar la retroalimentación. A medida que la política del estudiante mejora, la capacidad de evaluación de disparo cero del profesor se estabiliza, deteniendo finalmente el aprendizaje posterior. Para superar esto, proponemos la Destilación Variacional de Políticas (VPD), un marco que formaliza el aprendizaje a partir de retroalimentación lingüística como un problema de Maximización de Expectativas Variacional (EM). VPD co-evoluciona ambas políticas: en el paso E, el profesor se refina activamente en los resultados de la trayectoria mediante una actualización adaptativa de región de confianza, traduciendo la retroalimentación textual en una distribución objetivo de tokens mejorada dinámicamente. En el paso M, el estudiante internaliza esta guía distribucional densa en sus propios despliegues en política. Al mejorar continuamente la capacidad del profesor para extraer señales accionables de la crítica textual, VPD supera las limitaciones de la destilación pasiva. Evaluado en diversas fuentes de retroalimentación diagnóstica en tareas de razonamiento científico y generación de código, VPD supera consistentemente tanto al RLVR estándar como a las líneas base existentes de autodestilación. Finalmente, al someter nuestro marco a pruebas de estrés en razonamiento matemático rígido y regímenes de arranque en frío, iluminamos los límites fundamentales de la autodestilación impulsada por retroalimentación en comparación con el RL puramente impulsado por el entorno.
Los agentes de LLM organizan su comportamiento mediante habilidades: especificaciones estructuradas en lenguaje natural que rigen cómo un agente razona, recupera información y responde. A diferencia de las indicaciones monolíticas, las habilidades son artefactos de múltiples campos que están sujetos a restricciones estrictas de la plataforma: los campos de descripción se truncan para el enrutamiento, los cuerpos de instrucción se compactan mediante divulgación progresiva y las habilidades que coexisten compiten por ventanas de contexto limitadas. Estas restricciones hacen que la optimización de habilidades sea inherentemente multiobjetivo: una habilidad debe maximizar simultáneamente el rendimiento en la tarea y satisfacer los límites de la plataforma. Sin embargo, los optimizadores de indicaciones existentes ignoran estas compensaciones o las colapsan en una suma ponderada, perdiendo variantes Pareto-óptimas en regiones objetivas no convexas. Presentamos MOCHA (Recocido Multiobjetivo de Chebyshev), que reemplaza la selección monoobjetivo por la escalarización de Chebyshev —cubriendo todo el frente de Pareto, incluyendo regiones no convexas— combinada con un recocido exponencial que transita de la exploración a la explotación. En nuestros experimentos con seis habilidades diversas de agentes —donde todos los métodos comparten el mismo operador de mutación multiobjetivo y las líneas base reciben retroalimentación textual idéntica por objetivo— los optimizadores existentes no logran mejorar la habilidad semilla en 4 de 6 tareas: 1000 ejecuciones producen cero progreso. MOCHA supera todas las tareas, logrando una mejora relativa del 7.5% en la precisión media sobre la línea base más fuerte (hasta un 14.9% en FEVER y un 10.4% en TheoremQA), mientras descubre el doble de variantes de habilidad Pareto-óptimas.
Generar un recorrido virtual completo de una vivienda a partir de un plano y una referencia de estilo requiere tanto panorámicas fotorrealistas como coherencia espacial entre vistas. Los generadores puramente 2D producen panorámicas individuales atractivas, pero reinterpretan la geometría y los materiales al cambiar el punto de vista, mientras que la generación 3D monolítica resulta costosa y pierde texturas finas a escala de múltiples habitaciones. Presentamos PanoWorld, un modelo generativo de mundo espacial que trata la síntesis de una vivienda completa como la generación autorregresiva de panorámicas de 360 grados basadas en nodos, en concordancia con la navegación discreta utilizada en productos reales de recorridos virtuales. PanoWorld emplea una cáscara 3D derivada del plano como proxy geométrico global y un caché dinámico de Gaussian Splatting 3D como memoria espacial renderizable. Un LRM panorámico feed-forward diseñado para entradas de 360 grados multi-habitación a escala métrica transforma las panorámicas generadas en actualizaciones locales de 3DGS, mientras que la Atención Grupal con Conciencia de Habitación suprime la interferencia de características entre habitaciones. Una estrategia de almacenamiento en caché progresivo consciente de la topología fusiona estas actualizaciones locales sin reconstruir repetidamente el historial completo. Al desacoplar la guía geométrica basada en cáscara de la memoria visual renderizada en caché, PanoWorld preserva la calidad de síntesis 2D de alta frecuencia a la vez que mejora la coherencia de diseño y material entre nodos. El enlace del proyecto es https://jjrcn.github.io/PanoWorld-project-home/
El Aprendizaje por Refuerzo con Recompensa Verificable (RLVR) ha demostrado ser efectivo para mejorar la capacidad de razonamiento de los Modelos de Lenguaje Grande (LLM). Sin embargo, las dinámicas de aprendizaje del RLVR siguen sin explorarse en profundidad. En este artículo, revelamos un fenómeno contraintuitivo: entre los ejemplos difíciles con los que el modelo inicialmente tiene dificultades, un subconjunto sustancial permanece no aprendible incluso cuando están presentes trayectorias correctas. Para comprender el fenómeno, primero demostramos que las técnicas existentes de optimización y muestreo no logran resolver la falta de aprendizaje. Mediante un análisis de gradientes entre ejemplos, mostramos que los ejemplos no aprendibles presentan un problema fundamental de representación, caracterizado por una baja similitud de gradientes con el resto de los ejemplos y patrones de razonamiento no generalizables. Además, demostramos que los defectos de representación son difíciles de mitigar en RL, ya que el aumento de datos no mejora la similitud de gradientes. Nuestro estudio proporciona la primera caracterización sistemática de los datos no aprendibles en el entrenamiento con RLVR y revela limitaciones fundamentales en los enfoques actuales de RL para tareas de razonamiento. El código y los datos están disponibles en https://github.com/yulinchen99/unlearnability-rlvr.
Cuando los agentes de codificación de horizonte largo generan más código del que cualquier desarrollador puede revisar, la supervisión se concentra en una única superficie: el conjunto de pruebas automatizadas. La manipulación de recompensas surge de forma natural en esta configuración, ya que el agente optimiza para superar las pruebas mientras se desvía del objetivo real del usuario. Estudiamos este fenómeno de manipulación de recompensas descomponiendo las tareas de ingeniería de software en tres partes: (i) una descripción en lenguaje natural de la especificación, (ii) pruebas de validación visibles que ejercitan las funcionalidades especificadas de forma aislada, y (iii) pruebas reservadas que componen esas mismas funcionalidades para simular el uso en el mundo real. Basándose en la especificación y en los conjuntos de pruebas de validación visibles, un agente genuino sería capaz de generar una solución que también pueda superar todas las pruebas reservadas. Por lo tanto, utilizamos la brecha en las tasas de aprobación en estos dos conjuntos para cuantificar la manipulación de recompensas. Con base en esta metodología, introducimos SpecBench, un punto de referencia que comprende 30 tareas de programación a nivel de sistema, que van desde tareas de horizonte corto, como construir un analizador JSON, hasta tareas de horizonte ultra largo, como construir un núcleo de sistema operativo completo desde cero. Experimentos a gran escala revelan un patrón consistente: mientras que cada agente de frontera satura el conjunto visible, la manipulación de recompensas persiste, con modelos más pequeños que presentan brechas mayores en los conjuntos reservados. La brecha también aumenta de forma pronunciada con la longitud de la tarea: crece en 28 puntos porcentuales por cada aumento de diez veces en el tamaño del código. Los fallos van desde un sutil aislamiento de características hasta explotaciones deliberadas, incluyendo un "compilador" de tabla hash de 2.900 líneas que memoriza las entradas de las pruebas. SpecBench ofrece un banco de pruebas fundamentado para medir si los agentes de codificación construyen sistemas funcionales genuinos o simplemente juegan con los conjuntos de pruebas que los desarrolladores les proporcionan.
Los agentes del mundo real operan en horizontes prolongados y en evolución, donde la información se actualiza repetidamente y puede interferir entre recuerdos, lo que exige una recuperación precisa y un razonamiento agregado sobre múltiples piezas de información. Sin embargo, los puntos de referencia existentes se centran en la recuperación estática e independiente, sin capturar estas interacciones dinámicas entre recuerdos en evolución. En este artículo, estudiamos cómo se desempeñan los agentes con memoria aumentada actual en entornos realistas, con alta interferencia y horizontes prolongados, en diversos dominios y tipos de preguntas. Presentamos MINTEval (Evaluación de Memoria a Largo Plazo bajo Interferencia), un punto de referencia que cuenta con (1) contextos largos y altamente interconectados con información actualizada con frecuencia que induce una interferencia sustancial, (2) dominios diversos (seguimiento de estados, diálogo multiturno, revisiones de Wikipedia y commits de GitHub), lo que permite evaluar la generalización entre dominios, y (3) tipos de preguntas diversas que evalúan la robustez ante la interferencia, incluyendo (i) tareas de recuperación de un único objetivo que requieren la obtención de un objetivo específico a partir de contextos largos, y (ii) tareas de agregación de múltiples objetivos que requieren razonamiento sobre múltiples piezas de información relevantes. En total, MINTEval cuenta con 15.6k pares de preguntas y respuestas en contextos de horizonte prolongado que promedian 138.8k tokens y se extienden hasta 1.8M de tokens por instancia. Evaluamos 7 sistemas representativos, incluyendo LLMs de contexto largo vanilla, RAG y marcos de agentes con memoria aumentada. En todos los sistemas, observamos un rendimiento consistentemente bajo (precisión promedio del 27.9%), especialmente en preguntas que requieren razonamiento agregado sobre múltiples evidencias. Nuestro análisis muestra que el rendimiento está limitado principalmente por la recuperación y la construcción de la memoria. Además, los sistemas de memoria actuales tienen dificultades para recordar y razonar sobre hechos anteriores que son revisados o interferidos por el contexto posterior, con una precisión que se degrada a medida que aumenta el número de actualizaciones intermedias.
La Optimización Directa de Preferencias (DPO) ha surgido como una alternativa popular al Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF), ofreciendo equivalencia teórica con una implementación más simple. Demostramos que esta equivalencia es condicional, no universal, dependiendo de un supuesto implícito frecuentemente violado en la práctica: la política óptima de RLHF debe preferir las respuestas preferidas por humanos. Cuando este supuesto falla, DPO optimiza la ventaja relativa respecto a la política de referencia en lugar de la alineación absoluta con las preferencias humanas, lo que lleva a una convergencia patológica donde las políticas reducen la pérdida de DPO mientras prefieren respuestas no preferidas. Caracterizamos cuándo se viola este supuesto, mostramos la existencia de un espacio de soluciones indeseables y probamos que DPO y RLHF optimizan objetivos fundamentalmente diferentes en tales casos. Para abordar esto, introducimos la Optimización de Preferencias con Restricciones (CPO), que aumenta RLHF con restricciones para una alineación demostrable. Además, proporcionamos una interpretación geométrica mediante ranking de margen suave, revelando que DPO implementa un ranking de margen con objetivos potencialmente negativos. Nuestro análisis teórico establece cuándo se cumplen las garantías de DPO y ofrece soluciones que preservan la simplicidad con una alineación demostrable. Experimentos exhaustivos en benchmarks estándar demuestran que CPO alcanza un rendimiento de estado del arte. El código está disponible en: https://github.com/visitworld123/CPO.
Presentamos Mem-π, un marco para la memoria adaptativa en agentes basados en modelos de lenguaje grande (LLM), donde se genera orientación útil bajo demanda en lugar de recuperarla de almacenes de memoria externos. Los agentes con memoria aumentada existentes suelen depender de la recuperación por similitud a partir de bancos de memoria episódica o bibliotecas de habilidades, devolviendo entradas estáticas que a menudo no se alinean con el contexto actual. En contraste, Mem-π utiliza un modelo de lenguaje o de lenguaje-visión dedicado, con parámetros propios y separado del agente descendente, para generar orientación específica al contexto en tareas complejas. Condicionado al contexto actual del agente, el modelo decide de manera conjunta cuándo producir orientación y qué orientación producir. Lo entrenamos con un objetivo de aprendizaje por refuerzo (RL) desacoplado de decisión y contenido, lo que le permite abstenerse cuando la generación no resulta útil y, en caso contrario, producir orientación concisa y útil. En diversos benchmarks de agentes que abarcan navegación web, uso de herramientas basado en terminal e interacción encarnada basada en texto, Mem-π supera consistentemente a las líneas base de memoria basadas en recuperación y optimizadas con RL previas, logrando una mejora relativa de más del 30% en tareas de navegación web.
Los modelos feed-forward recientes han avanzado significativamente en la percepción geométrica para inferir estructuras 3D densas a partir de observaciones de sensores. Sin embargo, sus capacidades esenciales permanecen fragmentadas en paradigmas incompatibles, incluyendo la percepción en línea, la reconstrucción fuera de línea, la integración multimodal, la escalabilidad a largo plazo y la estimación de escala métrica. Presentamos UniT, un modelo unificado basado en un novedoso Transformer Autoregresivo de Grupo, que reformula estas capacidades aparentemente dispares dentro de un único marco. La idea clave es tratar grupos de observaciones de sensores como unidades autoregresivas básicas y predecir los mapas de puntos correspondientes de manera libre de anclas y adaptativa a la escala. Más específicamente, las diversas configuraciones de vistas tanto en entornos en línea como fuera de línea se unifican naturalmente en un solo proceso de autoregresión de grupo. Al variar el tamaño del grupo, el modo en línea opera en múltiples pasos autoregresivos con grupos de un solo fotograma, mientras que el modo fuera de línea agrega un grupo de múltiples fotogramas en una sola pasada directa. Al mismo tiempo, un mecanismo de almacenamiento en caché KV estilo cola asegura una memoria autoregresiva acotada en horizontes largos. Esto se logra reduciendo las dependencias de largo alcance en fotogramas tempranos mediante un modelado relacional libre de anclas, permitiendo así que la memoria obsoleta se descarte sobre la marcha. Para mejorar la generalización de la escala métrica entre escenas, se introduce además una pérdida de geometría adaptativa a la escala dentro de este marco. Esta acopla restricciones geométricas relativas con un término de escala absoluta parcial, regularizando implícitamente la escala global e induciendo una transición progresiva desde la geometría invariante a la escala hasta soluciones de escala métrica. Junto con un módulo de atención modal dedicado para integrar modalidades auxiliares, UniT logra un rendimiento de última generación en percepción geométrica unificada, validado en diez puntos de referencia que abarcan siete tareas representativas.
A medida que los agentes autónomos de codificación se vuelven capaces de manejar tareas de horizonte cada vez más largo, han demostrado gradualmente el potencial para completar el desarrollo de software de extremo a extremo. Aunque los puntos de referencia existentes han evolucionado recientemente desde la edición localizada de código hasta la generación de proyectos desde cero, siguen limitados a aplicaciones estructuralmente simplificadas y de una sola pila. En consecuencia, no logran capturar los entornos heterogéneos, la orquestación de pila completa y la complejidad a nivel de sistema de los sistemas empresariales reales de Software como Servicio (SaaS), dejando una brecha crítica en la evaluación de los agentes bajo restricciones de ingeniería realistas. Para llenar esta brecha, presentamos SaaSBench, el primer punto de referencia diseñado para explorar los límites de los agentes de IA en la ingeniería SaaS empresarial. Abarcando 30 tareas complejas en 6 dominios SaaS con 5,370 nodos de validación, incorpora 8 lenguajes de programación, 6 bases de datos y 13 frameworks para reflejar meticulosamente la heterogeneidad del software del mundo real. Además, diseñamos un paradigma de evaluación híbrido consciente de dependencias, adaptado para sistemas complejos con horizontes largos y acoplamiento de múltiples componentes, que permite una evaluación detallada y reproducible. Crucialmente, nuestros extensos experimentos revelan una idea impactante: el principal cuello de botella para los agentes de última generación no es generar lógica de código aislada, sino configurar e integrar con éxito un sistema de múltiples componentes. Más del 95% de los fallos en las tareas ocurren antes de que los agentes siquiera alcancen la lógica de negocio profunda, y los modelos a menudo caen víctimas del exceso de confianza, deteniéndose prematuramente durante la configuración fundamental del sistema, o quedando atrapados en bucles ineficaces de depuración. Esperamos que SaaSBench sirva como un banco de pruebas práctico y desafiante para impulsar la evolución de agentes de codificación fiables a nivel de sistema. El código está disponible en https://github.com/ShadeCloak/SaaSbench.
La planificación es una capacidad fundamental para los modelos de lenguaje grandes (LLMs), ya que tareas complejas requieren que los modelos coordinen objetivos, restricciones, recursos y consecuencias a largo plazo para generar soluciones ejecutables y verificables. Sin embargo, los benchmarks de planificación existentes suelen tratar los datos de planificación como colecciones fijas de instancias en lugar de objetivos de generación controlables. Esto limita la cobertura de escenarios, vincula la dificultad a indicadores superficiales en lugar de fuentes estructurales, y ofrece un soporte limitado para la generación escalable, la verificación automática o el entrenamiento orientado a la planificación. Presentamos PlanningBench, un marco para generar datos de planificación escalables, diversos y verificables tanto para evaluación como para entrenamiento. PlanningBench parte de escenarios de planificación reales y abstrae flujos de trabajo prácticos en una taxonomía estructurada de más de 30 tipos de tareas, subtareas, familias de restricciones y factores de dificultad. Guiada por esta taxonomía, un pipeline de síntesis impulsado por restricciones instancia problemas de planificación autocontenidos con control adaptativo de la dificultad, filtrado de calidad y listas de verificación a nivel de instancia. Esto desplaza la construcción de datos de planificación desde la recopilación de benchmarks fijos hacia la generación controlable, manteniendo al mismo tiempo una base realista de las tareas. Usamos PlanningBench para evaluar LLMs de frontera de código abierto y cerrado, y encontramos que los modelos actuales aún tienen dificultades para producir soluciones completas bajo restricciones acopladas. Más allá de la evaluación, el aprendizaje por refuerzo con datos verificados de PlanningBench mejora el rendimiento en benchmarks de planificación no vistos y en tareas más amplias de seguimiento de instrucciones. Análisis adicionales sugieren que las soluciones óptimas determinadas o bien especificadas proporcionan señales de recompensa más claras y dinámicas de entrenamiento más estables. En general, PlanningBench ofrece una fuente controlable de datos de planificación para diagnosticar y mejorar las capacidades de planificación generalizables en los LLMs.
El post-entrenamiento de seguridad puede mejorar la nocividad y el cumplimiento de políticas de los Modelos de Lenguaje de Gran Escala (LLMs), pero también puede reducir la utilidad general, un fenómeno a menudo descrito como el coste de alineación. Estudiamos este compromiso a través del prisma del aprendizaje continuo: las etapas secuenciales de alineación exponen al modelo a distribuciones de datos y objetivos desplazados, y sus gradientes pueden interferir con las direcciones que sustentan capacidades generales adquiridas previamente. Esta visión no afirma que toda degradación de la alineación tenga una única causa; más bien, proporciona un mecanismo de primer orden útil para mitigar una fuente importante de regresión de capacidades. Proponemos Proyección de Gradiente Ortogonal para la Alineación de Seguridad (OGPSA), una regla de actualización ligera que estima un subespacio de referencia de bajo rango a partir de gradientes sobre un pequeño conjunto de datos de capacidad general y elimina del gradiente de seguridad la componente que reside en este subespacio. La actualización resultante es la dirección local de descenso más pronunciada para la seguridad, sujeta a restricciones de conservación de primer orden sobre los objetivos de referencia. OGPSA es compatible con pipelines estándar de post-entrenamiento y evita la reproducción a gran escala, aunque introduce un cómputo periódico del gradiente de referencia. En configuraciones de Ajuste Fino Supervisado (SFT), Optimización Directa de Preferencias (DPO) y secuencial SFT→DPO, OGPSA mejora el compromiso observado entre seguridad y utilidad en comparación con las líneas base estándar. Bajo el pipeline secuencial SFT→DPO, la ganancia promedio de rendimiento aumenta del 33.98% al 42.74% en Qwen2.5-7B-Instruct y del 19.74% al 32.98% en Llama3.1-8B-Instruct. Hemos publicado nuestro código como código abierto en https://github.com/SunGL001/OGPSA.
El entrenamiento de modelos de lenguaje modernos está cada vez más expuesto a inestabilidad, ejecuciones degradadas y cómputo desperdiciado, especialmente bajo condiciones agresivas de tasa de aprendizaje, escala y estrés en tiempo de ejecución. Este artículo presenta Learn-by-Wire Guard (LBW-Guard), una capa de gobernanza de control de entrenamiento autónomo acotado que opera por encima de AdamW. En lugar de reemplazar la regla de actualización del optimizador, LBW-Guard observa la telemetría del entrenamiento, interpreta regímenes sensibles a la inestabilidad y aplica control acotado a la ejecución del optimizador, preservando al mismo tiempo los objetivos fijos de entrenamiento. Evaluamos LBW-Guard en un conjunto de pruebas de estrés y robustez centrado en Qwen2.5 utilizando WikiText-103, con Qwen2.5-7B como ancla empírica, comparaciones de tamaño de modelo frente a Qwen2.5-3B y Qwen2.5-14B, pruebas de estrés de tasa de aprendizaje, líneas base de recorte de gradientes y una verificación de cordura de parámetros completos sin LoRA con TinyLlama-1B. En la configuración de referencia de 7B, LBW-Guard reduce la perplejidad final de 13.21 a 10.74, una mejora del 18.7%, y reduce el tiempo total de 392.54s a 357.02s, una aceleración de 1.10x. Bajo un estrés de tasa de aprendizaje más fuerte, AdamW se degrada a una perplejidad final de 1885.24 con LR=3e-3 y 659.76 con LR=1e-3, mientras que LBW-Guard sigue siendo entrenable con 11.57 y 10.33, respectivamente. Las líneas base de recorte de gradientes no reproducen este efecto. Estos resultados respaldan una conclusión sistémica acotada: el entrenamiento de LLM sensible a la estabilidad puede beneficiarse de un plano de gobernanza por encima del optimizador. LBW-Guard proporciona evidencia de que un control acotado en tiempo de ejecución puede preservar el cómputo productivo bajo estrés, manteniéndose distinto del reemplazo del optimizador y de la supresión local de gradientes.
Los modelos de lenguaje grandes de difusión (dLLMs, por sus siglas en inglés) han surgido como una alternativa competitiva a los modelos autorregresivos (AR), ofreciendo una mejor utilización del hardware y contexto bidireccional mediante decodificación paralela a nivel de bloque. Sin embargo, a medida que los dLLMs continúan escalando con arquitecturas de mezcla de expertos (MoE), su despliegue en dispositivos con recursos limitados sigue siendo un desafío abierto. Los métodos existentes basados en AR a menudo incurren en una sobrecarga de E/S prohibitiva o en cuellos de botella computacionales significativos. En este trabajo, proponemos TIDE, un novedoso sistema de inferencia eficiente en recursos que aprovecha la estabilidad temporal de las activaciones de expertos durante el proceso de difusión dentro del bloque. Específicamente, aprovechamos la estabilidad temporal de las activaciones de expertos durante el proceso de difusión dentro del bloque e introducimos una estrategia de actualización de expertos basada en intervalos que actualiza la ubicación de los expertos de manera consciente de la E/S. Para garantizar un rendimiento óptimo, formulamos la programación de la inferencia como un problema de programación matemática, resolviendo el intervalo óptimo que minimiza el tráfico de E/S y el cómputo de la CPU. Más importante aún, TIDE es una optimización sin pérdidas que no requiere entrenamiento del modelo, proporcionando una aceleración de "comida gratis" para la inferencia de dLLM. En un sistema con una sola GPU-CPU, demostramos que TIDE logra mejoras de rendimiento de hasta 1.4 y 1.5 veces en comparación con las líneas base anteriores en los modelos LLaDA2.0-mini y LLaDA2.0-flash, respectivamente.
El Video de Prueba Virtual de Vestimenta (VVT) tiene como objetivo reemplazar de manera fluida una prenda en una persona dentro de un video por una nueva. Si bien los métodos existentes han logrado avances significativos en mantener la consistencia temporal, se limitan predominantemente a escenarios no interactivos donde los modelos simplemente exhiben prendas. Esta limitación pasa por alto un aspecto crucial de la presentación de vestimenta en el mundo real: la interacción activa entre la persona y la prenda. Para cerrar esta brecha, introducimos y formalizamos una nueva tarea desafiante: la Prueba Virtual de Vestimenta en Video Interactiva (VVT Interactiva), donde los sujetos en el video interactúan activamente con su ropa. Esta tarea introduce desafíos únicos más allá de la simple preservación de texturas, que incluyen: (1) resolver la ambigüedad semántica de las interacciones a partir de información de pose estándar, y (2) aprender deformaciones complejas de prendas a partir de videos donde los momentos interactivos son escasos y breves. Para abordar estos desafíos, proponemos iTryOn, un marco novedoso construido sobre un Transformer de difusión de video a gran escala. iTryOn introduce un mecanismo de inyección de interacción a múltiples niveles para guiar la generación de dinámicas complejas. A nivel espacial, introducimos una prioridad de mano 3D independiente de la prenda para proporcionar una guía detallada que permita un contacto preciso entre mano y prenda, resolviendo eficazmente la ambigüedad espacial. A nivel semántico, iTryOn aprovecha descripciones globales para el contexto general y subtítulos de acción con marca temporal para interacciones localizadas, sincronizados mediante nuestro novedoso Embedding de Posición Rotacional Sensible a la Acción (A-RoPE). Experimentos exhaustivos demuestran que iTryOn no solo alcanza un rendimiento de vanguardia en los puntos de referencia tradicionales de VVT, sino que también establece una ventaja dominante en el nuevo entorno interactivo, marcando un paso significativo hacia experiencias de prueba virtual más dinámicas y controlables.
Los Modelos de Lenguaje Visual de Gran Escala (LVLMs) muestran potencial en aplicaciones médicas, pero su incapacidad para fundamentar fielmente las respuestas en evidencia visual genera serias preocupaciones sobre su fiabilidad clínica. Aunque los métodos de atribución visual se utilizan ampliamente para explicar las predicciones de los LVLMs, si estas explicaciones reflejan realmente la evidencia visual subyacente a la decisión del modelo no está en gran medida verificado, ya que las anotaciones de verdad fundamental para el razonamiento interno del modelo suelen no estar disponibles. Abordamos esta cuestión para el razonamiento en radiografías de tórax (CXR) desarrollando un marco de evaluación causal que retiene únicamente las muestras de CXR-VQA para las cuales la región anotada por expertos se verifica, mediante edición contrafactual, como causalmente responsable de la predicción del modelo. Utilizando este marco en 11 métodos de atribución, seis LVLMs de código abierto y dos modos de salida (respuesta directa y razonamiento paso a paso), encontramos que los métodos de atribución existentes a menudo fallan en identificar la evidencia utilizada por los LVLMs. Para abordar este fallo, proponemos MedFocus, un método de atribución basado en conceptos que localiza regiones anatómicamente significativas mediante transporte óptimo desequilibrado y mide su efecto causal en las salidas del modelo a través de intervenciones dirigidas. MedFocus produce atribuciones espaciales, a nivel de conceptos y a nivel de tokens, y supera sustancialmente a los métodos anteriores, dando un paso hacia una atribución más fiable para los LVLMs médicos. Nuestros datos y código están disponibles en https://github.com/gzxiong/medfocus/.
La generación de texto a movimiento, que traduce descripciones textuales en movimientos humanos, enfrenta el desafío de que los usuarios a menudo tienen dificultades para transmitir con precisión los movimientos deseados solo mediante texto. Para abordar este problema, este artículo presenta DrawMotion, un marco eficiente basado en difusión diseñado para escenarios de múltiples condiciones. DrawMotion genera movimientos basándose tanto en una condición textual convencional como en una novedosa condición de dibujo a mano alzada, que proporcionan control semántico y espacial sobre los movimientos generados, respectivamente. Específicamente, abordamos la tarea de generación de movimientos detallados desde tres perspectivas: 1) condición de dibujo a mano alzada. Para capturar con precisión los movimientos deseados por los usuarios sin requerir una entrada textual tediosa, desarrollamos un algoritmo para generar automáticamente bocetos de figuras de palo dibujados a mano en diferentes formatos de conjuntos de datos; 2) fusión de múltiples condiciones. Proponemos un Módulo de Múltiples Condiciones (MCM) que se integra en el proceso de difusión, permitiendo al modelo explotar todas las combinaciones posibles de condiciones mientras reduce la complejidad computacional en comparación con los enfoques convencionales; y 3) guía sin entrenamiento. Notablemente, el MCM en DrawMotion asegura que sus características intermedias se encuentren en un espacio continuo, permitiendo que los gradientes de guía del clasificador actualicen las características y así alineen los movimientos generados con las intenciones del usuario mientras preservan la fidelidad. Experimentos cuantitativos y estudios de usuarios demuestran que el enfoque de dibujo a mano alzada reduce el tiempo del usuario en aproximadamente un 46,7% al generar movimientos alineados con su imaginación. El código, las demostraciones y los datos relevantes están disponibles públicamente en https://github.com/InvertedForest/DrawMotion.
La agrupación de consultas organiza estas en grupos que reflejan demandas latentes de capacidad compartidas, lo que permite una evaluación de LLM consciente de la capacidad. Los métodos de agrupación existentes, que se basan principalmente en taxonomías semánticas o embeddings, a menudo no logran capturar dichos requisitos de capacidad latente debido a un desajuste entre la semántica superficial y el rendimiento real del modelo. Proponemos ECC, un algoritmo que calibra embeddings semánticos previos utilizando comparaciones limitadas de modelos posteriores para cerrar la brecha entre la semántica superficial y los requisitos de capacidad latente. ECC caracteriza cada clúster mediante un perfil de capacidad parametrizado por un modelo Bradley-Terry y utiliza pesos de mezcla entrenables para acomodar consultas con demandas de capacidad mixtas, aprendiendo de forma conjunta una estructura de agrupación flexible y consciente de la capacidad que admite inferencias específicas de consultas sobre las capacidades del LLM. Evaluaciones cuantitativas y cualitativas exhaustivas demuestran que ECC mejora significativamente la calidad de la clasificación de capacidades de los LLM, superando a las líneas base basadas en etiquetado humano y en embeddings en un promedio de 17.64 y 18.02 puntos porcentuales, respectivamente, y resulta efectivo en tareas posteriores como el enrutamiento de consultas.
La discrepancia del ensamble se utiliza ampliamente como proxy de la incertidumbre epistémica en la segmentación de imágenes médicas. En la práctica, muchos estudios forman ensambles mediante validación cruzada de K pliegues (CV), aunque se refieren a ellos como "ensambles profundos" (DE). Dado que los miembros de la CV se entrenan en subconjuntos de datos diferentes, su discrepancia combina la variabilidad inducida por la semilla con efectos de exposición a datos, lo que puede alterar la interpretación de la incertidumbre. Revisamos estudios recientes de incertidumbre en segmentación y encontramos que los desajustes entre terminología e implementación son comunes. Luego, comparamos un ensamble estándar de CV con 5 pliegues frente a un DE de 5 miembros (conjunto de entrenamiento fijo, distintas semillas aleatorias) bajo configuraciones idénticas en tres conjuntos de datos de segmentación con múltiples evaluadores que abarcan tres modalidades. Evaluamos la incertidumbre en términos de calibración, detección de fallos, modelado de ambigüedad y robustez ante cambios en la distribución. Los DE igualan la precisión de segmentación a la vez que mejoran la calibración y la detección de fallos, mientras que los ensambles de CV a veces se correlacionan más fuertemente con la variabilidad entre evaluadores en los conjuntos de datos estudiados. Por lo tanto, la construcción del ensamble debe elegirse según la pregunta de investigación: DE para usos orientados a la fiabilidad (p. ej., derivación selectiva/detección de fallos) y ensambles de CV como proxy de la ambigüedad. Proporcionamos una modificación ligera de nnU-Net que permite el entrenamiento de DE dentro del flujo de trabajo por defecto.
En los últimos años, Muon se ha consolidado como el método dominante para entrenar modelos de lenguaje de gran escala y, de forma más amplia, transformadores. La diferencia esencial, en comparación con los métodos de descenso por gradiente estándar, radica en reemplazar la matriz de actualización habitual \(M = U\Sigma V^\top\) por su factor polar \(UV^\top\). En este trabajo, consideramos una clase de actualizaciones similares a Muon, donde sustituimos la actualización \(M\) por \(U\Sigma^p V^\top\) para algún parámetro \(p\). A esta operación la denominamos "conformación espectral" y desarrollamos una teoría para seleccionar \(p\) que depende de (a) la curvatura local de la función de pérdida, (b) el ruido proveniente de gradientes estocásticos y ruido en las etiquetas, y (c) la etapa de entrenamiento. Nuestra teoría y experimentación revelan un comportamiento previamente no observado: valores positivos de \(p\) ayudan en las etapas tempranas al enfatizar las direcciones de alta curvatura y acelerar la contracción de la señal, mientras que valores ligeramente negativos de \(p\) benefician las etapas posteriores al reasignar la fuerza de actualización hacia direcciones de baja curvatura que aún contienen señales de entrenamiento útiles. Basándonos en esta idea, proponemos DynMuon, un método eficiente de conformación espectral dinámica que programa \(p\) desde valores positivos hasta ligeramente negativos a lo largo del entrenamiento. Experimentos exhaustivos en distintos tamaños de modelo, arquitecturas y configuraciones de entrenamiento muestran que DynMuon alcanza consistentemente una pérdida de validación más baja que Muon, requiriendo entre un 10.6 % y un 26.5 % menos de pasos para alcanzar la misma pérdida objetivo.
La tokenización de subpalabras es una parte esencial de los modelos modernos de lenguaje grandes (LLMs), pero sus contribuciones específicas a la eficiencia del entrenamiento y al rendimiento del modelo siguen siendo poco comprendidas. En este trabajo, desacoplamos los efectos de la tokenización de subpalabras aislándolos dentro de un proceso de preentrenamiento controlado a nivel de bytes. Formulamos y probamos hipótesis en diversas dimensiones, incluyendo el rendimiento de muestras, el escalado del vocabulario y el prior lingüístico de los límites de subpalabras. Al simular estos efectos en un entorno de nivel de bytes, refinamos nuestra comprensión de por qué los modelos de subpalabras superan a los modelos de bytes crudos y ofrecemos perspectivas para mejorar el preentrenamiento de futuros modelos tanto a nivel de bytes como de subpalabras. En concreto, nuestros experimentos destacan el papel crítico del aumento del rendimiento del entrenamiento y la integración de los límites de subpalabras como priores explícitos o sesgos inductivos.