Artículos de investigación en IA seleccionados diariamente con traducciones
Muchos métodos de atención dispersa sin entrenamiento son efectivos para acelerar los modelos de difusión. Recientemente, varios trabajos sugieren que hacer que la atención dispersa sea entrenable puede aumentar aún más la dispersión preservando la calidad de la generación. Estudiamos tres preguntas clave: (1) ¿cuándo fallan las dos reglas de enmascaramiento comunes, es decir, Top-k y Top-p, y cómo podemos evitar estas fallas? (2) ¿por qué la atención dispersa entrenable puede alcanzar una dispersión mayor que los métodos sin entrenamiento? (3) ¿cuáles son las limitaciones de afinar la atención dispersa utilizando la pérdida de difusión, y cómo podemos abordarlas? Basándonos en este análisis, proponemos SpargeAttention2, un método de atención dispersa entrenable que logra una alta dispersión sin degradar la calidad de la generación. SpargeAttention2 incluye (i) una regla de enmascaramiento híbrida que combina Top-k y Top-p para un enmascaramiento más robusto con alta dispersión, (ii) una implementación eficiente de atención dispersa entrenable, y (iii) un objetivo de ajuste fino inspirado en la destilación para preservar mejor la calidad de la generación durante el ajuste fino utilizando atención dispersa. Los experimentos en modelos de difusión de video muestran que SpargeAttention2 alcanza un 95% de dispersión de atención y una aceleración de la atención de 16.2x manteniendo la calidad de la generación, superando consistentemente a los métodos de atención dispersa anteriores.
Presentamos Unified Latents (UL), un marco para aprender representaciones latentes que están regularizadas conjuntamente por un prior de difusión y decodificadas por un modelo de difusión. Al vincular el ruido de salida del codificador con el nivel mínimo de ruido del prior, obtenemos un objetivo de entrenamiento simple que proporciona un límite superior ajustado para la tasa de bits latente. En ImageNet-512, nuestro enfoque logra un FID competitivo de 1.4, con alta calidad de reconstrucción (PSNR) mientras requiere menos FLOPs de entrenamiento que los modelos entrenados en latentes de Stable Diffusion. En Kinetics-600, establecemos un nuevo estado del arte con un FVD de 1.3.
El artículo presenta GUI-Owl-1.5, el último modelo de agente nativo para interfaces gráficas de usuario (GUI) que incluye variantes de instrucción/razonamiento en múltiples tamaños (2B/4B/8B/32B/235B) y admite una variedad de plataformas (escritorio, móvil, navegador y más) para permitir la colaboración cloud-edge y la interacción en tiempo real. GUI-Owl-1.5 logra resultados de vanguardia en más de 20 benchmarks de GUI en modelos de código abierto: (1) en tareas de automatización de GUI, obtiene 56.5 en OSWorld, 71.6 en AndroidWorld y 48.4 en WebArena; (2) en tareas de grounding, obtiene 80.3 en ScreenSpotPro; (3) en tareas de llamada a herramientas, obtiene 47.6 en OSWorld-MCP y 46.8 en MobileWorld; (4) en tareas de memoria y conocimiento, obtiene 75.5 en GUI-Knowledge Bench. GUI-Owl-1.5 incorpora varias innovaciones clave: (1) Rueda de datos híbrida: construimos la canalización de datos para la comprensión de IU y la generación de trayectorias basada en una combinación de entornos simulados y entornos sandbox basados en la nube, para mejorar la eficiencia y calidad de la recolección de datos. (2) Mejora unificada de capacidades del agente: utilizamos una canalización unificada de síntesis de pensamiento para mejorar las capacidades de razonamiento del modelo, mientras hacemos especial hincapié en mejorar habilidades clave del agente, incluyendo el uso de herramientas/MCP, la memoria y la adaptación multiagente; (3) Escalado RL en entornos multiplataforma: Proponemos un nuevo algoritmo RL de entorno, MRPO, para abordar los desafíos de los conflictos multiplataforma y la baja eficiencia de entrenamiento en tareas de horizonte largo. Los modelos GUI-Owl-1.5 son de código abierto, y hay una demostración online de sandbox en la nube disponible en https://github.com/X-PLUG/MobileAgent.
Los asistentes de IA agenticos que realizan autónomamente tareas de múltiples pasos plantean interrogantes abiertos para la experiencia de usuario: ¿cómo deben estos sistemas comunicar el progreso y el razonamiento durante operaciones prolongadas, especialmente en contextos que requieren atención crítica como la conducción? Investigamos el momento y la verbosidad de la retroalimentación de asistentes agenticos basados en LLM para vehículos mediante un estudio controlado de métodos mixtos (N=45) que compara la retroalimentación sobre pasos planificados y resultados intermedios frente a una operación silenciosa con solo respuesta final. Utilizando un paradigma de doble tarea con un asistente de voz en el vehículo, encontramos que la retroalimentación intermedia mejoró significativamente la velocidad percibida, la confianza y la experiencia de usuario, al tiempo que redujo la carga de trabajo, efectos que se mantuvieron en distintas complejidades de tareas y contextos de interacción. Las entrevistas revelaron además una preferencia de los usuarios por un enfoque adaptativo: alta transparencia inicial para establecer confianza, seguida de una reducción progresiva de la verbosidad a medida que los sistemas demuestran ser confiables, con ajustes basados en la importancia de la tarea y el contexto situacional. Traducimos nuestros hallazgos empíricos en implicaciones de diseño para el momento y la verbosidad de la retroalimentación en asistentes agenticos, equilibrando transparencia y eficiencia.
Los LLM se utilizan cada vez más para problemas complejos que no necesariamente se resuelven en una sola respuesta, sino que requieren interactuar con un entorno para adquirir información. En estos escenarios, los LLM deben razonar sobre las compensaciones inherentes entre costo e incertidumbre para decidir cuándo dejar de explorar y comprometerse con una respuesta. Por ejemplo, en una tarea de programación, un LLM debería probar un fragmento de código generado si tiene dudas sobre su corrección; el costo de escribir una prueba no es cero, pero normalmente es menor que el costo de cometer un error. En este trabajo, demostramos que podemos inducir a los LLM a razonar explícitamente sobre cómo equilibrar estas compensaciones entre costo e incertidumbre, para luego realizar una exploración del entorno más óptima. Formalizamos múltiples tareas, incluyendo la recuperación de información y la codificación, como problemas de toma de decisiones secuenciales bajo incertidumbre. Cada problema tiene un estado del entorno latente sobre el que se puede razonar mediante un *prior* que se pasa al agente LLM. Introducimos un marco llamado *Calibrate-Then-Act* (CTA), donde proporcionamos al LLM este contexto adicional para permitirle actuar de manera más óptima. Esta mejora se mantiene incluso bajo entrenamiento por RL tanto de la línea base como de CTA. Nuestros resultados en QA de búsqueda de información y en una tarea de codificación simplificada muestran que hacer explícitas las compensaciones costo-beneficio con CTA puede ayudar a los agentes a descubrir estrategias de toma de decisiones más óptimas.
Las demostraciones humanas recogidas por dispositivos portátiles (por ejemplo, guantes táctiles) proporcionan una supervisión rápida y diestra para el aprendizaje de políticas, guiadas por una retroalimentación táctil natural y rica. Sin embargo, un desafío clave es cómo transferir las señales táctiles recogidas por humanos a los robots a pesar de las diferencias en las modalidades de detección y la encarnación. Los enfoques existentes de humano a robot (H2R) que incorporan el tacto a menudo asumen sensores táctiles idénticos, requieren datos emparejados e implican poca o ninguna brecha de encarnación entre el demostrador humano y los robots, lo que limita la escalabilidad y la generalidad. Proponemos TactAlign, un método de alineación táctil de encarnación cruzada que transfiere señales táctiles recogidas por humanos a un robot con diferente encarnación. TactAlign transforma las observaciones táctiles humanas y del robot en una representación latente compartida utilizando un flujo rectificado, sin necesidad de conjuntos de datos emparejados, etiquetas manuales o información privilegiada. Nuestro método permite un transporte latente de bajo costo guiado por pseudo-pares derivados de la interacción mano-objeto. Demostramos que TactAlign mejora la transferencia de políticas H2R en múltiples tareas con contacto rico (pivote, inserción, cierre de tapa), generaliza a objetos y tareas no vistos con datos humanos (menos de 5 minutos) y permite la transferencia H2R de cero disparos en una tarea altamente diestra (atornillado de bombilla).
Presentamos el informe técnico de Arcee Trinity Large, un modelo disperso de Mixture-of-Experts con 400.000 millones de parámetros totales y 13.000 millones activados por token. Adicionalmente, reportamos sobre Trinity Nano y Trinity Mini, donde Trinity Nano posee 6.000 millones de parámetros totales con 1.000 millones activados por token, y Trinity Mini cuenta con 26.000 millones de parámetros totales y 3.000 millones activados por token. La arquitectura moderna de los modelos incluye atención entrelazada local y global, atención con mecanismo de compuerta, normalización sandwich escalada por profundidad y enrutamiento sigmoide para Mixture-of-Experts. Para Trinity Large, también introducimos una nueva estrategia de balanceo de carga para MoE denominada Actualizaciones de Sesgo del Experto con Momento y Sujeción Suave (SMEBU). Entrenamos los modelos utilizando el optimizador Muon. Los tres modelos completaron su entrenamiento sin picos de pérdida. Trinity Nano y Trinity Mini fueron preentrenados en 10 billones de tokens, y Trinity Large fue preentrenado en 17 billones de tokens. Los checkpoints del modelo están disponibles en https://huggingface.co/arcee-ai.
Los Transformadores de Difusión (DiT) han logrado un rendimiento de vanguardia en generación de imágenes y video, pero su éxito conlleva un alto costo computacional. Esta ineficiencia se debe en gran medida al proceso de tokenización fijo, que utiliza parches de tamaño constante durante toda la fase de eliminación de ruido, independientemente de la complejidad del contenido. Proponemos una tokenización dinámica, una estrategia eficiente en tiempo de prueba que varía el tamaño de los parches según la complejidad del contenido y el paso temporal de eliminación de ruido. Nuestra idea clave es que los pasos temporales iniciales solo requieren parches más gruesos para modelar la estructura global, mientras que las iteraciones posteriores demandan parches más finos (de menor tamaño) para refinar los detalles locales. Durante la inferencia, nuestro método reasigna dinámicamente los tamaños de parche a lo largo de los pasos de eliminación de ruido para la generación de imágenes y video, reduciendo sustancialmente el costo mientras preserva la calidad perceptual de la generación. Experimentos exhaustivos demuestran la efectividad de nuestro enfoque: logra aceleraciones de hasta 3.52x y 3.2x en FLUX-1.Dev y Wan 2.1, respectivamente, sin comprometer la calidad de generación ni la adherencia al prompt.
Para comprender e identificar los riesgos sin precedentes que plantean los modelos de inteligencia artificial (IA) de rápido avance, el *Marco de Gestión de Riesgos de IA de Frontera en la Práctica* presenta una evaluación integral de sus riesgos de frontera. A medida que las capacidades generales de los Modelos de Lenguaje a Gran Escala (LLMs) evolucionan rápidamente y se prolifera la IA agentiva, esta versión del informe técnico de análisis de riesgos presenta una evaluación actualizada y granular de cinco dimensiones críticas: ofensiva cibernética, persuasión y manipulación, engaño estratégico, investigación y desarrollo (I+D) de IA no controlada, y autorreplicación. Específicamente, introducimos escenarios más complejos para la ofensiva cibernética. Para la persuasión y manipulación, evaluamos el riesgo de la persuasión entre LLMs en modelos de lenguaje recién lanzados. Para el engaño estratégico y la maquinación, añadimos un nuevo experimento respecto a la desalineación emergente. Para la I+D de IA no controlada, nos centramos en la "mala evolución" de los agentes a medida que expanden autónomamente sus sustratos de memoria y conjuntos de herramientas. Además, también monitoreamos y evaluamos el rendimiento en seguridad de OpenClaw durante la interacción en Moltbook. Para la autorreplicación, introducimos un nuevo escenario con restricciones de recursos. Más importante aún, proponemos y validamos una serie de estrategias de mitigación robustas para abordar estas amenazas emergentes, proporcionando una vía técnica y accionable preliminar para el despliegue seguro de la IA de frontera. Este trabajo refleja nuestra comprensión actual de los riesgos de frontera de la IA e insta a una acción colectiva para mitigar estos desafíos.
Si bien los modelos de lenguaje grandes de vanguardia demuestran sólidas capacidades de razonamiento y matemáticas, el proceso práctico de entrenar modelos de lenguaje científicos especializados a partir de fuentes primarias sigue estando poco documentado. En este trabajo, presentamos un estudio de caso detallado del entrenamiento de un modelo de lenguaje científico de 1.36B de parámetros directamente a partir de fuentes primarias en LaTeX de arXiv, abarcando matemáticas, ciencias de la computación y física teórica. Describimos un proceso integral que cubre la filtración de metadatos, validación de archivos, extracción de LaTeX, normalización de texto, tokenización con conocimiento del dominio y entrenamiento de transformadores densos bajo recursos computacionales limitados (2 GPUs A100). A través de 24 ejecuciones experimentales, analizamos la estabilidad del entrenamiento, el comportamiento de escalado, las pérdidas en el rendimiento de datos y los cuellos de botella en la infraestructura. Nuestros hallazgos destacan cómo las decisiones de preprocesamiento afectan significativamente el volumen utilizable de tokens, cómo la tokenización impacta la estabilidad simbólica, y cómo las limitaciones de almacenamiento y E/S pueden rivalizar con el cómputo como factores limitantes. Analizamos además la dinámica de convergencia y mostramos un comportamiento estable del entrenamiento en un régimen de datos abundantes (52B tokens de preentrenamiento). En lugar de proponer una arquitectura novedosa, este trabajo proporciona un relato transparente y basado en la ingeniería del entrenamiento de un modelo de lenguaje científico pequeño desde cero. Esperamos que estas perspectivas sirvan de apoyo a investigadores que operan con presupuestos computacionales moderados y buscan construir modelos especializados en dominios.
Gran parte del avance del Aprendizaje por Refuerzo Multiagente (MARL) en juegos de información imperfecta ha dependido históricamente del refinamiento iterativo manual de líneas base. Si bien familias fundacionales como la Minimización de Arrepentimiento Contrafactual (CFR) y los Oráculos de Respuesta en el Espacio de Políticas (PSRO) se asientan sobre bases teóricas sólidas, el diseño de sus variantes más efectivas a menudo depende de la intuición humana para navegar un vasto espacio de diseño algorítmico. En este trabajo, proponemos el uso de AlphaEvolve, un agente de codificación evolutiva impulsado por modelos de lenguaje grandes, para descubrir automáticamente nuevos algoritmos de aprendizaje multiagente. Demostramos la generalidad de este marco evolucionando variantes novedosas para dos paradigmas distintos de aprendizaje teórico de juegos. Primero, en el dominio de la minimización iterativa de arrepentimiento, evolucionamos la lógica que gobierna la acumulación de arrepentimiento y la derivación de políticas, descubriendo un nuevo algoritmo: CFR con Descuento Adaptativo a la Volatilidad (VAD-CFR). VAD-CFR emplea mecanismos nuevos y no intuitivos —que incluyen un descuento sensible a la volatilidad, un optimismo forzado a la consistencia y un programa de acumulación de políticas de inicio en caliente estricto— para superar a líneas base de última generación como Discounted Predictive CFR+. En segundo lugar, en el régimen de algoritmos de entrenamiento basados en población, evolucionamos solucionadores de metaestrategias en tiempo de entrenamiento y evaluación para PSRO, descubriendo una nueva variante: PSRO con Arrepentimiento Optimista Híbrido Suavizado (SHOR-PSRO). SHOR-PSRO introduce un meta-solucionador híbrido que combina linealmente la Emparejamiento de Arrepentimiento Optimista con una distribución suavizada y controlada por temperatura sobre las mejores estrategias puras. Al reducir progresivamente este factor de mezcla y las bonificaciones de diversidad durante el entrenamiento, el algoritmo automatiza la transición desde la diversidad de la población hacia una búsqueda rigurosa del equilibrio, logrando una convergencia empírica superior en comparación con los meta-solucionadores estáticos estándar.
Dotar a los modelos VLA de la capacidad de predecir dinámicas ambientales, conocido como modelado del mundo, ha sido reconocido como esencial para mejorar el razonamiento y la generalización robóticos. Sin embargo, los enfoques actuales enfrentan dos problemas principales: 1. El objetivo de entrenamiento obliga a los modelos a enfatizar excesivamente la reconstrucción a nivel de píxeles, lo que restringe el aprendizaje semántico y la generalización. 2. La dependencia de observaciones futuras predichas durante la inferencia a menudo conduce a una acumulación de errores. Para abordar estos desafíos, presentamos Future Representation Alignment via Parallel Progressive Expansion (FRAPPE). Nuestro método adopta una estrategia de ajuste fino en dos etapas: En la fase de entrenamiento intermedio, el modelo aprende a predecir las representaciones latentes de observaciones futuras; En la fase de post-entrenamiento, expandimos la carga computacional en paralelo y alineamos la representación simultáneamente con múltiples modelos visuales base diferentes. Al mejorar significativamente la eficiencia del ajuste fino y reducir la dependencia de datos anotados con acciones, FRAPPE proporciona una vía escalable y eficiente en datos para mejorar la conciencia del mundo en políticas robóticas generalistas. Los experimentos en el benchmark RoboTwin y en tareas del mundo real demuestran que FRAPPE supera a los enfoques de vanguardia y muestra una fuerte generalización en escenarios de horizonte largo y no vistos.
Presentamos un análisis exhaustivo de cómo las redes neuronales de dos capas aprenden características para resolver la tarea de suma modular. Nuestro trabajo proporciona una interpretación mecanicista completa del modelo aprendido y una explicación teórica de su dinámica de entrenamiento. Si bien trabajos previos han identificado que las neuronas individuales aprenden características de Fourier de frecuencia única y alineación de fase, no explican completamente cómo estas características se combinan en una solución global. Cerramos esta brecha formalizando una condición de diversificación que emerge durante el entrenamiento cuando hay sobreparametrización, consistente en dos partes: simetría de fase y diversificación de frecuencias. Demostramos que estas propiedades permiten a la red aproximar colectivamente una función indicadora defectuosa de la lógica correcta para la tarea de suma modular. Aunque las neuronas individuales producen señales ruidosas, la simetría de fase permite un esquema de votación por mayoría que cancela el ruido, permitiendo a la red identificar robustamente la suma correcta. Además, explicamos la emergencia de estas características bajo inicialización aleatoria mediante un mecanismo de "boleto ganador" (lottery ticket). Nuestro análisis del flujo de gradiente demuestra que las frecuencias compiten dentro de cada neurona, determinándose el "ganador" por su magnitud espectral inicial y su alineación de fase. Desde un punto de vista técnico, proporcionamos una caracterización rigurosa de la dinámica de acoplamiento de fases por capas y formalizamos el panorama competitivo utilizando el lema de comparación de EDOs. Finalmente, utilizamos estas ideas para desmitificar el "grokking", caracterizándolo como un proceso de tres etapas que implica memorización seguida de dos fases de generalización, impulsado por la competencia entre la minimización de la pérdida y la decadencia de pesos (weight decay).
Los agentes que operan en entornos de software complejos se benefician de razonar sobre las consecuencias de sus acciones, ya que incluso una única operación incorrecta en la interfaz de usuario (UI) puede descarrilar flujos de trabajo largos que preservan artefactos. Este desafío es particularmente agudo en escenarios de uso informático, donde la ejecución real no admite la exploración contrafáctica, haciendo que el aprendizaje y la planificación a gran escala por prueba y error sean impracticables, a pesar de que el entorno es completamente digital y determinista. Presentamos el Modelo de Mundo para Uso Informático (CUWM), un modelo mundial para software de escritorio que predice el siguiente estado de la UI dado el estado actual y una acción candidata. El CUWM adopta una factorización en dos etapas de la dinámica de la UI: primero predice una descripción textual de los cambios de estado relevantes para el agente, y luego materializa estos cambios visualmente para sintetizar la siguiente captura de pantalla. El CUWM se entrena con transiciones de UI recopiladas offline de agentes que interactúan con aplicaciones reales de Microsoft Office, y se refina further con una etapa ligera de aprendizaje por refuerzo que alinea las predicciones textuales de transición con los requisitos estructurales de los entornos informáticos. Evaluamos el CUWM mediante búsqueda de acciones en tiempo de prueba, donde un agente congelado utiliza el modelo mundial para simular y comparar acciones candidatas antes de la ejecución. En una variedad de tareas de Office, la escalación en tiempo de prueba guiada por el modelo mundial mejora la calidad de la decisión y la robustez de la ejecución.
Un desafío central en la edición de modelos de lenguaje grandes (LLM) es la preservación de capacidades: los métodos que logran cambiar el comportamiento objetivo pueden alterar silenciosamente el proxy de edición y corromper las capacidades generales, produciendo comportamientos degenerados que recuerdan al *hacking* de proxies/recompensas. Presentamos CrispEdit, un algoritmo de edición escalable y fundamentado de segundo orden que trata la preservación de capacidades como una restricción explícita, unificando y generalizando varios enfoques de edición existentes. CrispEdit formula la edición como una optimización con restricciones y aplica dicha restricción proyectando las actualizaciones de la edición en el subespacio de baja curvatura del panorama de pérdida de capacidades. La clave de CrispEdit es expresar la restricción de capacidad mediante la divergencia de Bregman, cuya forma cuadrática proporciona exactamente el Hessiano de Gauss-Newton, incluso cuando el modelo base no está entrenado hasta la convergencia. Hacemos este procedimiento de segundo orden eficiente a escala LLM utilizando curvatura aproximada factorizada con Kronecker (K-FAC) y un nuevo proyector *matrix-free* que explota la estructura de Kronecker para evitar la construcción de matrices de proyección masivas. En varios puntos de referencia estándar de edición de modelos, CrispEdit logra un alto éxito de edición manteniendo la degradación de capacidades por debajo del 1% en promedio en todos los conjuntos de datos, mejorando significativamente respecto a editores anteriores.
Los transformadores de atención lineal se han convertido en una alternativa sólida a la atención softmax debido a su eficiencia. Sin embargo, la atención lineal tiende a ser menos expresiva y produce una precisión reducida en comparación con la atención softmax. Para reducir la brecha de precisión entre la atención softmax y la atención lineal, manipulamos Mamba-2, una variante de atención lineal muy potente. Primero simplificamos Mamba-2 hasta sus componentes más fundamentales e importantes, evaluando qué elecciones específicas la hacen más precisa. A partir de esta variante simplificada de Mamba (Mamba-2S), mejoramos la máscara A y aumentamos el orden del estado oculto, lo que da como resultado un método, que llamamos 2Mamba, que es casi tan preciso como la atención softmax, pero mucho más eficiente en memoria para longitudes de contexto largas. También investigamos los elementos de Mamba-2 que ayudan a superar la precisión de la atención softmax. Se proporciona código para todos nuestros experimentos.
Los Modelos de Lenguaje Grandes (LLM) han demostrado recientemente fuertes capacidades de razonamiento y generalización, lo que motiva su uso como políticas de toma de decisiones en entornos complejos. StarCraft II (SC2), con su enorme espacio de estados-acciones y observabilidad parcial, constituye un campo de pruebas desafiante. Sin embargo, los agentes de SC2 basados en LLM existentes se centran principalmente en mejorar la política en sí y pasan por alto la integración de un modelo de transición aprendible y condicionado por acciones en el bucle de decisión. Para cerrar esta brecha, proponemos StarWM, el primer modelo del mundo para SC2 que predice observaciones futuras bajo observabilidad parcial. Para facilitar el aprendizaje de la dinámica híbrida de SC2, introducimos una representación textual estructurada que factoriza las observaciones en cinco módulos semánticos, y construimos SC2-Dynamics-50k, el primer conjunto de datos de ajuste por instrucciones para la predicción de dinámicas de SC2. Además, desarrollamos un marco de evaluación offline multidimensional para las observaciones estructuradas predichas. Los resultados offline muestran las ganancias sustanciales de StarWM sobre los baselines de cero disparos, incluyendo mejoras de casi el 60% en la precisión de predicción de recursos y en la consistencia de la macro-situación del propio bando. Finalmente, proponemos StarWM-Agent, un sistema de decisión aumentado por un modelo del mundo que integra StarWM en un bucle de decisión Generar-Simular-Refinar para un refinamiento de la política impulsado por la previsión. La evaluación online contra la IA integrada de SC2 demuestra mejoras consistentes, produciendo ganancias en la tasa de victorias del 30%, 15% y 30% contra los niveles Difícil (NV5), Más Difícil (NV6) y Muy Difícil (NV7), respectivamente, junto con una mayor estabilidad en la macrogestión y una mejor evaluación del riesgo táctico.
A pesar del rápido progreso en los agentes web autónomos, la participación humana sigue siendo esencial para moldear preferencias y corregir el comportamiento del agente a medida que las tareas se desarrollan. Sin embargo, los sistemas agentivos actuales carecen de una comprensión fundamentada de cuándo y por qué los humanos intervienen, a menudo procediendo de forma autónoma más allá de puntos de decisión críticos o solicitando confirmaciones innecesarias. En este trabajo, presentamos la tarea de modelar la intervención humana para apoyar la ejecución colaborativa de tareas web. Recopilamos CowCorpus, un conjunto de datos de 400 trayectorias de navegación web de usuarios reales que contiene más de 4.200 acciones intercaladas de humanos y agentes. Identificamos cuatro patrones distintos de interacción del usuario con los agentes: supervisión pasiva, supervisión activa, resolución colaborativa de tareas y toma de control completa por parte del usuario. Aprovechando estas observaciones, entrenamos modelos de lenguaje (LM) para anticipar cuándo es probable que los usuarios intervengan según sus estilos de interacción, logrando una mejora del 61.4-63.4% en la precisión de la predicción de intervenciones sobre los LM base. Finalmente, implementamos estos modelos conscientes de la intervención en agentes de navegación web en vivo y los evaluamos en un estudio de usuarios, encontrando un aumento del 26.5% en la utilidad del agente valorada por los usuarios. En conjunto, nuestros resultados demuestran que el modelado estructurado de la intervención humana conduce a agentes más adaptativos y colaborativos.
Presentamos NESSiE, el benchmark de Seguridad NEcesaria para modelos de lenguaje grandes (LLM). Con casos de prueba mínimos de seguridad de la información y del acceso, NESSiE revela fallos relevantes para la seguridad que no deberían existir, dada la baja complejidad de las tareas. NESSiE está concebido como una verificación de cordura ligera y fácil de usar para la seguridad de los modelos de lenguaje y, como tal, no es suficiente para garantizar la seguridad en general, pero sostenemos que superar esta prueba es necesario para cualquier despliegue. Sin embargo, incluso los LLM más avanzados no alcanzan el 100% en NESSiE y, por lo tanto, no cumplen nuestra condición necesaria de seguridad para modelos de lenguaje, incluso en ausencia de ataques adversarios. Nuestra métrica Seguro y Útil (SH, por Safe & Helpful) permite una comparación directa de los dos requisitos, mostrando que los modelos están sesgados hacia ser útiles en lugar de seguros. Además, encontramos que la desactivación del razonamiento en algunos modelos, y especialmente un contexto de distracción benigno, degrada el rendimiento del modelo. En general, nuestros resultados subrayan los riesgos críticos de desplegar dichos modelos como agentes autónomos en entornos reales. Ponemos a disposición del público el conjunto de datos, el paquete y el código de visualización.
Los Modelos de Visión-Lenguaje-Acción (VLA) han surgido como un paradigma clave de la Inteligencia Artificial Física y se despliegan cada vez más en vehículos autónomos, robots y espacios inteligentes. En estos entornos con recursos limitados en el dispositivo, seleccionar un modelo de lenguaje grande (LLM) base adecuado es un desafío crítico: los modelos deben equilibrar la precisión con restricciones estrictas de latencia de inferencia y eficiencia de hardware. Esto convierte a la codiseño hardware-software en un requisito transformador para el despliegue de LLMs en el dispositivo, donde cada plataforma de hardware exige una solución arquitectónica personalizada. Proponemos una ley de codiseño hardware que captura conjuntamente la precisión del modelo y el rendimiento de inferencia. Específicamente, modelamos la pérdida de entrenamiento como una función explícita de los hiperparámetros arquitectónicos y caracterizamos la latencia de inferencia mediante modelos de límite máximo (roofline). Evaluamos empíricamente 1.942 arquitecturas candidatas en NVIDIA Jetson Orin, entrenando 170 modelos seleccionados con 10B de tokens cada uno para ajustar una ley de escalado que relaciona la arquitectura con la pérdida de entrenamiento. Al acoplar esta ley de escalado con el modelado de latencia, establecemos una correspondencia directa precisión-latencia e identificamos la frontera de Pareto para LLMs con codiseño hardware. Además, formulamos la búsqueda de arquitectura como una optimización conjunta de precisión y rendimiento, derivando regiones de diseño factibles bajo presupuestos industriales de hardware y aplicación. Nuestro enfoque reduce la selección de arquitectura de meses a días. Con la misma latencia que Qwen2.5-0.5B en el hardware objetivo, nuestra arquitectura con codiseño logra una perplejidad 19.42% menor en WikiText-2. Hasta donde sabemos, este es el primer marco operativo y basado en principios para leyes de escalado de codiseño hardware en el despliegue de LLMs en el dispositivo. Pondremos el código y los puntos de control relacionados a disposición del público.
La alineación de seguridad es esencial para el despliegue responsable de los grandes modelos de lenguaje (LLM). Sin embargo, los enfoques existentes a menudo dependen de un ajuste fino (fine-tuning) pesado que resulta costoso de actualizar, auditar y mantener entre diferentes familias de modelos. El ajuste fino completo conlleva una sobrecarga computacional y de almacenamiento sustancial, mientras que métodos eficientes en parámetros como LoRA sacrifican eficiencia por ganancias de seguridad inconsistentes y sensibilidad a las elecciones de diseño. Los mecanismos de intervención de seguridad, como los cortacircuitos (circuit breakers), reducen las salidas no seguras sin modificar los pesos del modelo, pero no moldean ni preservan directamente las representaciones internas que gobiernan el comportamiento de seguridad. Estas limitaciones dificultan las actualizaciones de seguridad rápidas y confiables, particularmente en entornos donde los modelos evolucionan con frecuencia o deben adaptarse a nuevas políticas y dominios. Presentamos NeST, un marco de alineación de seguridad liviano y consciente de la estructura, que fortalece el comportamiento de rechazo (refusal) adaptando selectivamente un pequeño subconjunto de neuronas relevantes para la seguridad mientras congela el resto del modelo. NeST alinea las actualizaciones de parámetros con la organización interna del comportamiento de seguridad mediante la agrupación (clustering) de neuronas de seguridad funcionalmente coherentes y la aplicación de actualizaciones compartidas dentro de cada grupo. Esto permite una adaptación de seguridad dirigida y estable sin una modificación amplia del modelo ni sobrecarga en tiempo de inferencia. Evaluamos a NeST frente a tres métodos de referencia dominantes: ajuste fino completo, ajuste fino basado en LoRA y cortacircuitos, utilizando 10 LLM de pesos abiertos que abarcan múltiples familias de modelos y tamaños. En todos los modelos evaluados, NeST reduce la tasa de éxito de los ataques de un promedio del 44,5% al 4,36%, lo que corresponde a una reducción del 90,2% en las generaciones no seguras, mientras requiere solo 0,44 millones de parámetros entrenables en promedio. Esto equivale a una disminución de 17.310 veces en los parámetros actualizados en comparación con el ajuste fino completo y una reducción de 9,25 veces en relación con LoRA, logrando consistentemente un rendimiento de seguridad más sólido para la alineación.
Si bien el Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) ha demostrado una gran eficacia en tareas de razonamiento, no puede aplicarse directamente a dominios no verificables que carecen de verificadores de referencia, como la alineación de LLM. En este trabajo, investigamos si los evaluadores basados en LLM guiados por referencias pueden cerrar esta brecha actuando como "verificadores" blandos. Primero, diseñamos protocolos de evaluación que mejoran a los evaluadores basados en LLM para la alineación de LLM utilizando salidas de referencia. Mediante experimentos exhaustivos, mostramos que un enfoque guiado por referencias mejora sustancialmente la precisión de jueces-LLM menos capaces utilizando referencias de modelos de vanguardia; los jueces-LLM más potentes también pueden mejorarse con referencias de alta calidad (es decir, escritas por humanos). Basándonos en estos jueces mejorados, demostramos la utilidad de las referencias de alta calidad en el ajuste de alineación, donde los LLM guiados con referencias se utilizan como jueces para la auto-mejora. Mostramos que la auto-mejora guiada por referencias produce ganancias claras sobre la SFT directa en salidas de referencia y sobre la auto-mejora con jueces que no usan referencias, logrando un rendimiento comparable al entrenamiento con ArmoRM, un modelo de recompensa ajustado potente. Específicamente, nuestro método alcanza el 73.1% y 58.7% en AlpacaEval y Arena-Hard con Llama-3-8B-Instruct, y 70.0% y 74.1% con Qwen2.5-7B, lo que corresponde a ganancias absolutas promedio de +20.2 / +17.1 puntos sobre la destilación SFT y +5.3 / +3.6 puntos sobre la auto-mejora sin referencias en AlpacaEval / Arena-Hard. Estos resultados destacan el potencial de utilizar evaluadores-LLM guiados por referencias para permitir un post-entrenamiento efectivo de LLM en dominios no verificables.
La estimación de profundidad estéreo es fundamental para la percepción robótica subacuática, pero sufre graves cambios de dominio causados por la atenuación de la luz dependiente de la longitud de onda, la dispersión y la refracción. Los enfoques recientes aprovechan modelos base monoculares con refinamiento iterativo basado en GRU para la adaptación subacuática; sin embargo, el gateo secuencial y los núcleos convolucionales locales en las GRU requieren múltiples iteraciones para la propagación de disparidad de largo alcance, lo que limita el rendimiento en regiones subacuáticas de gran disparidad y sin textura. En este artículo, proponemos StereoAdapter-2, que reemplaza el actualizador ConvGRU convencional con un nuevo operador ConvSS2D basado en modelos de espacio de estados selectivos. El operador propuesto emplea una estrategia de escaneo cuatridireccional que se alinea naturalmente con la geometría epipolar mientras captura la consistencia estructural vertical, permitiendo una propagación espacial de largo alcance eficiente en un solo paso de actualización con complejidad computacional lineal. Además, construimos UW-StereoDepth-80K, un conjunto de datos estéreo subacuático sintético a gran escala que presenta diversas líneas base, coeficientes de atenuación y parámetros de dispersión mediante una pipeline generativa en dos etapas que combina la transferencia de estilo con conciencia semántica y la síntesis de nuevas vistas con consistencia geométrica. Combinado con la adaptación dinámica LoRA heredada de StereoAdapter, nuestro marco logra un rendimiento de cero disparo state-of-the-art en benchmarks subacuáticos, con una mejora del 17% en TartanAir-UW y del 7.2% en SQUID. La validación en el mundo real con la plataforma BlueROV2 demuestra la robustez de nuestro enfoque. Código: https://github.com/AIGeeksGroup/StereoAdapter-2. Sitio web: https://aigeeksgroup.github.io/StereoAdapter-2.