Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos visión-lenguaje (VLM) suelen formular la localización visual y la detección como un problema de generación de tokens de coordenadas, serializando cada cuadro 2D en múltiples tokens 1D que se aprenden y decodifican en gran medida de forma independiente. Esta decodificación token por token no se ajusta a la estructura acoplada de la geometría del cuadro y crea un cuello de botella práctico en la inferencia debido a la generación estrictamente secuencial. Presentamos LocateAnything, un marco unificado de localización y detección generativa basado en el Decodificación Paralela de Cuadros (PBD, por sus siglas en inglés). Al decodificar elementos geométricos como cuadros delimitadores y puntos como unidades atómicas en un solo paso, LocateAnything preserva la coherencia geométrica intra-cuadro y desbloquea un paralelismo sustancial. Demostramos que PBD mejora tanto el rendimiento de decodificación como la precisión de localización. Además, desarrollamos un motor de datos escalable y curamos LocateAnything-Data, un conjunto de datos a gran escala con más de 138 millones de muestras de entrenamiento, lo que aumenta sustancialmente la diversidad de datos para la localización de alta precisión. Evaluaciones exhaustivas muestran que LocateAnything avanza en la frontera velocidad-precisión, logrando un rendimiento de decodificación significativamente mayor al tiempo que mejora la calidad de localización con alto IoU en diversos puntos de referencia. Los resultados destacan los beneficios complementarios de la Decodificación Paralela de Cuadros y los datos de entrenamiento a gran escala para permitir una localización y detección visual unificada, eficiente y precisa.
La rápida evolución de los modelos fundacionales de generación de video ha impulsado el campo hacia la síntesis cinematográfica de nivel profesional. Para lograr esta exigente calidad, la comunidad está avanzando hacia el aprendizaje por refuerzo (RL) y los flujos de trabajo basados en agentes. Sin embargo, la evaluación fiable se ha convertido en un cuello de botella crítico. Los benchmarks existentes evalúan principalmente "si es correcto" (seguimiento básico de instrucciones), mientras que descuidan fundamentalmente "si es bueno" (calidad cinematográfica, actuación y estética). Además, las métricas automatizadas actuales carecen del rigor específico del dominio necesario para proporcionar señales fiables, lo que genera una grave brecha de credibilidad entre la percepción estética humana y la puntuación automática. Para superar esta brecha, presentamos EvalVerse, un marco de evaluación integral, consciente del pipeline y calibrado por expertos. Abordamos la evaluación de la generación de video no solo como una tarea de ingeniería, sino como un problema científico central: la digitalización sistemática de la experiencia cinematográfica subjetiva. En primer lugar, organizamos el conocimiento del dominio en una taxonomía de evaluación alineada con el flujo de trabajo profesional de producción cinematográfica (preproducción, producción y postproducción). En segundo lugar, destilamos los juicios de expertos humanos en un conjunto de datos curado con anotaciones humanas a gran escala. En tercer lugar, inyectamos este conocimiento en modelos de lenguaje y visión (VLM) a través de una estrategia de ajuste fino calibrada por expertos, permitiendo que el VLM realice un razonamiento explícito en cadena de pensamiento (Chain-of-Thought). En comparación con trabajos anteriores, EvalVerse no solo mantiene la compatibilidad con las métricas fundacionales de "corrección", sino que también expande significativamente los criterios hacia la "bondad" y amplía la cobertura de tareas a secuencias complejas de múltiples tomas e integración audiovisual. En consecuencia, al proporcionar señales de diagnóstico detalladas, EvalVerse trasciende una tabla de clasificación estática y establece una infraestructura fundamental para trabajos futuros, como modelos de recompensa y agentes evaluadores.
Aunque los modelos fundamentales espaciales han demostrado un rendimiento impresionante en conjuntos de datos estándar, persiste una pregunta crítica: ¿son realmente jugadores completos capaces de generalizar de manera robusta a través de diversas tareas posteriores, puntos de vista arbitrarios, dominios de escena cambiantes, densidades de entrada variables y restricciones de hardware específicas? Responder a esta pregunta general requiere una evaluación holística, pero los modelos actuales se evalúan principalmente en dominios específicos para los cuales fueron diseñados o entrenados expresamente. Dichas evaluaciones están intrínsecamente limitadas por una cobertura de paradigmas reducida, dominios de escena limitados y un muestreo de fotogramas arbitrario, lo que dificulta fundamentalmente evaluar su verdadera capacidad de generalización. Para abordar esta brecha, presentamos SpatialBench, un punto de referencia de paradigmas cruzados y diversidad de dominios para modelos fundamentales espaciales con muestreo determinista. SpatialBench presenta una escala sin precedentes y un diseño determinista riguroso, que comprende 19 conjuntos de datos y 546 escenas en 5 dominios espaciales diversos. Evalúa exhaustivamente 41 modelos en 6 paradigmas en 5 suites de tareas bajo 4 configuraciones de densidad de entrada diferentes. Nuestra evaluación extensa revela que los modelos actuales aún no son jugadores completos y descubre conocimientos cruciales para futuros avances. Específicamente, demostramos que la atención de contexto completo maximiza la precisión, mientras que las estrategias de memoria acotada desbloquean la escalabilidad de secuencias largas. Además, nuestras evaluaciones empíricas en tareas desafiantes incorporadas y egocéntricas demuestran que la alineación estricta de dominio y la alta calidad de los datos son mucho más críticas para el rendimiento que el simple escalado de conjuntos de datos. Asimismo, para abordar la mayor brecha de datos identificada en nuestro análisis, vamos más allá de la evaluación al introducir un conjunto de datos a gran escala, DA-Next-5M, y un modelo de referencia sólido, DA-Next, ampliando los límites del aprendizaje de representaciones espaciales.
Presentamos MobileGym, un entorno ligero, totalmente controlable y alojado en el navegador para el uso diario en dispositivos móviles, que apunta a la fidelidad de la interacción sin replicar backends propietarios. Permite dos capacidades previamente fuera del alcance de las aplicaciones cotidianas: señales de resultado verificables mediante evaluación determinista basada en el estado sobre un estado JSON estructurado, y RL en línea escalable mediante ejecuciones paralelas de bajo costo. El estado completo del entorno se captura, configura, bifurca y compara como JSON estructurado, y un solo servidor puede alojar cientos de instancias paralelas, con aproximadamente 400 MB de memoria por instancia y unos 3 segundos de arranque en frío. Un modelo de estado en capas y un marco declarativo de definición de tareas mantienen la programabilidad del estado y la creación de tareas de manera práctica a escala, y un único mecanismo de evaluación programática proporciona tanto veredictos de evaluación deterministas como recompensas densas de RL. El MobileGym-Bench asociado proporciona 416 plantillas de tareas parametrizadas, incluyendo 256 plantillas de prueba y 160 de entrenamiento, en 28 aplicaciones, con evaluadores deterministas y un protocolo AnswerSheet estructurado que evita fallos de coincidencia de texto libre. En un estudio de caso de Sim-to-Real, GRPO sobre Qwen3-VL-4B-Instruct obtiene +12.8 puntos porcentuales en el conjunto de prueba de 256 tareas, y en un subconjunto de señales de dispositivos reales de 59 tareas, la ejecución en dispositivo real retiene el 95.1% de la ganancia de entrenamiento del lado de la simulación. Página del proyecto: https://mobilegym.github.io.
La reconstrucción 3D multivista ha logrado un progreso notable con la llegada de los modelos de reconstrucción 3D feed-forward. Sin embargo, estos modelos suelen entrenarse y evaluarse bajo condiciones de imagen ideales y sin degradaciones, mientras que las observaciones del mundo real a menudo contienen degradaciones que difieren significativamente de tales entornos. Por lo tanto, mejorar la robustez de la reconstrucción 3D multivista en condiciones degradadas sigue siendo un desafío importante. Presentamos Geometry-Aware Representation Denoising (GARD), un marco novedoso que realiza la restauración multivista basada en difusión directamente en el espacio de características de un modelo de reconstrucción 3D feed-forward. Este diseño explota las representaciones de características conscientes de la geometría del reconstructor 3D para recuperar de manera efectiva la geometría precisa de la escena. Además, al emplear un decodificador de imágenes RGB adicional, las representaciones refinadas también pueden utilizarse para restaurar imágenes RGB de alta calidad, permitiendo así la recuperación simultánea de la geometría de la escena 3D y las imágenes de alta calidad. Experimentos exhaustivos en el punto de referencia Depth Anything 3 (DA3) demuestran la efectividad del marco GARD propuesto.
La generación audiovisual avanza rápidamente desde clips cortos hasta contenido de un minuto de duración, mientras que los protocolos de evaluación existentes permanecen en gran medida limitados a entornos de formato corto. Los puntos de referencia actuales se centran principalmente en la generación condicionada por texto de 5 a 10 segundos y rara vez admiten una evaluación unificada en las modalidades de condicionamiento de texto, imagen y video. Además, brindan una visión limitada de cómo la consistencia de identidad, la coherencia narrativa y la alineación audiovisual se degradan a lo largo de horizontes temporales extendidos. Para cerrar esta brecha, presentamos LongAV-Compass, un punto de referencia sistemático para la generación audiovisual de un minuto de duración. LongAV-Compass contiene 284 casos de prueba seleccionados que abarcan conversión de texto a audio-video (T2AV), de imagen a audio-video (I2AV) y de video a audio-video (V2AV), organizados por escenario de aplicación y complejidad de generación. El punto de referencia combina la construcción de referencia guiada por taxonomía con un marco de evaluación unificado que integra la evaluación asistida por MLLM con métricas perceptivas y multimodales complementarias, incluyendo DINO-v2, ArcFace, CLIP e ImageBind. El marco evalúa más de 20 dimensiones detalladas que abarcan calidad intra-segmento, consistencia entre segmentos, coherencia narrativa global, alineación semántica y sincronización audiovisual. Mediante experimentos en 11 modelos representativos junto con validación de alineación humana, LongAV-Compass proporciona un banco de pruebas de diagnóstico para analizar las limitaciones de los sistemas actuales para mantener una generación audiovisual coherente, semánticamente alineada y temporalmente consistente a escala de minutos a través de diversas modalidades de entrada.
A pesar de la aparición de los modelos de lenguaje grandes de difusión (D-LLM) como alternativa a los modelos de lenguaje grandes autorregresivos (AR-LLM), el monitoreo de seguridad para los D-LLM sigue siendo en gran medida inexplorado. A diferencia de los AR-LLM, los D-LLM generan texto mediante un proceso de eliminación de ruido en múltiples pasos, exponiendo representaciones ocultas intermedias que pueden contener información relevante para la seguridad no disponible en configuraciones de monitoreo estándar de un solo paso. Motivados por la idoneidad de las sondas ligeras para el monitoreo permanente, analizamos qué señales a nivel de trayectoria indican mejor cuándo es probable que dichas sondas tengan dificultades. Encontramos que la señal más informativa es la vacilación de seguridad: estados ocultos intermedios que caen repetidamente dentro de un margen pequeño de la frontera de decisión de la sonda. El número de dichos pasos de vacilación en la trayectoria del D-LLM predice eficazmente el fallo de la sonda, proporcionando un indicador de la dificultad de la muestra. Basándonos en este análisis, proponemos D^2-Monitor, un monitor de seguridad de dos niveles para D-LLM. D^2-Monitor adopta una sonda ligera como monitor permanente para estimar conjuntamente la vacilación y realizar la clasificación base. Cuando el nivel de vacilación supera un umbral, se activa una sonda más expresiva pero computacionalmente más pesada. Este mecanismo de enrutamiento dinámico asigna eficientemente los recursos de monitoreo en tiempo de prueba. Evaluado en 3 conjuntos de datos (WildguardMix, ToxicChat, OpenAI-Moderation) en 4 D-LLM, D^2-Monitor logra un rendimiento de última generación con una huella de parámetros compacta (≤ 0.85M de parámetros), y exhibe la mejor compensación entre efectividad y eficiencia en comparación con 8 líneas base.
Presentamos la serie MiniMax-M2, una familia de modelos de lenguaje basados en Mezcla de Expertos, construida en torno al principio de que las activaciones reducidas pueden liberar una inteligencia máxima en el mundo real. El modelo insignia M2 cuenta con 229,9 mil millones de parámetros totales, de los cuales solo se activan 9,8 mil millones por token. Diseñada de extremo a extremo para un despliegue orientado a agentes, la serie M2 se sustenta en tres componentes: (i) tuberías de datos impulsadas por agentes que generan trayectorias verificables a gran escala en codificación agentiva y coworking agentivo, cada una fundamentada en un espacio de trabajo ejecutable y una recompensa alineada con artefactos; (ii) Forge, un sistema de RL escalable nativo para agentes que se adapta a trayectorias de agentes de largo horizonte, acompañado de planificación FIFO con ventanas, fusión de árboles de prefijos, optimización de inferencia y un desacoplamiento limpio entre entrenamiento, inferencia y agente que soporta tanto agentes de caja blanca como de caja negra; (iii) el punto de control más reciente, M2.7, da un paso temprano hacia la autoevolución, depurando de forma autónoma ejecuciones de entrenamiento y modificando su propio andamio. Desde M2 hasta M2.7, esta combinación traduce una huella de activaciones reducidas en un rendimiento de primer nivel en codificación agentiva, búsqueda profunda, tareas de oficina y puntos de referencia de razonamiento.
Estudiamos la remezcla cinematográfica a nivel de serie, un problema de generación de video a video de horizonte largo que localiza episodios completos o películas mediante estilización o reemplazo de actores, preservando estrictamente la estructura narrativa, la coreografía de movimiento y la identidad del personaje a lo largo de cientos de tomas. Los flujos de trabajo existentes de generación y edición de video suelen fallar en este régimen debido a la deriva de identidad acumulativa, la mutación de fondo y la erosión semántica bajo grandes movimientos de cámara y cambios de punto de vista. Proponemos Soap2Soap, un marco multiagente que impone consistencia lingüístico-visual a largo plazo mediante un mecanismo de Consistencia de Puente Dual: un guion JSON consciente del contexto de escena que actúa como columna vertebral semántica persistente, y anclajes de referencia visual asignados dinámicamente tanto a nivel de escena como de toma. Para suprimir la deriva antes de la síntesis de video, introducimos la consistencia de fotogramas clave por lotes, generando conjuntamente múltiples fotogramas clave en un contexto latente compartido mediante una formulación basada en cuadrícula. Un agente de verificación en circuito cerrado audita además la identidad, la estabilidad y la alineación para activar la regeneración selectiva. Los experimentos en SoapBench demuestran mejoras significativas frente a las API comerciales de generación de video en consistencia a largo plazo y fidelidad narrativa.
El Escalado en Tiempo de Prueba (TTS) mejora las capacidades de razonamiento de los grandes modelos de lenguaje al asignar cómputo de inferencia adicional para explorar el espacio de soluciones. Sin embargo, los métodos TTS paralelos existentes suelen mantener las ramas aisladas durante la búsqueda: los descubrimientos intermedios permanecen privados a su rama y no pueden guiar a otras ramas a tiempo. Este aislamiento de información provoca una exploración redundante sustancial, ya que las ramas redescubren repetidamente información ya encontrada en otro lugar y requieren más pasos de búsqueda para recopilar la información de decisión completa necesaria para alcanzar respuestas correctas. Para superar esta limitación, proponemos el Pensamiento Colaborativo Paralelo (CPT), un marco de inferencia sin entrenamiento que permite compartir información durante la búsqueda entre ramas paralelas. CPT extrae información intermedia compacta de las ramas en curso, mantiene un grupo de información a nivel de consulta sin duplicados y transmite las entradas del grupo a través del contexto de entrada, permitiendo que cada rama en pasos de búsqueda posteriores reutilice los descubrimientos hechos por otras ramas en lugar de redescubrir la misma información. Empíricamente, los experimentos en los puntos de referencia HMMT y AIME muestran que CPT establece una frontera de Pareto de precisión y latencia más sólida que los puntos de referencia sólidos en todos los presupuestos de despliegue y escalas de modelo, destacando la colaboración durante la búsqueda como una dirección efectiva para el TTS paralelo eficiente.
Presentamos LLaVA-OneVision-2 (LLaVA-OV-2), el modelo de lenguaje y visión más capaz de la serie LLaVA-OneVision hasta la fecha, que alcanza un rendimiento superior en una amplia gama de benchmarks multimodales. El modelo se basa en un codificador OneVision nativo e incorpora Atención con Ventanas para un cómputo local eficiente, manteniendo la resolución nativa. Su avance clave es la tokenización de flujo de códec: trata el video comprimido como un flujo continuo de costo de bits, donde la dinámica de costo de bits determina grupos temporales adaptativos, y las señales residuales de movimiento seleccionan evidencia espacial saliente en lienzos visuales compactos. Esta asignación concentra un presupuesto limitado de tokens en contenido portador de eventos, permitiendo una compresión de tokens de video largo más estable que los grupos fijos de imágenes. Un RoPE 3D compartido coloca además los lienzos de códec, los fotogramas muestreados y las imágenes en un sistema de coordenadas espacio-temporales unificado. Además, construimos la pila de datos y entrenamiento de LLaVA-OV-2 en torno a la supervisión abierta a gran escala: aproximadamente 8 millones de muestras de video con nuevos subtítulos para preentrenamiento y un corpus espacial de 4 millones de muestras para ajuste fino. También introducimos JumpScore, un benchmark de localización temporal orientado al anclaje detallado en movimiento de alta frecuencia y densidad repetitiva, un régimen subrepresentado por las evaluaciones de video existentes. Una capacidad destacada de LLaVA-OV-2 es su percepción unificada en comprensión de video, anclaje temporal, anclaje espacial y razonamiento de trazas de manipulación. En JumpScore, LLaVA-OneVision-2-8B alcanza un mAP de 74.9 en JumpScore, superando a Qwen3-VL-8B (30.1) en +44.8 puntos; bajo presupuestos de tokens visuales equiparados en el mismo benchmark, las entradas de flujo de códec mejoran el anclaje temporal con respecto al muestreo de fotogramas en +9.7 puntos. En benchmarks estándar, LLaVA-OneVision-2-8B supera además a Qwen3-VL-8B en un promedio de +4.3 puntos en tareas de video, +5.3 en tareas espaciales, y +15.6 puntos promedio de J&F en tareas de seguimiento.
Las capas de normalización en los modelos de lenguaje grandes (LLMs) modernos consisten en una operación de normalización determinista y un vector de escala aprendible. Si bien la operación de normalización ha sido ampliamente estudiada, el vector de escala sigue siendo poco comprendido a pesar de su uso ubicuo. En este trabajo, presentamos un estudio sistemático de los vectores de escala en LLMs desde las perspectivas de expresividad, optimización y estructura arquitectónica. Primero, mostramos empíricamente que, aunque los vectores de escala constituyen solo una fracción insignificante de los parámetros del modelo, su eliminación deteriora sustancialmente el preentrenamiento de LLMs. Nuestra teoría demuestra además que, en arquitecturas Pre-Norm, los vectores de escala no aumentan la expresividad; en cambio, mejoran la optimización mediante un efecto de precondicionamiento autoamplificador sobre las transformaciones lineales subsiguientes. Segundo, investigamos el rol del decaimiento de pesos para los vectores de escala. Distinguiendo entre capas Input-Norm y Output-Norm, mostramos teóricamente que el decaimiento de pesos es beneficioso para las primeras pero perjudicial para las segundas, debido a sus roles distintos en optimización y expresividad. Tercero, motivados por esta comprensión, proponemos tres mejoras ligeras y complementarias para los vectores de escala: heterogeneidad específica por rama, ubicación mejorada alrededor de transformaciones lineales y reparametrización magnitud-dirección. Tanto la teoría como los experimentos muestran que cada mejora produce ganancias consistentes. Finalmente, combinamos estas mejoras en una estrategia unificada de vectores de escala y la evaluamos mediante extensos experimentos de preentrenamiento de LLMs en modelos densos y de mezcla de expertos que van desde 0.12B hasta 2B parámetros, a través de múltiples optimizadores y programaciones de tasa de aprendizaje, bajo presupuestos de tokens a escala industrial. La estrategia unificada logra consistentemente una pérdida final más baja que las líneas de base bien ajustadas y exhibe un comportamiento de escalado más favorable, mientras añade una sobrecarga despreciable de parámetros y cómputo.
Los modelos Visión-Lenguaje-Acción (VLA) adoptan ampliamente modelos de Visión-Lenguaje (VLM) preentrenados como backbones de políticas, aunque aún no está claro qué tipo de representación de VLM preentrenada es útil como inicialización de VLA. En este artículo, estudiamos la inicialización de VLA como un problema de diseño de representación controlada a lo largo de tres ejes: supervisión de VQA incorporada a nivel de capacidad, estrategia de actualización de parámetros y preentrenamiento con datos de robots. Nuestros experimentos muestran que la representación original del VLM preentrenado es una fuente clave de rendimiento de la acción. Sin embargo, la adaptación de VQA incorporada no produce ganancias uniformes: su beneficio depende de los cuellos de botella posteriores, y las ganancias de diferentes dominios de capacidad no son simplemente aditivas. En cuanto a la estrategia de actualización, LoRA proporciona una inicialización más fiable que el ajuste fino completo, lo que indica que remodelar excesivamente la representación preentrenada puede debilitar la inicialización de VLA. El preentrenamiento con datos de robots mejora aún más la inicialización de VLA, obteniéndose la variante más sólida mediante un entrenamiento basado en LoRA por etapas. En conjunto, estos hallazgos sugieren que una adaptación eficaz de VLM a VLA debe inyectar señales corporales y de trayectorias de robots relevantes para la acción, preservando al mismo tiempo la representación del VLM preentrenado que sigue siendo útil para el aprendizaje de acciones.
El emparejamiento de flujo con predicción de datos limpios ha demostrado que la regresión del punto limpio puede explotar la estructura de baja dimensionalidad de manera más efectiva que predecir una cantidad ruidosa en el espacio ambiente. Nos preguntamos si este principio sigue siendo útil después de que las imágenes se mapean en un espacio latente aprendido, donde la compresión ya ha eliminado gran parte de la variabilidad de píxeles en bruto. Presentamos JLT, un Transformer de difusión latente de 130M sobre códigos VAE congelados de FLUX.2, y comparamos la predicción de latentes limpios con un DiT de predicción de velocidad equivalente bajo la misma representación, arquitectura base y condiciones de entrenamiento. Aunque las tres variables x, ε y v son linealmente convertibles para un tiempo de corrupción fijo, un análisis gaussiano local muestra que la regresión de velocidad hereda un piso de covarianza objetivo isotrópico y amplifica las direcciones latentes de baja varianza, mientras que la predicción limpia las amortigua. En ImageNet 256 × 256, JLT-B/1 obtiene un FID-50K de 2.50 con guía libre de clasificador, con una gran brecha objetivo coincidente respecto a la predicción de velocidad. Estos resultados sugieren que los objetivos de predicción en la difusión latente son elecciones geométricas dependientes de la representación, no parametrizaciones algebraicas intercambiables.
El aprendizaje por refuerzo (RL) agentivo ha demostrado ser efectivo para entrenar agentes basados en LLM con capacidades de uso de herramientas externas. Sin embargo, identificamos que el entrenamiento con RL agentivo induce una cantidad creciente de llamadas redundantes a herramientas y difumina la frontera de conocimiento intrínseco del modelo, donde este falla al distinguir cuándo se necesitan herramientas frente a cuándo basta con el conocimiento paramétrico. Las soluciones existentes basadas en modelado de recompensas crean objetivos de optimización de grano grueso que tienden a incentivar una supresión indiscriminada de llamadas a herramientas, lo que conduce al hackeo de recompensas. En este artículo, proponemos AKBE (Mejora de la Frontera de Conocimiento Agentivo), un método *on-policy* que sondea dinámicamente la frontera de conocimiento intrínseco del modelo mediante despliegues de doble ruta (con herramienta y sin herramienta) durante el entrenamiento. Definimos la frontera de conocimiento como la determinación por instancia de si se requieren herramientas y el número mínimo de llamadas a herramientas necesario. Al comparar la corrección entre las rutas, AKBE categoriza las trayectorias y construye señales de supervisión dirigidas que guían patrones eficientes de uso de herramientas para cada pregunta. Estas señales se integran sin problemas en el bucle de entrenamiento de RL agentivo. Los experimentos en siete benchmarks de preguntas y respuestas demuestran que AKBE mejora la precisión de las tareas en +1.85 de promedio y reduce las llamadas a herramientas en un 18% en comparación con el RL agentivo estándar, logrando una productividad de herramientas un 25% mayor sin ningún compromiso entre precisión y eficiencia. Análisis adicionales sugieren su compatibilidad plug-and-play con diferentes algoritmos de RL y el mecanismo de cada categoría de señal. Nuestro código está disponible en https://github.com/CuSO4-Chen/AKBE.
Los agentes basados en modelos de lenguaje de gran escala (LLM) dependen de habilidades reutilizables para resolver tareas complejas. Sin embargo, los enfoques existentes para la creación de habilidades tratan estas como artefactos aislados y estáticos, lo que limita su reutilización, fiabilidad y mejora a largo plazo. Proponemos MUSE-Autoskill Agent (Evolución de Habilidades mediante el Uso de Memoria), un marco de agente centrado en habilidades que permite a los agentes mejorar continuamente su capacidad de resolución de tareas mediante la creación, reutilización y refinamiento de habilidades bajo un ciclo de vida unificado (creación, memoria, gestión, evaluación y refinamiento). Nuestro marco permite a los agentes crear habilidades bajo demanda, almacenarlas y reutilizarlas en distintas tareas, organizarlas y seleccionarlas de manera eficiente, y evaluarlas mediante pruebas unitarias y retroalimentación en tiempo de ejecución para su refinamiento continuo. Además, introducimos una memoria a nivel de habilidades que acumula experiencia para cada habilidad a través de las tareas, lo que permite una reutilización y adaptación más efectivas con el tiempo. Los experimentos realizados en SkillsBench proporcionan evidencia inicial de que las habilidades gestionadas mediante un ciclo de vida pueden mejorar el éxito en las tareas, la eficiencia, la reutilización y la transferencia entre agentes, lo que subraya la importancia de tratar las habilidades como activos duraderos, sensibles a la experiencia y comprobables.
Los juegos de deducción social se han convertido en un campo de prueba popular para investigar el razonamiento, el engaño, la coordinación y el modelado de creencias en agentes basados en modelos de lenguaje de gran escala (LLM). Sin embargo, la mayoría de los entornos se evalúan únicamente mediante resultados del juego, como las tasas de victoria, y se limitan en gran medida a la interacción textual, lo que dificulta determinar si el lenguaje de un agente está realmente fundamentado en lo que percibió e hizo, o identificar los modos de fallo subyacentes a su comportamiento. Para abordar esta carencia, presentamos QUACK, un entorno de código abierto y un marco de evaluación para auditar la fundamentación del lenguaje de los agentes en el razonamiento social multimodal. QUACK evalúa a los agentes en tres niveles: resultados del juego, trayectorias conductuales y consistencia a nivel de enunciados. Su núcleo, el Pipeline de Verificación de Afirmaciones, reconstruye la trayectoria real de cada agente a partir de los registros del motor y contrasta cada afirmación de la discusión con dicha trayectoria, señalando automáticamente alucinaciones espaciales, acusaciones no fundamentadas, colapsos de engaño e inconsistencias entre lenguaje y acción. Al evaluar tres VLMs de frontera tanto en entornos homogéneos como adversariales entre modelos, encontramos que incluso el agente más fuerte alucina el 15,1% de sus afirmaciones espaciales verificables y realiza más de la mitad de sus acusaciones sin evidencia fundamentada. Publicamos el motor completo, el marco de evaluación, el conjunto de herramientas y los registros en https://github.com/AAAAA-Academia-Attractions/QUACK.
El razonamiento visual mediante aprendizaje por refuerzo con recompensas verificables (RLVR) ha logrado avances notables. Sin embargo, al tratar con entradas de múltiples fuentes, los enfoques existentes tienden a considerarlas como una mera acumulación de información, careciendo de mecanismos explícitos para distinguir si la integración de fuentes adicionales produce una ganancia de información o introduce interferencia. En consecuencia, presentan dificultades para modelar eficazmente la interacción dinámica al integrar múltiples fuentes, especialmente cuando estas difieren significativamente en propiedades físicas y semántica (por ejemplo, infrarrojo y profundidad), lo que conduce a un rendimiento inferior al del razonamiento mono-fuente cuando una fuente determinada contiene la señal dominante. Para abordar este problema, proponemos MARS, un novedoso marco de razonamiento multifuente anclado en una única fuente que modela cada modalidad visual como una fuente de información independiente. En concreto, al tratar las recompensas mono-fuente como anclas dinámicas, nuestro método incorpora explícitamente la ganancia de información introducida por la fusión multifuente en la normalización de la ventaja y enfatiza de forma adaptativa la promoción mutua entre fuentes, al tiempo que suprime posibles ruidos o conflictos durante el RLVR. Desde un análisis teórico, nuestro método cuantifica eficazmente la ganancia de información introducida por la integración multifuente en la estimación del gradiente, lo que permite una regulación modal consistente. Los resultados empíricos también muestran impresionantes mejoras de rendimiento del 3,2 % y el 4,9 % en GRPO y DAPO, respectivamente, en diversos conjuntos de datos, lo que confirma la efectividad de nuestro método.
Los modelos de lenguaje de gran escala (LLMs) han evolucionado hasta convertirse en agentes interactivos que colaboran con los usuarios en tareas del mundo real. La colaboración efectiva en estos entornos depende cada vez más de entender al usuario más allá de lo explícitamente dicho, ya que la intención del usuario a menudo se refleja en interacciones diarias fragmentadas y requiere tanto un modelado personalizado como una interacción proactiva. Sin embargo, los benchmarks existentes para agentes evalúan principalmente el razonamiento y el uso de herramientas, pasando por alto en gran medida los desafíos de inferir y aprovechar las preferencias del usuario en escenarios realistas. Para abordar esta brecha, presentamos VitaBench 2.0, un benchmark para evaluar el comportamiento personalizado y proactivo de los agentes en interacciones de largo plazo con los usuarios. En VitaBench 2.0, las tareas se organizan como secuencias ordenadas temporalmente para usuarios individuales, donde las preferencias están integradas en interacciones fragmentadas y heterogéneas. La finalización exitosa de las tareas requiere que el agente extraiga, utilice y actualice continuamente las preferencias del usuario a partir de estas interacciones. Además, evaluamos la proactividad mediante tareas que exigen que los agentes reconozcan información faltante y la adquieran activamente de los usuarios o del entorno antes de tomar decisiones. Para apoyar el análisis sistemático, proporcionamos una interfaz de memoria extensible que permite una comparación controlada entre diferentes arquitecturas de memoria. Evaluamos un conjunto diverso de LLMs propietarios y de código abierto de vanguardia. Los resultados muestran que la personalización en el mundo real sigue siendo altamente desafiante incluso para los modelos más avanzados, revelando una brecha sustancial entre las capacidades actuales y los requisitos prácticos. Un análisis extenso revela además los modos de fallo y los cuellos de botella de capacidad de los agentes actuales en la toma de decisiones personalizadas en el mundo real, proporcionando información para futuras mejoras de modelos.
Los oráculos de activación tienen como objetivo hacer legibles para los humanos las activaciones de otros modelos, y ofrecen resultados prometedores en comparación con las técnicas de interpretabilidad de caja blanca. Sin embargo, la cuantificación de incertidumbre (UQ) para las salidas en lenguaje natural de estos oráculos de activación ha sido hasta ahora poco estudiada. En este trabajo, investigamos 6 métodos diferentes para estimar la confianza de los oráculos de activación y evaluamos qué tan bien calibradas están sus puntuaciones de confianza. Nuestros experimentos con 6,000 muestras por oráculo (variando verbalizador y prompts de contexto) revelan que la frecuencia modal bootstrap es el método mejor calibrado entre los evaluados (ECE del 5.7% frente al 25.5% para la log-probabilidad de la palabra respuesta en Qwen3-8B; 10.3% frente a 13.1% en Qwen3.6-27B), y que la línea base de log-prob puede servir como una señal de triaje rápida a una fracción del costo. El código y el entrenador adaptado están disponibles en https://github.com/federicotorrielli/probabilistic_activation_oracles.
Los Modelos de Lenguaje de Gran Escala (LLMs) se implementan cada vez más como agentes autónomos que razonan, utilizan herramientas y actúan a lo largo de múltiples pasos. Sin embargo, la mayoría de los puntos de referencia sobre alucinaciones todavía evalúan únicamente la salida final, pasando por alto fallos que se originan en los pasos intermedios de Pensamiento-Acción-Observación. Presentamos Trajel, un conjunto de datos y un marco de evaluación para auditar alucinaciones a nivel de trayectoria en flujos de trabajo industriales multiagente. Trajel introduce una taxonomía de cinco tipos de alucinaciones (fácticas, referenciales, lógicas, procedimentales y basadas en el alcance) a partir de trazas de agentes anotadas por expertos de AssetOpsBench. Evaluamos modelos de detección supervisada a niveles de subtarea, trayectoria y contexto largo. Nuestros resultados muestran que los modos de fallo más comunes son ignorados por los puntos de referencia existentes, que casi la mitad de las trayectorias alucinadas implican múltiples tipos simultáneamente, y que los detectores automatizados con alta precisión binaria aún clasifican erróneamente los tipos más sutiles. La detección consciente de trayectorias supera significativamente la verificación posterior estándar, lo que hace necesaria una evaluación fundamentada en la taxonomía para un despliegue de agentes más seguro.
Los sistemas multiagente con LLM mejoran el razonamiento al combinar las salidas de múltiples agentes, pero los métodos intensivos en interacción pueden introducir propagación de errores y una alta sobrecarga de comunicación. Cuando los agentes intercambian respuestas en bruto o trazas de razonamiento, el razonamiento intermedio incorrecto puede ser adoptado y amplificado, generando un consenso seguro pero erróneo; la comunicación de múltiples rondas también incrementa el consumo de tokens, la latencia y el costo de inferencia. En este artículo, proponemos un marco de coordinación con comunicación controlada llamado DarkForest. DarkForest primero mantiene a los agentes independientes, de modo que cada uno produce una respuesta sin ver las salidas de los demás. Luego analiza las respuestas en bruto para convertirlas en registros de candidatos estructurados, agrupa candidatos semánticamente equivalentes en clústeres y estima una distribución de creencias calibrada sobre dichos clústeres utilizando la confiabilidad del agente, la confianza, la calidad del análisis, la confiabilidad del patrón de soporte y correcciones de independencia. Un coordinador recibe únicamente evidencia permitida por la política a partir de este estado de creencias, con comunicación controlada. Los experimentos en seis puntos de referencia de razonamiento muestran que DarkForest logra una calidad general líder, mejora la línea base más fuerte hasta en un 30.7% en las métricas de referencia y reduce el consumo de tokens hasta 6.5 veces en comparación con las líneas base con mucha comunicación.
Los modelos de Mezcla de Expertos (MoE, por sus siglas en inglés) se han convertido en la arquitectura por excelencia para modelos de lenguaje con cien mil millones de parámetros; sin embargo, sus ventajas a escalas inferiores a mil millones para despliegue en dispositivos siguen siendo en gran medida inexploradas. Para cerrar esta brecha, presentamos MobileMoE, una familia de modelos de lenguaje MoE para dispositivos con menos de mil millones de parámetros activos (0.3-0.9 mil millones activos y 1.3-5.3 mil millones en total) que establece una nueva frontera de Pareto para LLMs en dispositivos. Primero formulamos una ley de escalado MoE para dispositivos que optimiza conjuntamente la arquitectura MoE bajo restricciones de memoria y cómputo móvil, identificando un punto óptimo para dispositivos —dispersión moderada con expertos detallados y compartidos— que es simultáneamente óptimo en memoria y cómputo. Basándonos en las arquitecturas derivadas, entrenamos MobileMoE con un proceso de cuatro etapas que abarca pre-entrenamiento, entrenamiento intermedio, ajuste fino por instrucciones y entrenamiento consciente de cuantización, todo con conjuntos de datos de código abierto. En 14 puntos de referencia, MobileMoE iguala o supera a los principales LLMs densos para dispositivos con 2 a 4 veces menos FLOPs de inferencia, y iguala o supera al MoE de última generación OLMoE-1B-7B con hasta un 60 % menos de parámetros. Para salvar la última milla hacia el despliegue en móviles, proporcionamos la primera inferencia MoE eficiente en teléfonos inteligentes comerciales con un perfilado exhaustivo en dispositivos. Con una memoria INT4 comparable, MobileMoE-S ofrece una precarga de 1.8 a 3.8 veces más rápida y una decodificación de 2.2 a 3.4 veces más rápida que la línea base densa MobileLLM-Pro.
La generación de imágenes guiada por sujetos tiene como objetivo sintetizar nuevas imágenes que preserven la identidad del sujeto dado mientras siguen instrucciones textuales. Los enfoques existentes a menudo codifican el texto y las imágenes de referencia por separado, lo que limita las capacidades de razonamiento entre modalidades y provoca artefactos de copia y pegado. Marcos recientes que conectan modelos multimodales y modelos de difusión mejoran el seguimiento de instrucciones, pero en gran medida pasan por alto la preservación de la identidad. Para abordar estas limitaciones, condicionamos modelos de difusión en Modelos de Lenguaje Grande Multimodales (MLLMs) que codifican conjuntamente texto e imágenes de referencia, y lo aumentamos con condicionamiento de identidad basado en VAE. Se diseña un novedoso módulo de Agregación de Capas Duales (DLA) para agregar características multinivel del MLLM para un condicionamiento óptimo, y se aplica una estrategia de denoising en múltiples etapas para equilibrar progresivamente la información semántica del MLLM y la identidad de detalle fino del VAE durante la inferencia. Experimentos extensos demuestran que nuestro enfoque armoniza la comprensión multimodal con la preservación de la identidad, mitiga los problemas de copia y pegado, y logra un rendimiento superior en cuanto a preferencia humana en la generación de imágenes guiada por sujetos. Nuestro sitio web del proyecto está disponible en https://zsh2000.github.io/squeeze-mllm-subject-gen/.
Presentamos Gemini Embedding 2, un modelo de embeddings multimodales nativos que permite representar modalidades de video, audio, imagen y texto en un espacio de representación unificado. Aprovechamos las capacidades multimodales de Gemini para generar embeddings de combinaciones arbitrarias de entradas intercaladas de todas estas modalidades, que se generalizan bien en una amplia variedad de tareas. Mediante la aplicación de aprendizaje contrastivo a gran escala en un esquema de entrenamiento multitarea y multietapa, logramos un rendimiento de vanguardia en puntos de referencia clave de embeddings, incluyendo recuperación unimodal, multimodal y multimodal cruzada en un conjunto diverso de tareas. Demostramos que nuestro modelo de embeddings ofrece un rendimiento sólido (con una puntuación de 62,9 R@1 en MSCOCO, 68,8 NDCG@10 en Vatex, 69,9 en MTEB multilingüe y 84,0 en MTEB Code) en una variedad de tareas, superando el rendimiento de modelos especializados. Estas capacidades unificadas convierten a Gemini Embedding 2 en un candidato prometedor para casos de uso posteriores como RAG, recomendación y búsqueda. Además, su robusto rendimiento zero-shot en campos tan diversos como la astronomía, la biociencia, las bellas artes y las artes culinarias lo establece como una representación altamente fiable y lista para usar, incluso para dominios especializados.
Los avances recientes en modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han facilitado el despliegue generalizado de LLMs como agentes interactivos capaces de razonar, planificar y utilizar herramientas. A pesar de su buen rendimiento en los puntos de referencia existentes, estos agentes a menudo presentan una degradación notable cuando se despliegan en entornos del mundo real, donde los entornos son inherentemente estocásticos e imperfectos. Argumentamos que esta discrepancia surge de un desajuste fundamental entre los entornos de entrenamiento idealizados y las dinámicas de interacción del mundo real, donde los paradigmas actuales dependen de instrucciones de tareas cuidadosamente seleccionadas y entornos estables y bien controlados. Para abordar esta brecha, proponemos NoisyAgent, un marco de entrenamiento agéntico que incorpora explícitamente las imperfecciones ambientales en el proceso de aprendizaje del agente. Identificamos dos fuentes principales de ruido de interacción en escenarios del mundo real: el ruido del usuario, que captura la ambigüedad y variabilidad en la interacción con el usuario, y el ruido de la herramienta, que refleja fallos y anomalías en la ejecución de herramientas. Introducimos estas perturbaciones en el pipeline de entrenamiento modificando los patrones de interacción del usuario y simulando los resultados de la ejecución de herramientas dentro del entorno de entrenamiento. Para estabilizar el entrenamiento mientras se anima a los agentes a manejar imperfecciones cada vez más desafiantes, el ruido se aplica solo a un subconjunto de las trayectorias y se incrementa progresivamente en dificultad a medida que el modelo se adapta al nivel de ruido actual. Experimentos exhaustivos demuestran que nuestro enfoque mejora consistentemente la robustez del agente en entornos ruidosos y dinámicos. Nuestro análisis revela que el entrenamiento bajo condiciones de ruido también produce ganancias de rendimiento en puntos de referencia idealizados, lo que sugiere que la exposición controlada al ruido ambiental promueve comportamientos de razonamiento y toma de decisiones más generalizables. Nuestros hallazgos resaltan la importancia de modelar las imperfecciones de interacción para cerrar la brecha entre el entrenamiento de agentes y el despliegue en el mundo real.
Los agentes basados en LLM para la generación de kernels de GPU avanzan rápidamente, pero su progreso está fundamentalmente limitado por los benchmarks que optimizan. Los benchmarks existentes están poco alineados con los frameworks de inferencia en producción: evalúan kernels en una sola GPU con entradas sintéticas, ignoran el stack de compilación circundante y recompensan replicar optimizaciones conocidas en lugar de descubrir nuevas. Las señales de recompensa resultantes son engañosas: los agentes aprenden a generar kernels que obtienen buenos puntajes en entornos aislados, pero introducen incompatibilidades de interfaz, conflictos en el stack de compilación y degradación silenciosa de la corrección cuando se integran en sistemas reales. Presentamos FastKernels, un benchmark de kernels construido en torno a un conjunto mínimo de 46 arquitecturas representativas que abarcan 8 categorías, cuyos kernels en conjunto subsumen el 96.2% (409/425) de las arquitecturas de HuggingFace Transformers. FastKernels también funciona como un framework de inferencia minimalista de grado de producción que opera a la par de sistemas robustos como vLLM y SGLang en el servicio de LLM convencional y supera significativamente las referencias ascendentes en arquitecturas menos atendidas; la interfaz de cada tarea refleja el módulo correspondiente en la librería de última generación para su familia de arquitecturas, lo que permite el despliegue directo de kernels optimizados en bases de código de producción. Al evaluar agentes de kernels de última generación en FastKernels, encontramos que incluso el agente más fuerte logra solo una aceleración agregada de 0.94 veces sobre las líneas base de producción, con agentes más débiles en 0.78 y 0.53 veces, lo que confirma que el desajuste entre benchmark y producción es un cuello de botella crítico para el campo. Publicamos FastKernels como un trampolín hacia agentes de kernels cuyas ganancias en benchmarks se traduzcan directamente en mejoras de rendimiento en producción. El código está disponible en https://github.com/Snowflake-AI-Research/fastkernels
Los modelos de lenguaje de gran escala inevitablemente retienen información sensible, definida como entradas que pueden inducir generaciones dañinas, debido al entrenamiento en corpus web masivos, lo que genera preocupaciones sobre privacidad y seguridad. Los métodos existentes de desaprendizaje automático se basan principalmente en el reentrenamiento o el ajuste fino agresivo, que son costosos computacionalmente o propensos a degradar el conocimiento relacionado y la utilidad general del modelo. En este trabajo, reformulamos el desaprendizaje automático como un problema de reasignación precisa de conocimiento mediante la edición de modelos. Proponemos ZeroUnlearn, un marco de desaprendizaje con pocos ejemplos. Sobrescribe las entradas sensibles mapeándolas a un estado objetivo neutro y eliminando sus representaciones originales. ZeroUnlearn impone ortogonalidad representacional mediante una actualización de parámetros multiplicativa con una solución de forma cerrada, permitiendo un desaprendizaje eficiente y dirigido. Además, extendemos ZeroUnlearn a una variante basada en gradientes para el desaprendizaje de múltiples muestras. Los experimentos demuestran que nuestro enfoque supera a las líneas base existentes mientras preserva la utilidad general del modelo. Nuestro código está disponible en github: https://github.com/XMUDeepLIT/ZeroUnlearn.
El razonamiento agéntico de largo horizonte exige que los modelos de lenguaje grandes actúen sobre historiales de interacción extensos que contienen pensamientos, llamadas a herramientas, observaciones y conclusiones parciales. El desafío no radica únicamente en la longitud de dichos historiales, sino en que la información necesaria para la decisión actual puede estar dispersa en pasos distantes y solo volverse relevante después. Los enfoques existentes abordan esta dificultad truncando el historial de interacción, comprimiéndolo en sustitutos más cortos o recuperando partes seleccionadas para su reutilización, pero no modelan explícitamente cómo el acceso a interacciones pasadas debería adaptarse al estado cambiante del agente. En cambio, planteamos el razonamiento de largo horizonte como un problema de memoria adaptativa al estado. Con este fin, proponemos State-Adaptive Memory (SAM), un marco independiente que consolida la interacción en curso en indicios de memoria compactos, a la vez que preserva páginas de trayectoria sin procesar para su recuperación impulsada por intenciones. Estos indicios no se tratan como sustitutos del historial; más bien, actúan como asideros ligeros que permiten al agente reconstruir información temporalmente distante según sus necesidades actuales, sin necesidad de reentrenar la arquitectura subyacente. Optimizamos además el módulo de memoria mediante supervisión guiada por expertos y aprendizaje por refuerzo, alineándolo con la utilidad a nivel de trayectoria. En BrowseComp, BrowseComp-ZH, WideSearch y HLE, SAM supera de manera consistente a líneas base sólidas sobre diversos backbones de agentes. Nuestros resultados sugieren que el modelado explícito de la memoria constituye una base simple y efectiva para el razonamiento agéntico de largo horizonte.
La generación y edición de imágenes en capas es una capacidad fundamental que permite la reutilización, edición y composición de contenido visual generado a nivel de capas, de forma análoga a la edición a nivel de palabras en el lenguaje natural. A pesar de su importancia, sigue siendo un área poco explorada a gran escala. Para abordar esta brecha, presentamos MRT, un modelo de difusión de región enmascarada de 20 mil millones de parámetros diseñado para la generación y edición de imágenes transparentes multicapa, entrenado con más de 10 millones de muestras de diseño multilingüe que abarcan diversas relaciones de aspecto y descripciones textuales. Para aprovechar plenamente esta escala, realizamos dos contribuciones técnicas clave. En primer lugar, unificamos tres tareas complementarias (texto a capas, imagen a capas y capas a capas) dentro de un marco compartido de difusión de región enmascarada, donde el enmascaramiento selectivo de tokens permite la generación y edición flexible por capas. En segundo lugar, para permitir la generación de capas de desbordamiento, introducimos una capa de lienzo consciente del desbordamiento que maneja las inconsistencias de los límites y admite la síntesis de fondos semitransparentes, lo que permite la creación de capas editables completas que se extienden más allá de los límites visibles del lienzo. Además, aplicamos destilación de difusión para lograr una generación multicapa en 8 pasos y en tiempo real con una degradación mínima de la calidad. Experimentos exhaustivos demuestran que nuestro marco supera sustancialmente a los enfoques de última generación anteriores, incluidos varios sistemas comerciales, en las tres tareas, estableciendo un nuevo punto de referencia para la generación de imágenes transparentes multicapa. En particular, según los resultados de estudios de usuarios, nuestro modelo supera significativamente al modelo concurrente Qwen-Image-Layered en la calidad de imagen a capas, logrando al mismo tiempo una inferencia de 10 a 100 veces más rápida y reduciendo el consumo de memoria GPU de activación entre un 50 y un 90 % durante la inferencia de imagen a capas.
Los Transformadores de Difusión (DiT) logran un alto rendimiento en la generación de imágenes, pero incurren en costos de inferencia sustanciales. Si bien trabajos previos han reducido este costo mediante cuantización y destilación, la escasez semiestructurada, que puede casi reducir a la mitad los FLOPs, sigue siendo poco explorada. Una razón clave es que la mayoría de los enfoques existentes se centran en la esparsificación de pesos, y podar el 50% de los pesos puede eliminar la capacidad crítica del modelo y degradar la calidad de generación. Sin embargo, nuestro estudio muestra que las activaciones de DiT son intrínsecamente dispersas y significativamente más robustas a la esparsificación semiestructurada N:M que los pesos. Motivados por esta observación, abogamos por un cambio de paradigma de la esparsificación de pesos a la esparsificación de activaciones. Proponemos RT-Lynx, que aplica esparsificación N:M a las activaciones e incorpora técnicas de compensación de errores para mitigar la pérdida de precisión. Adicionalmente, implementamos núcleos CUDA altamente optimizados y adaptados a este contexto, logrando una aceleración promedio de hasta 1.55x en las capas lineales. Experimentos exhaustivos en múltiples modelos de difusión demuestran que nuestro método preserva la calidad de generación de los modelos originales mientras acelera sustancialmente la inferencia.
Los sistemas agentivos se están volviendo más capaces: los agentes definen estrategias, toman acciones e interactúan con diferentes entornos. Esta autonomía plantea serios desafíos para supervisar y evaluar el comportamiento de los agentes. La mayoría de las herramientas actuales son limitadas, centrándose en la observabilidad con capacidades básicas de evaluación o imponiendo taxonomías de errores estáticas y artesanales que no pueden adaptarse a nuevos dominios. Para abordar esta brecha, presentamos Agentic CLEAR, un marco de evaluación automático, dinámico y fácil de usar. Produce información textual sobre el comportamiento del agente en tres niveles de granularidad: sistema, traza y nodo. Agentic CLEAR opera por encima de la capa de observabilidad, permitiendo una integración sin fisuras y presentando una interfaz de usuario intuitiva que hace que la evaluación de agentes sea muy accesible. En nuestros experimentos con cuatro puntos de referencia, siete configuraciones agentivas y decenas de miles de llamadas a modelos de lenguaje de gran tamaño (LLM), mostramos que Agentic CLEAR produce retroalimentación de alta calidad, basada en datos y reveladora. Nuestro análisis muestra una fuerte alineación con los errores anotados por humanos y la capacidad de predecir la tasa de éxito de la tarea.
Los modelos de lenguaje de gran escala (LLMs) suelen entrenarse con corpus mezclados, lo que produce modelos cuyo conocimiento queda congelado en el momento del entrenamiento y cuyo anclaje temporal es poco comprendido. En este trabajo, estudiamos el impacto de la dinámica del preentrenamiento en la adquisición de conocimiento factual sensible al tiempo, centrándonos específicamente en el ordenamiento de los datos. Nuestras principales contribuciones son dos. Primero, presentamos un benchmark exhaustivo de más de 7,000 preguntas temporalmente contextualizadas y un protocolo de evaluación que permite analizar si los modelos asocian correctamente los hechos con sus períodos de tiempo correspondientes. Segundo, preentrenamos modelos de 6 mil millones de parámetros en instantáneas de Common Crawl ordenadas temporalmente y los comparamos con el preentrenamiento estándar con mezcla aleatoria. Nuestros resultados muestran que los modelos entrenados secuencialmente igualan a las líneas base con mezcla en comprensión general del lenguaje y conocimiento común, mientras que consistentemente presentan un conocimiento más actualizado y temporalmente preciso. El preentrenamiento con orden temporal mejora la frescura factual, mientras que el preentrenamiento con mezcla aleatoria alcanza su máximo rendimiento en datos más antiguos, posiblemente debido a una mayor repetición de hechos. Estos hallazgos, junto con la publicación de nuestro código en https://github.com/kyutai-labs/kairos , los puntos de control y los conjuntos de datos en https://huggingface.co/collections/kyutai/kairos , proporcionan una base para futuras investigaciones sobre aprendizaje continuo para LLMs.
¿Pueden los modelos de lenguaje de gran escala detectar e informar sobre sus propios estados internos? Diversos estudios han argumentado que la respuesta a esta pregunta es afirmativa. Nosotros sostenemos, basándonos en lecciones provenientes de la investigación sobre metacognición humana, que esta conclusión puede ser prematura: para estar convencidos de ella, necesitamos distinguir la introspección genuina del reconocimiento de patrones basado en señales superficiales. Además, argumentamos que la evidencia conductual por sí sola es inherentemente insuficiente para establecer afirmaciones introspectivas sólidas. Reexaminamos dos paradigmas de evaluación introducidos recientemente a la luz de esta consideración. En el primer paradigma, se espera que los modelos detecten si sus estados internos han sido manipulados. Encontramos que los modelos no pueden distinguir de manera fiable dichas intervenciones sobre sus estados internos de las manipulaciones en la entrada, lo que sugiere que su éxito en los estudios originales refleja su capacidad para detectar anomalías en general, en lugar de intervenciones específicas sobre sus estados internos. En el segundo paradigma que examinamos, los modelos tienen la tarea de predecir etiquetas derivadas de sus propios estados ocultos. Aquí, encontramos que los clasificadores que solo tienen acceso a la entrada alcanzan un rendimiento equivalente al de las predicciones en contexto del propio modelo, lo que indica que los resultados originales no demuestran de manera concluyente que el modelo tenga acceso privilegiado a sus representaciones internas. Además, introducimos una condición de control con reetiquetado, donde los modelos no pueden basarse en la semántica de la tarea para resolverla, sino que deben depender de la representación interna; los modelos se desempeñan más cerca del azar en esta versión mejor controlada de la tarea. En conjunto, estos resultados indican que la evidencia actual es insuficiente para establecer que los LLM muestren monitoreo metacognitivo.
Presentamos NSF-SciFy, un conjunto de datos exhaustivo de afirmaciones científicas y propuestas de investigación extraídas de resúmenes de subvenciones de la National Science Foundation. Mientras que conjuntos de datos previos para la verificación de afirmaciones científicas han sido limitados en tamaño y alcance, NSF-SciFy representa un avance significativo con 2,8 millones de afirmaciones provenientes de 400.000 resúmenes que abarcan todas las disciplinas científicas y matemáticas. Presentamos dos subconjuntos enfocados: NSF-SciFy-MatSci, con 114.000 afirmaciones de subvenciones en ciencia de materiales, y NSF-SciFy-20K, con 135.000 afirmaciones distribuidas en cinco direcciones de la NSF. Mediante el uso de prompting con cero ejemplos, desarrollamos un enfoque escalable para la extracción conjunta de afirmaciones científicas y propuestas de investigación. Demostramos la utilidad del conjunto de datos a través de tres tareas posteriores: generación de resúmenes no técnicos, extracción de afirmaciones y extracción de propuestas de investigación. El ajuste fino de modelos de lenguaje con nuestro conjunto de datos produce mejoras sustanciales, con ganancias relativas que a menudo superan el 100%, particularmente en las tareas de extracción de afirmaciones y propuestas. Nuestro análisis de errores revela que las afirmaciones extraídas presentan alta precisión pero menor exhaustividad, lo que sugiere oportunidades para un mayor refinamiento metodológico. NSF-SciFy posibilita nuevas direcciones de investigación en verificación de afirmaciones a gran escala, seguimiento de descubrimientos científicos y análisis meta-científico. El código y los datos están disponibles en https://github.com/darpa-scify/NSFSciFy.
Trabajos previos establecen que la contrastividad controlada entre respuestas autogeneradas por modelos de lenguaje de gran escala, configurada mediante puntuaciones de recompensa, mejora el ajuste posterior de preferencias en inglés. Extendemos este método a múltiples lenguas y evaluamos dos modelos en un total de 14 lenguas de alto y bajo recursos, en un conjunto diverso de tareas. Nuestro hallazgo central es que el ajuste contrastivo de preferencias entre lenguas sobre autogeneraciones (CroCo) se transfiere sin necesidad de anotaciones de preferencias específicas por lengua. Un modelo de recompensa entrenado con preferencias en inglés (sobre una base multilingüe) produce clasificaciones intra-lengua útiles en la mayoría de las lenguas, y su emparejamiento, ya sea en un entorno monolingüe o multilingüe, mejora el rendimiento de cada modelo en la mayoría de las configuraciones, al tiempo que previene el olvido catastrófico del ajuste fino supervisado. Observamos que las ganancias requieren datos on-policy. Las respuestas off-policy reducen el beneficio y la optimización de preferencias en línea no logra superar a la variante fuera de línea. En concreto, en tareas estructuradas, nuestro método iguala o supera al modelo base en 6/7 lenguas para EuroLLM-9B y en 4/7 configuraciones para Aya-3B. En generación abierta, ambos modelos ajustados vencen a sus respectivos modelos base en las 11 lenguas evaluadas. En general, mostramos direcciones prometedoras para el ajuste de preferencias multilingüe.
Las políticas robóticas modernas dependen cada vez más de la fragmentación de acciones para ejecutar tareas complejas en el mundo físico. Si bien la fragmentación de acciones mejora la consistencia temporal a frecuencias de acción moderadas, resulta insuficiente cuando la frecuencia de acción se incrementa aún más (por ejemplo, hasta 60 Hz). A frecuencias tan altas, las políticas suelen fallar en generar acciones que sean tanto temporalmente suaves como espacialmente consistentes. Abordamos este desafío trasladando el aprendizaje de acciones de alta frecuencia desde el espacio de acción a un espacio latente mediante un autoencoder variacional (VAE). Esta formulación mejora significativamente tanto la consistencia temporal como la espacial del control de alta frecuencia. Para permitir una ejecución fluida en tiempo real, introducimos Reuse-then-Refine, una estrategia de refinamiento a nivel de fragmentos que mejora la continuidad entre fragmentos de acción adyacentes bajo inferencia asíncrona. Como resultado, los robots controlados por nuestra política pueden ejecutar tareas complejas de contacto intensivo de manera continua, con menos pausas y movimientos bruscos. Los experimentos en tres tareas robóticas reales de contacto intensivo muestran que nuestro enfoque completa las tareas de manera consistente con movimientos suaves. Nuestro código y datos están disponibles en https://github.com/tars-robotics/RTR.
Proponemos EverAnimate, un método eficiente de post-entrenamiento para la generación de video animado de horizonte largo que preserva la calidad visual y la identidad del personaje. La animación de larga duración sigue siendo un desafío porque el movimiento humano altamente dinámico debe sintetizarse en entornos relativamente estáticos, lo que hace que la generación basada en fragmentos sea propensa a la deriva acumulada: (i) deriva de calidad a bajo nivel, como la degradación progresiva de fondos estáticos, y (ii) deriva semántica de alto nivel, como la identidad inconsistente del personaje y atributos dependientes de la vista. Para abordar este problema, EverAnimate restaura las trayectorias de flujo desviadas anclando la generación a una memoria de contexto latente persistente, que consta de dos mecanismos complementarios. (i) Propagación Latente Persistente mantiene una memoria de contexto entre fragmentos para propagar la identidad y el movimiento en el espacio latente, mitigando el olvido temporal. (ii) Coincidencia de Flujo Restaurativo introduce un objetivo de restauración implícito durante el muestreo mediante el ajuste de velocidad, mejorando la fidelidad dentro del fragmento. Con solo un ajuste LoRA ligero, EverAnimate supera a los métodos de animación larga de última generación tanto en configuraciones de horizonte corto como largo: a los 10 segundos, mejora el PSNR/SSIM en un 8%/7% y reduce el LPIPS/FID en un 22%/11%; a los 90 segundos, las mejoras aumentan al 15%/15% y 32%/27%, respectivamente.
Los modelos de lenguaje de gran escala para dominios verticales se ven limitados por la escasez de diálogos complejos y específicos de una tarea orientados al dominio. Los pipelines de adquisición de datos existentes enfrentan un trilema persistente: la anotación de expertos es costosa, las conversaciones de servicio reales están restringidas por privacidad y limitaciones comerciales, y los corpus estáticos rápidamente se vuelven temporalmente obsoletos. Proponemos Stream, un marco centrado en datos que aprovecha los medios de transmisión en vivo públicos (transmisiones en vivo y videos cortos) para sintetizar diálogos de servicio de alto valor a escala. Stream extrae señales de interacción auténticas de transmisiones ruidosas y sintetiza conversaciones integrando la construcción de personajes basados en roles con la construcción de Planos de Conversación; además, adopta generación aumentada por recuperación (RAG) para respaldar respuestas conscientes del conocimiento. Basado en Stream, publicamos StreamDial, un conjunto de datos multidisciplinario a gran escala que cubre Automoción, Restaurante y Hotel. StreamDial contiene 87,498 sesiones de diálogo y 1,497,320 turnos en total, con un promedio de 17.11 turnos por sesión y una escala comparable entre dominios. Cada sesión se organiza como un cuádruple estructurado ⟨P_u, P_a, B, H⟩ que empareja el historial de diálogo con personajes explícitos de usuario/agente y un Plano de Conversación, capturando comportamientos de servicio realistas como extracción de requisitos, conflictos de restricciones, negociación y recuperación. Las evaluaciones con jueces automáticos y tareas posteriores muestran que StreamDial mejora la calidad intrínseca del diálogo en comparación con líneas base sólidas, y los modelos entrenados con StreamDial mejoran el Seguimiento del Estado del Diálogo en distintas arquitecturas; además, reportamos un conjunto completo de evaluación humana y una transferencia multilingüe alentadora en Qwen3-8B bajo un presupuesto de entrenamiento controlado. Los datos se publican en https://github.com/hitxueliang/DialogDataSetBySTREAM.