Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos Apriel-1.5-15B-Thinker, un modelo de razonamiento multimodal de 15 mil millones de parámetros y pesos abiertos que alcanza un rendimiento de vanguardia mediante un diseño de entrenamiento en lugar de pura escala. Partiendo de Pixtral-12B, aplicamos una metodología progresiva en tres etapas: (1) escalado en profundidad para ampliar la capacidad de razonamiento sin necesidad de preentrenamiento desde cero, (2) preentrenamiento continuo por etapas que primero desarrolla una comprensión fundamental de texto y visión, y luego mejora el razonamiento visual mediante la generación dirigida de datos sintéticos que abordan la estructura espacial, la comprensión compositiva y la percepción de detalles finos, y (3) ajuste fino supervisado de alta calidad con solo texto, utilizando pares de instrucción-respuesta seleccionados que incluyen trazas explícitas de razonamiento en matemáticas, programación, ciencia y uso de herramientas. Es notable que nuestro modelo logra resultados competitivos sin aprendizaje por refuerzo ni optimización de preferencias, aislando así la contribución de nuestro enfoque centrado en datos de preentrenamiento continuo. En el Índice de Inteligencia Artificial de Artificial Analysis, Apriel-1.5-15B-Thinker obtiene una puntuación de 52, igualando a DeepSeek-R1-0528 a pesar de requerir significativamente menos recursos computacionales. En diez benchmarks de imágenes, su rendimiento se encuentra en promedio a cinco puntos de Gemini-2.5-Flash y Claude Sonnet-3.7, un logro clave para un modelo que opera dentro de las limitaciones de implementación en una sola GPU. Nuestros resultados demuestran que un diseño cuidadoso durante el entrenamiento puede cerrar brechas sustanciales de capacidad sin necesidad de una escala masiva, haciendo que el razonamiento multimodal de vanguardia sea accesible para organizaciones con infraestructura limitada. Publicamos el checkpoint del modelo, todas las recetas de entrenamiento y los protocolos de evaluación bajo la licencia MIT para impulsar la investigación de código abierto.
Los modelos de razonamiento a gran escala (LRMs, por sus siglas en inglés) "piensan" generando cadenas de pensamiento estructuradas (CoT, por sus siglas en inglés) antes de producir una respuesta final, pero aún carecen de la capacidad de razonar críticamente sobre la alineación de seguridad y son fácilmente sesgados cuando se introduce una premisa defectuosa en su proceso de pensamiento. Proponemos RECAP (Alineación Robusta de Seguridad mediante Prellenado Contralineado), un método de aprendizaje por refuerzo (RL, por sus siglas en inglés) basado en principios para el posentrenamiento que enseña explícitamente a los modelos a anular trayectorias de razonamiento defectuosas y redirigirse hacia respuestas seguras y útiles. RECAP se entrena con una mezcla de prellenados CoT contralineados generados sintéticamente y prompts estándar, no requiere costos adicionales de entrenamiento ni modificaciones más allá del aprendizaje por refuerzo con retroalimentación humana (RLHF, por sus siglas en inglés) básico, y mejora sustancialmente la seguridad y la robustez frente a jailbreaks, reduce el exceso de rechazo y preserva la capacidad de razonamiento central, todo ello manteniendo el presupuesto de tokens de inferencia. Un análisis exhaustivo muestra que los modelos entrenados con RECAP realizan autoevaluaciones con mayor frecuencia y mantienen su robustez frente a ataques adaptativos, preservando la seguridad incluso después de intentos repetidos de anular su razonamiento.
Los tokens visuales consumen recursos computacionales significativos en los modelos grandes multimodales (MLLMs, por sus siglas en inglés), comprometiendo notablemente su eficiencia. Trabajos recientes han intentado mejorar la eficiencia comprimiendo los tokens visuales durante el entrenamiento, ya sea mediante modificaciones a los componentes del modelo o introduciendo parámetros adicionales. Sin embargo, a menudo pasan por alto la mayor dificultad de aprendizaje causada por dicha compresión, ya que el espacio de parámetros del modelo lucha por adaptarse rápidamente a las perturbaciones sustanciales en el espacio de características inducidas por la compresión de tokens. En este trabajo, proponemos desarrollar MLLMs eficientes mediante la Destilación Progresiva de Consistencia (EPIC, por sus siglas en inglés), un marco de aprendizaje progresivo. Específicamente, al descomponer las perturbaciones en el espacio de características introducidas por la compresión de tokens a lo largo de las dimensiones token y capa, introducimos la destilación de consistencia de tokens y la destilación de consistencia de capas, respectivamente, con el objetivo de reducir la dificultad del entrenamiento aprovechando la guía de un modelo maestro y siguiendo una trayectoria de aprendizaje progresivo. Experimentos exhaustivos demuestran la superior efectividad, robustez y capacidades de generalización de nuestro marco propuesto.
La investigación profunda ha revolucionado el análisis de datos, pero los científicos de datos aún dedican un tiempo considerable a la creación manual de visualizaciones, lo que resalta la necesidad de una automatización robusta a partir de consultas en lenguaje natural. Sin embargo, los sistemas actuales enfrentan dificultades con conjuntos de datos complejos que contienen múltiples archivos y refinamientos iterativos. Los enfoques existentes, incluyendo sistemas simples de uno o varios agentes, a menudo simplifican demasiado la tarea, centrándose en el análisis inicial de la consulta mientras no logran gestionar de manera robusta la complejidad de los datos, los errores en el código o la calidad final de la visualización. En este artículo, replanteamos este desafío como un problema colaborativo de múltiples agentes. Presentamos CoDA, un sistema multiagente que emplea agentes especializados de LLM para el análisis de metadatos, la planificación de tareas, la generación de código y la autorreflexión. Formalizamos esta canalización, demostrando cómo el análisis centrado en metadatos supera los límites de tokens y el refinamiento orientado a la calidad garantiza la robustez. Evaluaciones exhaustivas muestran que CoDA logra mejoras significativas en la puntuación general, superando a los baselines competitivos hasta en un 41.5%. Este trabajo demuestra que el futuro de la automatización de visualizaciones no reside en la generación aislada de código, sino en flujos de trabajo integrados y colaborativos de agentes.
Los Modelos de Lenguaje Conversacional (SLMs, por sus siglas en inglés) están surgiendo como un paradigma prometedor para la interacción hablada en tiempo real. Sin embargo, su capacidad para manejar dinámicas temporales, incluyendo la gestión del tiempo, el tempo y el habla simultánea, sigue siendo un desafío crítico y no evaluado para la fluidez conversacional. Para abordar esta brecha, presentamos el Benchmark Game-Time, un marco para evaluar sistemáticamente estas capacidades temporales. Inspirado en cómo los humanos aprenden un idioma a través de actividades lingüísticas, Game-Time consiste en tareas básicas de seguimiento de instrucciones y tareas avanzadas con restricciones temporales, como la adherencia al tempo y las respuestas sincronizadas. Nuestra evaluación de diversas arquitecturas de SLM revela una clara disparidad en el rendimiento: mientras que los modelos de última generación manejan bien las tareas básicas, muchos sistemas contemporáneos aún luchan con el seguimiento fundamental de instrucciones. Más críticamente, casi todos los modelos se degradan sustancialmente bajo restricciones temporales, exponiendo debilidades persistentes en la conciencia del tiempo y la interacción full-duplex. El Benchmark Game-Time proporciona una base para guiar futuras investigaciones hacia una IA conversacional más consciente del tiempo. Demos y conjuntos de datos están disponibles en nuestro sitio web del proyecto https://ga642381.github.io/Game-Time.
Los recientes formatos de punto flotante de 4 bits con escalado microscópico acelerado por hardware, como MXFP4 y NVFP4, compatibles con las GPU de NVIDIA y AMD, prometen revolucionar la inferencia de modelos de lenguaje grandes (LLM, por sus siglas en inglés). Sin embargo, sus beneficios prácticos aún no han sido demostrados. Presentamos el primer estudio exhaustivo de MXFP4 y NVFP4 para la cuantización posterior al entrenamiento, revelando brechas entre su promesa y el rendimiento en el mundo real. Nuestro análisis muestra que los métodos más avanzados enfrentan dificultades con FP4 debido a dos problemas clave: (1) el tamaño reducido de grupo de NVFP4 neutraliza demostrablemente las técnicas tradicionales de mitigación de valores atípicos; (2) la cuantización de escala de potencia de dos de MXFP4 degrada severamente la precisión debido al alto error inducido. Para cerrar esta brecha, introducimos Micro-Rotated-GPTQ (MR-GPTQ), una variante del clásico algoritmo de cuantización GPTQ que adapta el proceso de cuantización a las propiedades únicas de FP4, utilizando transformadas de Hadamard por bloques y optimizaciones específicas del formato. Respaldamos nuestra propuesta con un conjunto de núcleos de GPU de alto rendimiento que permiten el formato MR-GPTQ con un sobrecosto insignificante, mediante la fusión de rotaciones en los pesos y el cálculo rápido en línea de las activaciones. Esto resulta en aceleraciones frente a FP16 de hasta 3.6x por capa y 2.2x de extremo a extremo en la NVIDIA B200, y de 6x por capa y 4x de extremo a extremo en la RTX5090. Nuestra extensa evaluación empírica demuestra que MR-GPTQ iguala o supera la precisión de los métodos más avanzados, mejorando significativamente MXFP4 hasta acercarse a la de NVFP4. Concluimos que, aunque FP4 no es una mejora automática sobre INT4, métodos especializados en el formato como MR-GPTQ pueden desbloquear una nueva frontera en las compensaciones entre precisión y rendimiento.
Los modelos basados en difusión para el control robótico, incluyendo políticas de visión-lenguaje-acción (VLA) y visión-acción (VA), han demostrado capacidades significativas. Sin embargo, su avance se ve limitado por el alto costo de adquirir conjuntos de datos de interacción a gran escala. Este trabajo introduce un paradigma alternativo para mejorar el rendimiento de las políticas sin necesidad de entrenamiento adicional del modelo. Sorprendentemente, demostramos que las políticas compuestas pueden superar el rendimiento de cualquiera de las políticas originales. Nuestra contribución es triple. Primero, establecemos una base teórica que muestra que la composición convexa de puntuaciones distribucionales de múltiples modelos de difusión puede producir un objetivo funcional de un paso superior al de cualquier puntuación individual. Luego, se utiliza un límite de tipo Grönwall para demostrar que esta mejora de un solo paso se propaga a través de trayectorias de generación completas, lo que conduce a ganancias sistémicas en el rendimiento. Segundo, motivados por estos resultados, proponemos la Composición General de Políticas (GPC, por sus siglas en inglés), un método sin entrenamiento que mejora el rendimiento al combinar las puntuaciones distribucionales de múltiples políticas preentrenadas mediante una combinación convexa y búsqueda en tiempo de prueba. GPC es versátil, permitiendo la composición plug-and-play de políticas heterogéneas, incluyendo modelos VA y VLA, así como aquellos basados en difusión o emparejamiento de flujos, independientemente de sus modalidades visuales de entrada. Tercero, proporcionamos una validación empírica extensa. Los experimentos en los puntos de referencia Robomimic, PushT y RoboTwin, junto con evaluaciones robóticas en el mundo real, confirman que GPC mejora consistentemente el rendimiento y la adaptabilidad en un conjunto diverso de tareas. Un análisis adicional de operadores de composición alternativos y estrategias de ponderación ofrece información sobre los mecanismos subyacentes al éxito de GPC. Estos resultados establecen a GPC como un método simple pero efectivo para mejorar el rendimiento del control aprovechando políticas existentes.
Los avances recientes en la auto-mejora de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han mejorado eficientemente las capacidades de los modelos sin aumentar significativamente los costos, particularmente en términos de esfuerzo humano. Aunque este campo es todavía relativamente joven, su extensión al dominio multimodal tiene un potencial inmenso para aprovechar diversas fuentes de datos y desarrollar modelos auto-mejorables más generales. Esta revisión es la primera en proporcionar una visión integral de la auto-mejora en los Modelos de Lenguaje Multimodales (MLLMs). Ofrecemos una visión estructurada de la literatura actual y discutimos métodos desde tres perspectivas: 1) recopilación de datos, 2) organización de datos, y 3) optimización de modelos, para facilitar el desarrollo futuro de la auto-mejora en MLLMs. También incluimos evaluaciones comúnmente utilizadas y aplicaciones posteriores. Finalmente, concluimos delineando desafíos abiertos y direcciones futuras de investigación.
Los avances en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han permitido el surgimiento de una nueva clase de agentes auto-evolutivos que mejoran de manera autónoma a través de la interacción con el entorno, demostrando capacidades notables. Sin embargo, la auto-evolución también introduce riesgos novedosos que han sido pasados por alto en la investigación actual sobre seguridad. En este trabajo, estudiamos el caso en el que la auto-evolución de un agente se desvía de maneras no intencionadas, lo que conduce a resultados indeseables o incluso dañinos. Nos referimos a esto como **Misevolución**. Para proporcionar una investigación sistemática, evaluamos la misevolución a lo largo de cuatro vías evolutivas clave: modelo, memoria, herramientas y flujo de trabajo. Nuestros hallazgos empíricos revelan que la misevolución es un riesgo generalizado, que afecta incluso a agentes construidos sobre LLMs de primer nivel (por ejemplo, Gemini-2.5-Pro). Se observan diferentes riesgos emergentes en el proceso de auto-evolución, como la degradación de la alineación de seguridad después de la acumulación de memoria o la introducción no intencionada de vulnerabilidades en la creación y reutilización de herramientas. Hasta donde sabemos, este es el primer estudio en conceptualizar sistemáticamente la misevolución y proporcionar evidencia empírica de su ocurrencia, destacando la necesidad urgente de nuevos paradigmas de seguridad para agentes auto-evolutivos. Finalmente, discutimos posibles estrategias de mitigación para inspirar futuras investigaciones sobre la construcción de agentes auto-evolutivos más seguros y confiables. Nuestro código y datos están disponibles en https://github.com/ShaoShuai0605/Misevolution. **Advertencia**: este artículo incluye ejemplos que pueden ser ofensivos o dañinos por naturaleza.
Los LLM han surgido como herramientas poderosas para interpretar datos multimodales. En medicina, ofrecen un potencial particular para sintetizar grandes volúmenes de información clínica en insights accionables y aplicaciones de salud digital. Sin embargo, una limitación importante sigue siendo su incapacidad para manejar series temporales. Para superar esta brecha, presentamos OpenTSLM, una familia de Modelos de Lenguaje para Series Temporales (TSLM) creados al integrar series temporales como una modalidad nativa en LLM preentrenados, permitiendo el razonamiento sobre múltiples series temporales de cualquier longitud. Investigamos dos arquitecturas para OpenTSLM. La primera, OpenTSLM-SoftPrompt, modela series temporales de manera implícita concatenando tokens de series temporales aprendibles con tokens de texto mediante soft prompting. Aunque eficiente en parámetros, planteamos la hipótesis de que el modelado explícito de series temporales escala mejor y supera a los enfoques implícitos. Por ello, introducimos OpenTSLM-Flamingo, que integra series temporales con texto mediante atención cruzada. Evaluamos ambas variantes frente a líneas base que tratan series temporales como tokens de texto o gráficos, en un conjunto de tareas de razonamiento de Cadena de Pensamiento (CoT) texto-series temporales. Introducimos tres conjuntos de datos: HAR-CoT, Sleep-CoT y ECG-QA-CoT. En todos ellos, los modelos OpenTSLM superan a las líneas base, alcanzando 69.9 F1 en estadificación del sueño y 65.4 en HAR, en comparación con 9.05 y 52.2 para modelos de solo texto ajustados. Notablemente, incluso los modelos OpenTSLM de 1B parámetros superan a GPT-4o (15.47 y 2.95). OpenTSLM-Flamingo iguala el rendimiento de OpenTSLM-SoftPrompt y supera en secuencias más largas, manteniendo requisitos de memoria estables. En contraste, SoftPrompt crece exponencialmente en memoria con la longitud de la secuencia, requiriendo alrededor de 110 GB en comparación con 40 GB de VRAM al entrenar en ECG-QA con LLaMA-3B. Revisiones expertas por parte de clínicos encuentran fuertes capacidades de razonamiento exhibidas por OpenTSLM en ECG-QA. Para facilitar más investigación, proporcionamos todo el código, conjuntos de datos y modelos en código abierto.
Los autoencoders dispersos (SAE, por sus siglas en inglés) son una técnica para la descomposición dispersa de las activaciones de redes neuronales en características interpretables por humanos. Sin embargo, los SAE actuales presentan problemas de absorción de características, donde características especializadas capturan instancias de características generales, creando huecos en la representación, y de composición de características, donde características independientes se fusionan en representaciones compuestas. En este trabajo, presentamos el SAE Ortogonal (OrtSAE), un enfoque novedoso diseñado para mitigar estos problemas mediante la imposición de ortogonalidad entre las características aprendidas. Al implementar un nuevo procedimiento de entrenamiento que penaliza la alta similitud coseno por pares entre las características del SAE, OrtSAE fomenta el desarrollo de características desenredadas mientras escala linealmente con el tamaño del SAE, evitando un sobrecosto computacional significativo. Entrenamos OrtSAE en diferentes modelos y capas y lo comparamos con otros métodos. Encontramos que OrtSAE descubre un 9% más de características distintas, reduce la absorción de características (en un 65%) y la composición (en un 15%), mejora el rendimiento en la eliminación de correlaciones espurias (+6%) y logra un rendimiento comparable en otras tareas posteriores en comparación con los SAE tradicionales.
Los recientes avances en los modelos de texto a imagen (T2I) basados en difusión han logrado un éxito notable en la generación de imágenes de alta calidad a partir de indicaciones textuales. Sin embargo, garantizar una alineación precisa entre el texto y la imagen generada sigue siendo un desafío significativo para los modelos de difusión más avanzados. Para abordar esto, estudios existentes emplean aprendizaje por refuerzo con retroalimentación humana (RLHF) para alinear las salidas de T2I con las preferencias humanas. Estos métodos, sin embargo, dependen directamente de datos de preferencia de imágenes emparejadas o requieren una función de recompensa aprendida, ambos aspectos que dependen en gran medida de anotaciones humanas costosas y de alta calidad, lo que enfrenta limitaciones de escalabilidad. En este trabajo, presentamos la Optimización de Preferencias de Texto (TPO), un marco que permite la alineación "sin costo adicional" de los modelos T2I, logrando la alineación sin la necesidad de datos de preferencia de imágenes emparejadas. TPO funciona entrenando al modelo para preferir indicaciones coincidentes sobre indicaciones no coincidentes, las cuales se construyen perturbando las descripciones originales utilizando un modelo de lenguaje grande. Nuestro marco es general y compatible con algoritmos basados en preferencias existentes. Extendemos tanto DPO como KTO a nuestro entorno, resultando en TDPO y TKTO. Las evaluaciones cuantitativas y cualitativas en múltiples benchmarks muestran que nuestros métodos superan consistentemente a sus contrapartes originales, ofreciendo mejores puntajes de preferencia humana y una alineación mejorada entre texto e imagen. Nuestro código de código abierto está disponible en https://github.com/DSL-Lab/T2I-Free-Lunch-Alignment.
Los Modelos Pequeños de Visión y Lenguaje (VLMs, por sus siglas en inglés) ofrecen una alternativa computacionalmente eficiente a los modelos más grandes, aunque a costa de una menor capacidad de generalización y un rendimiento inferior en tareas específicas. Estas limitaciones podrían abordarse mediante técnicas de escalado en tiempo de prueba, pero los métodos existentes suelen ser computacionalmente costosos, lo que contradice los objetivos de diseño eficiente en recursos de los modelos pequeños. Para abordar estas limitaciones, proponemos dos estrategias novedosas y eficientes de escalado en tiempo de prueba que aprovechan las características internas del modelo en lugar de supervisión externa: (i) Aumento en Tiempo de Prueba (TTAug, por sus siglas en inglés), que genera múltiples entradas aumentadas y agrega las salidas a nivel de token sin actualizaciones de parámetros, y (ii) Adaptación en Tiempo de Prueba (TTAdapt, por sus siglas en inglés), que adapta los parámetros del modelo durante la inferencia utilizando pseudolabels basados en consenso obtenidos de TTAug. A través de experimentos exhaustivos en nueve benchmarks, demostramos mejoras consistentes en el rendimiento mientras mantenemos una eficiencia computacional adecuada para entornos con recursos limitados. La generalidad de nuestro enfoque se demuestra tanto dentro de modelos de diferentes escalas como en distintos VLMs sin necesidad de ajustes adicionales.
El posentrenamiento de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se ve limitado por el alto costo de adquirir nuevos conocimientos o corregir errores, así como por los efectos secundarios no deseados que frecuentemente surgen al reentrenar. Para abordar estos problemas, presentamos REPAIR (Edición Robusta mediante Intervención Progresiva Adaptativa y Reintegración), un marco de edición continua diseñado para respaldar actualizaciones precisas y de bajo costo en los modelos, preservando al mismo tiempo el conocimiento no objetivo. REPAIR mitiga la inestabilidad y los conflictos de las ediciones secuenciales a gran escala mediante un mecanismo de retroalimentación en bucle cerrado acoplado con una gestión dinámica de la memoria. Además, al incorporar una fusión frecuente de conocimientos y aplicar fuertes protecciones de localidad, REPAIR aborda eficazmente las deficiencias de los enfoques tradicionales agnósticos a la distribución, que a menudo pasan por alto los efectos de propagación no deseados. Nuestros experimentos demuestran que REPAIR aumenta la precisión de la edición entre un 10% y un 30% en múltiples familias de modelos y reduce significativamente el olvido de conocimientos. Este trabajo introduce un marco robusto para desarrollar LLMs confiables, escalables y en continua evolución.
La reconstrucción de escenas 3D y la síntesis de nuevas vistas han experimentado un rápido progreso en los últimos años. Los Campos de Radiancia Neurales demostraron que los campos de radiancia volumétricos continuos pueden lograr una síntesis de imágenes de alta calidad, pero sus largos tiempos de entrenamiento y renderizado limitan su practicidad. El método de 3D Gaussian Splatting (3DGS) abordó estos problemas representando escenas con millones de gaussianos, permitiendo renderizado en tiempo real y optimización rápida. Sin embargo, los primitivos gaussianos no son nativamente compatibles con las canalizaciones basadas en mallas utilizadas en cascos de realidad virtual y aplicaciones gráficas en tiempo real. Las soluciones existentes intentan convertir gaussianos en mallas mediante post-procesamiento o canalizaciones de dos etapas, lo que aumenta la complejidad y degrada la calidad visual. En este trabajo, presentamos Triangle Splatting+, que optimiza directamente triángulos, el primitivo fundamental de los gráficos por computadora, dentro de un marco de splatting diferenciable. Formulamos la parametrización de triángulos para permitir conectividad a través de vértices compartidos, y diseñamos una estrategia de entrenamiento que impone triángulos opacos. El resultado final es inmediatamente utilizable en motores gráficos estándar sin necesidad de post-procesamiento. Los experimentos en los conjuntos de datos Mip-NeRF360 y Tanks & Temples muestran que Triangle Splatting+ logra un rendimiento de vanguardia en la síntesis de nuevas vistas basada en mallas. Nuestro método supera a los enfoques de splatting anteriores en fidelidad visual mientras sigue siendo eficiente y rápido de entrenar. Además, las mallas semi-conectadas resultantes admiten aplicaciones posteriores como simulaciones basadas en física o recorridos interactivos. La página del proyecto es https://trianglesplatting2.github.io/trianglesplatting2/.
La redacción de encuestas académicas, que condensa vasta literatura en una narrativa coherente y perspicaz, sigue siendo una tarea intensiva en mano de obra y exigente intelectualmente. Si bien enfoques recientes, como los agentes generales de DeepResearch y los métodos especializados en encuestas, pueden generar encuestas automáticamente (conocidos como LLM4Survey), sus resultados a menudo no alcanzan los estándares humanos y carecen de un punto de referencia riguroso y alineado con el lector para revelar exhaustivamente sus deficiencias. Para llenar este vacío, proponemos un marco de evaluación detallado y basado en cuestionarios, SurveyBench, que incluye: (1) temas típicos de encuestas extraídos de 11,343 artículos recientes de arXiv y 4,947 encuestas de alta calidad correspondientes; (2) una jerarquía de métricas multifacética que evalúa la calidad del esquema (por ejemplo, amplitud de cobertura, coherencia lógica), la calidad del contenido (por ejemplo, granularidad de síntesis, claridad de los insights) y la riqueza no textual; y (3) un protocolo de evaluación de doble modo que incluye pruebas de capacidad de respuesta basadas en contenido y en cuestionarios, explícitamente alineadas con las necesidades informativas de los lectores. Los resultados muestran que SurveyBench desafía efectivamente los enfoques existentes de LLM4Survey (por ejemplo, en promedio un 21% más bajo que los humanos en la evaluación basada en contenido).
Los modelos de difusión discreta estándar tratan todos los estados no observados de manera idéntica, mapeándolos a un token absorbente [MASK]. Esto crea un "vacío de información" donde la información semántica que podría inferirse de los tokens no enmascarados se pierde entre los pasos de eliminación de ruido. Introducimos la Difusión Discreta Continuamente Aumentada (CADD, por sus siglas en inglés), un marco que aumenta el espacio de estados discretos con una difusión emparejada en un espacio latente continuo. Esto produce estados graduales y gradualmente corrompidos en los que los tokens enmascarados se representan mediante vectores latentes ruidosos pero informativos, en lugar de "vacíos de información" colapsados. En cada paso inverso, CADD puede aprovechar el espacio latente continuo como una pista semántica para guiar la eliminación de ruido discreta. El diseño es limpio y compatible con el entrenamiento existente de difusión discreta. Durante el muestreo, la fuerza y la elección del estimador para el vector latente continuo permiten un equilibrio controlado entre comportamientos de cobertura de modos (generar salidas diversas) y búsqueda de modos (generar salidas contextualmente precisas). Empíricamente, demostramos que CADD mejora la calidad generativa en comparación con la difusión basada en enmascaramiento en la generación de texto, síntesis de imágenes y modelado de código, con ganancias consistentes tanto en métricas cualitativas como cuantitativas frente a líneas base discretas sólidas.
Estudiamos qué funciona y qué no funciona para entrenar modelos de lenguaje grandes como agentes mediante aprendizaje por refuerzo de múltiples turnos. A pesar del rápido progreso, los marcos y definiciones existentes están fragmentados, y no existe una formulación o análisis sistemático de qué decisiones de diseño son importantes en diferentes tareas. Abordamos esta brecha desglosando primero el espacio de diseño en tres pilares interrelacionados —entorno, recompensa y política— y derivamos empíricamente una receta para entrenar agentes de modelos de lenguaje en dominios textuales situados. En particular, probamos TextWorld y ALFWorld, dominios populares para evaluar razonamiento encarnado situado, así como SWE-Gym para tareas más orientadas a la ingeniería de software. (i) Para el entorno, analizamos los impactos de la complejidad de la tarea en términos del tamaño de los espacios de estado y acción, así como la longitud de la solución óptima, encontrando que incluso entornos simples dentro de un dominio pueden proporcionar información sobre qué tan bien un agente puede generalizar a tareas más complejas. (ii) Para la recompensa, estudiamos la escasez relativa de recompensas, observando que, aunque las recompensas densas a nivel de turno aceleran el entrenamiento, el rendimiento y la estabilidad dependen en gran medida de la elección del algoritmo de aprendizaje por refuerzo. (iii) Y para la política del agente, exploramos la interacción entre la escasez de recompensas y los métodos de gradiente de política sesgados (PPO, GRPO) y no sesgados (RLOO), además de mostrar cómo encontrar la proporción óptima entre ajuste fino supervisado (SFT) y entrenamiento por refuerzo dado un presupuesto fijo. Destilamos estos hallazgos en una receta de entrenamiento que guía el co-diseño a través de los tres pilares, facilitando la investigación y los esfuerzos prácticos en el aprendizaje por refuerzo agencial de múltiples turnos. Código: https://github.com/pearls-lab/meow-tea-taro
Los trastornos de la columna vertebral afectan a 619 millones de personas a nivel mundial y son una de las principales causas de discapacidad, sin embargo, el diagnóstico asistido por inteligencia artificial sigue estando limitado por la falta de conjuntos de datos multimodales y conscientes del nivel vertebral. La toma de decisiones clínicas para los trastornos de la columna vertebral requiere un razonamiento sofisticado a través de radiografías, tomografías computarizadas (TC) y resonancias magnéticas (RM) en niveles vertebrales específicos. No obstante, el progreso se ha visto limitado por la ausencia de datos de instrucción trazables y basados en la práctica clínica, así como de puntos de referencia estandarizados y específicos para la columna vertebral. Para abordar este problema, presentamos SpineMed, un ecosistema codesarrollado con cirujanos de columna en ejercicio. Este incluye SpineMed-450k, el primer conjunto de datos a gran escala diseñado explícitamente para el razonamiento a nivel vertebral a través de modalidades de imagen, con más de 450,000 instancias de instrucción, y SpineBench, un marco de evaluación basado en la práctica clínica. SpineMed-450k se ha curado a partir de diversas fuentes, incluyendo libros de texto, guías, conjuntos de datos abiertos y aproximadamente 1,000 casos hospitalarios anonimizados, utilizando un proceso de "clínico en el bucle" con un método de generación en dos etapas mediante modelos de lenguaje grandes (LLM) (borrador y revisión) para garantizar datos de alta calidad y trazables para preguntas y respuestas, consultas multiturno y generación de informes. SpineBench evalúa los modelos en ejes clínicamente relevantes, como la identificación de niveles, la evaluación de patologías y la planificación quirúrgica. Nuestra evaluación exhaustiva de varios modelos avanzados recientes de visión y lenguaje (LVLM) en SpineBench revela debilidades sistemáticas en el razonamiento específico y detallado a nivel vertebral. En contraste, nuestro modelo ajustado en SpineMed-450k demuestra mejoras consistentes y significativas en todas las tareas. Las evaluaciones clínicas confirman la claridad diagnóstica y la utilidad práctica de las salidas de nuestro modelo.
Si bien los recientes avances en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han permitido con éxito la creación de recomendadores generativos con interacciones en lenguaje natural, su comportamiento de recomendación es limitado, dejando otros componentes más simples pero cruciales, como el filtrado de metadatos o atributos, subutilizados en el sistema. Proponemos un sistema de recomendación de música basado en LLMs con invocación de herramientas para funcionar como una canalización unificada de recuperación y reordenamiento. Nuestro sistema posiciona un LLM como un sistema de recomendación de extremo a extremo que interpreta la intención del usuario, planifica las invocaciones de herramientas y orquesta componentes especializados: filtros booleanos (SQL), recuperación dispersa (BM25), recuperación densa (similitud de embeddings) y recuperación generativa (IDs semánticos). A través de la planificación de herramientas, el sistema predice qué tipos de herramientas utilizar, el orden de ejecución y los argumentos necesarios para encontrar música que coincida con las preferencias del usuario, apoyando diversas modalidades mientras integra de manera fluida múltiples métodos de filtrado de bases de datos. Demostramos que este marco unificado de invocación de herramientas logra un rendimiento competitivo en diversos escenarios de recomendación al emplear selectivamente métodos de recuperación apropiados según las consultas del usuario, vislumbrando un nuevo paradigma para los sistemas de recomendación de música conversacional.
La fundamentación de GUI, la tarea de mapear instrucciones en lenguaje natural a coordenadas de píxeles, es crucial para agentes autónomos, pero sigue siendo difícil para los modelos de lenguaje visual (VLMs) actuales. El principal cuello de botella es el mapeo confiable de parches a píxeles, que falla al extrapolar a pantallas de alta resolución no vistas durante el entrenamiento. Los enfoques actuales generan coordenadas como tokens de texto directamente a partir de características visuales, forzando al modelo a inferir mapeos complejos de posición a píxeles de manera implícita; como resultado, la precisión disminuye y los errores proliferan en nuevas resoluciones. Abordamos esto con dos innovaciones complementarias. Primero, los tokens RULER sirven como marcadores explícitos de coordenadas, permitiendo que el modelo haga referencia a posiciones de manera similar a las líneas de una cuadrícula en un mapa y ajuste en lugar de generar coordenadas desde cero. Segundo, Interleaved MRoPE (I-MRoPE) mejora la codificación espacial al asegurar que las dimensiones de ancho y alto se representen por igual, abordando la asimetría de los esquemas posicionales estándar. Los experimentos en ScreenSpot, ScreenSpot-V2 y ScreenSpot-Pro muestran mejoras consistentes en la precisión de fundamentación, con los mayores avances en interfaces de alta resolución. Al proporcionar guía espacial explícita en lugar de depender del aprendizaje implícito, nuestro enfoque permite una automatización de GUI más confiable en diversas resoluciones y plataformas.
Los agentes web impulsados por modelos de lenguaje de gran escala (LLMs) deben procesar observaciones extensas de páginas web para cumplir con los objetivos del usuario; estas páginas a menudo superan decenas de miles de tokens. Esto satura los límites de contexto y aumenta los costos computacionales de procesamiento; además, procesar páginas completas expone a los agentes a riesgos de seguridad, como la inyección de prompts. Las estrategias de poda existentes descartan contenido relevante o retienen contexto irrelevante, lo que lleva a una predicción de acciones subóptima. Presentamos FocusAgent, un enfoque simple pero efectivo que aprovecha un recuperador LLM ligero para extraer las líneas más relevantes de las observaciones del árbol de accesibilidad (AxTree), guiado por los objetivos de la tarea. Al podar contenido ruidoso e irrelevante, FocusAgent permite un razonamiento eficiente mientras reduce la vulnerabilidad a ataques de inyección. Los experimentos en los benchmarks WorkArena y WebArena muestran que FocusAgent iguala el rendimiento de líneas de base sólidas, mientras reduce el tamaño de la observación en más del 50%. Además, una variante de FocusAgent reduce significativamente la tasa de éxito de los ataques de inyección de prompts, incluidos los ataques de banners y ventanas emergentes, manteniendo el rendimiento en tareas en entornos libres de ataques. Nuestros resultados destacan que la recuperación dirigida basada en LLM es una estrategia práctica y robusta para construir agentes web que sean eficientes, efectivos y seguros.
Desde el lanzamiento de Deepseek-R1, el aprendizaje por refuerzo con recompensas verificables (RLVR, por sus siglas en inglés) se ha convertido en un enfoque central para entrenar modelos de lenguaje de gran escala (LLMs) en tareas de razonamiento. Trabajos recientes se han centrado principalmente en modificar funciones de pérdida para hacer que RLVR sea más eficiente y efectivo. En este artículo, motivados por estudios sobre el "sobrepensamiento" en LLMs, proponemos el Muestreo Consciente de la Longitud para la Optimización de Políticas (LSPO, por sus siglas en inglés), un novedoso algoritmo meta-RLVR que selecciona dinámicamente datos de entrenamiento en cada paso basándose en la longitud promedio de las respuestas. Evaluamos LSPO en múltiples modelos base y conjuntos de datos, demostrando que mejora consistentemente la efectividad del aprendizaje. Además, realizamos un estudio de ablación detallado para examinar formas alternativas de incorporar señales de longitud en el muestreo dinámico, ofreciendo insights adicionales y destacando direcciones prometedoras para futuras investigaciones.
Se han propuesto múltiples ataques de inyección de instrucciones contra agentes web. Al mismo tiempo, se han desarrollado diversos métodos para detectar ataques generales de inyección de instrucciones, pero ninguno ha sido evaluado sistemáticamente para agentes web. En este trabajo, cerramos esta brecha presentando el primer estudio de referencia exhaustivo sobre la detección de ataques de inyección de instrucciones dirigidos a agentes web. Comenzamos introduciendo una categorización detallada de estos ataques basada en el modelo de amenaza. Luego, construimos conjuntos de datos que contienen tanto muestras maliciosas como benignas: segmentos de texto maliciosos generados por diferentes ataques, segmentos de texto benignos de cuatro categorías, imágenes maliciosas producidas por ataques e imágenes benignas de dos categorías. A continuación, sistematizamos tanto los métodos de detección basados en texto como en imágenes. Finalmente, evaluamos su rendimiento en múltiples escenarios. Nuestros hallazgos clave muestran que, aunque algunos detectores pueden identificar ataques que dependen de instrucciones textuales explícitas o perturbaciones visibles en las imágenes con una precisión moderada a alta, en su mayoría fallan contra ataques que omiten instrucciones explícitas o emplean perturbaciones imperceptibles. Nuestros conjuntos de datos y código están disponibles en: https://github.com/Norrrrrrr-lyn/WAInjectBench.
El desarrollo actual de los grandes modelos de lenguaje (LLM, por sus siglas en inglés) aborda la resolución de tareas y la alineación de preferencias como desafíos separados, optimizando primero para la corrección objetiva y luego para la alineación con las preferencias humanas agregadas. Este paradigma falla en aplicaciones orientadas a humanos, donde resolver un problema correctamente es insuficiente si la respuesta no coincide con las necesidades del usuario. Este desafío se intensifica en escenarios de justo a tiempo, donde no existe un historial previo de interacción con el usuario debido a condiciones de arranque en frío o restricciones de privacidad. Los LLM necesitan identificar lo que desconocen sobre las preferencias del usuario, elicitar estratégicamente valores de preferencia mediante preguntas y luego adaptar sus procesos de razonamiento y respuestas en consecuencia: una cadena compleja de procesos cognitivos que denominamos razonamiento personalizado. Presentamos PREFDISCO, una metodología de evaluación que transforma puntos de referencia estáticos en tareas de personalización interactiva utilizando personajes psicológicamente fundamentados con preferencias dispersas. Nuestro marco crea escenarios en los que preguntas idénticas requieren cadenas de razonamiento diferentes según el contexto del usuario, ya que los enfoques óptimos de explicación varían según la experiencia y preferencias individuales, manteniendo la precisión factual. La evaluación de 21 modelos de vanguardia en 10 tareas revela que el 29.0% de los intentos ingenuos de personalización producen una alineación de preferencias peor que las respuestas genéricas, aunque estas últimas tampoco satisfacen eficazmente las necesidades individuales del usuario. Estos hallazgos sugieren que el razonamiento personalizado requiere un desarrollo dedicado en lugar de surgir de forma natural. PREFDISCO establece el razonamiento personalizado como una frontera de investigación medible y revela limitaciones fundamentales en las capacidades interactivas de los LLM actuales, proporcionando una base para desarrollar sistemas que puedan adaptarse a usuarios individuales en educación, salud y dominios técnicos donde la personalización es crítica.
Optimizar el modelo de difusión discreta (DDM) con recompensas sigue siendo un desafío: el paradigma no autoregresivo hace que el muestreo por importancia sea intratable y el despliegue sea complejo, desconcertando métodos de aprendizaje por refuerzo como la Optimización de Política Relativa de Grupo (GRPO). En este estudio, introducimos MaskGRPO, el primer enfoque viable para habilitar el aprendizaje por refuerzo multimodal escalable en difusión discreta con un muestreo por importancia efectivo y adaptaciones específicas por modalidad. Para ello, primero aclaramos los fundamentos teóricos de los DDMs, lo que facilita la construcción de un estimador de importancia que captura fluctuaciones valiosas de tokens para actualizaciones de gradiente. Luego, adaptamos meticulosamente el método de despliegue para secuencias visuales, lo que produce finalizaciones diversas y gradientes de optimización confiables. En pruebas de razonamiento matemático, codificación y generación visual, MaskGRPO ofrece actualizaciones más estables y eficientes, lo que conduce a un mejor rendimiento de razonamiento y una mayor calidad de generación. Este estudio establece a MaskGRPO como un enfoque sistemático de optimización de políticas y la primera forma práctica para la difusión visual discretizada.
El descenso de gradiente ha demostrado ser una técnica poderosa y efectiva para la optimización en numerosas aplicaciones de aprendizaje automático. Avances recientes en neurociencia computacional han mostrado que el aprendizaje en la formulación estándar de optimización por descenso de gradiente no es consistente con el aprendizaje en sistemas biológicos. Esto ha abierto interesantes vías para desarrollar técnicas de aprendizaje inspiradas en la biología. Un enfoque de este tipo se basa en la ley de Dale, la cual establece que las sinapsis inhibitorias y excitatorias no intercambian roles durante el proceso de aprendizaje. El esquema de optimización de descenso de gradiente exponencial resultante conduce a pesos sinápticos distribuidos de manera log-normal. Curiosamente, la densidad que satisface la ecuación de Fokker-Planck correspondiente a la ecuación diferencial estocástica (EDE) con movimiento browniano geométrico (MBG) es la densidad log-normal. Aprovechando esta conexión, comenzamos con la EDE que gobierna el movimiento browniano geométrico y mostramos que la discretización de la EDE en tiempo inverso correspondiente produce una regla de actualización multiplicativa, la cual, sorprendentemente, coincide con el equivalente de muestreo de la actualización de descenso de gradiente exponencial basada en la ley de Dale. Además, proponemos un nuevo formalismo para la coincidencia de puntuación multiplicativa de eliminación de ruido, que engloba la función de pérdida propuesta por Hyvärinen para datos no negativos. De hecho, los datos distribuidos de manera log-normal son positivos, y el formalismo de coincidencia de puntuación propuesto resulta ser una opción natural. Esto permite el entrenamiento de modelos basados en puntuación para datos de imágenes y da lugar a un novedoso esquema de actualización multiplicativa para la generación de muestras a partir de una densidad log-normal. Los resultados experimentales en los conjuntos de datos MNIST, Fashion MNIST y Kuzushiji demuestran la capacidad generativa del nuevo esquema. Hasta donde sabemos, esta es la primera instancia de un modelo generativo inspirado en la biología que emplea actualizaciones multiplicativas, basado en el movimiento browniano geométrico.
La Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) combina la recuperación de documentos con modelos de lenguaje de gran escala (LLMs). Si bien escalar los generadores mejora la precisión, también incrementa los costos y limita la capacidad de implementación. Exploramos un eje ortogonal: ampliar el corpus del recuperador para reducir la dependencia de LLMs grandes. Los resultados experimentales muestran que escalar el corpus fortalece consistentemente a RAG y, a menudo, puede servir como sustituto para aumentar el tamaño del modelo, aunque con rendimientos decrecientes a escalas mayores. Generadores pequeños y medianos, emparejados con corpus más grandes, a menudo rivalizan con modelos mucho más grandes que utilizan corpus más pequeños; los modelos de tamaño mediano tienden a beneficiarse más, mientras que los modelos muy pequeños o muy grandes se benefician menos. Nuestro análisis muestra que las mejoras surgen principalmente de una mayor cobertura de pasajes que contienen respuestas, mientras que la eficiencia de utilización permanece en gran medida sin cambios. Estos hallazgos establecen un principio de compensación entre corpus y generador: invertir en corpus más grandes ofrece un camino efectivo para fortalecer a RAG, a menudo comparable a ampliar el propio LLM.
Los modelos generativos de video demuestran capacidades impresionantes de conversión de texto a video, impulsando su adopción generalizada en muchas aplicaciones del mundo real. Sin embargo, al igual que los modelos de lenguaje de gran escala (LLMs), los modelos de generación de video tienden a alucinar, produciendo videos plausibles incluso cuando son factualmente incorrectos. Aunque la cuantificación de incertidumbre (UQ) en LLMs ha sido ampliamente estudiada en trabajos previos, no existe ningún método de UQ para modelos de video, lo que plantea preocupaciones críticas de seguridad. Hasta donde sabemos, este artículo representa el primer trabajo hacia la cuantificación de la incertidumbre en modelos de video. Presentamos un marco para la cuantificación de incertidumbre en modelos generativos de video, que consta de: (i) una métrica para evaluar la calibración de modelos de video basada en la estimación robusta de correlación de rangos sin supuestos de modelado estrictos; (ii) un método de UQ de caja negra para modelos de video (denominado S-QUBED), que aprovecha el modelado latente para descomponer rigurosamente la incertidumbre predictiva en sus componentes aleatorios y epistémicos; y (iii) un conjunto de datos de UQ para facilitar la evaluación comparativa de la calibración en modelos de video. Al condicionar la tarea de generación en el espacio latente, separamos la incertidumbre que surge debido a especificaciones de tareas vagas de aquella que surge por falta de conocimiento. A través de extensos experimentos en conjuntos de datos de video de referencia, demostramos que S-QUBED calcula estimaciones calibradas de incertidumbre total que están negativamente correlacionadas con la precisión de la tarea y efectivamente calcula los componentes aleatorios y epistémicos.
Los modelos predominantes de generación de Video-a-Audio (V2A) operan de manera offline, asumiendo que se dispone de una secuencia completa de video o fragmentos de fotogramas de antemano. Esto limita críticamente su uso en aplicaciones interactivas, como la creación de contenido en vivo y los modelos generativos emergentes de mundos. Para abordar esta brecha, introducimos la novedosa tarea de generación de V2A en línea a nivel de fotograma, donde un modelo genera audio de manera autoregresiva a partir de video sin acceso a fotogramas futuros. Además, proponemos SoundReactor, que, hasta donde sabemos, es el primer marco simple pero efectivo diseñado explícitamente para esta tarea. Nuestro diseño impone causalidad de extremo a extremo y apunta a una baja latencia por fotograma con sincronización audiovisual. La columna vertebral de nuestro modelo es un transformador causal de solo decodificación sobre latentes de audio continuos. Para el condicionamiento visual, aprovecha características de cuadrícula (parches) extraídas de la variante más pequeña del codificador visual DINOv2, que se agregan en un solo token por fotograma para mantener la causalidad y eficiencia de extremo a extremo. El modelo se entrena mediante un preentrenamiento de difusión seguido de un ajuste fino de consistencia para acelerar la decodificación de la cabeza de difusión. En un benchmark de diversos videos de juegos de títulos AAA, nuestro modelo genera con éxito audio estéreo de banda completa de alta calidad, semántica y temporalmente alineado, validado tanto por evaluaciones objetivas como humanas. Además, nuestro modelo logra una baja latencia a nivel de forma de onda por fotograma (26.3ms con la cabeza NFE=1, 31.5ms con NFE=4) en videos de 30FPS y 480p utilizando una sola H100. Las muestras de demostración están disponibles en https://koichi-saito-sony.github.io/soundreactor/.
Con los modelos de difusión y emparejamiento de flujo logrando un rendimiento de generación de última generación, el interés de la comunidad ahora se ha centrado en reducir el tiempo de inferencia sin sacrificar la calidad de las muestras. Los Modelos de Consistencia (CMs, por sus siglas en inglés), que están entrenados para ser consistentes en trayectorias de difusión o ecuaciones diferenciales ordinarias de flujo de probabilidad (PF-ODE, por sus siglas en inglés), permiten muestreos de flujo o difusión en uno o dos pasos. Sin embargo, los CMs generalmente requieren un entrenamiento prolongado con tamaños de lote grandes para obtener una calidad de muestra competitiva. En este artículo, examinamos la dinámica de entrenamiento de los CMs cerca de la convergencia y descubrimos que las tangentes de los CMs —direcciones de actualización de la salida de los CMs— son bastante oscilatorias, en el sentido de que se mueven paralelas a la variedad de datos, no hacia la variedad. Para mitigar las tangentes oscilatorias, proponemos una nueva función de pérdida, llamada distancia de características de la variedad (MFD, por sus siglas en inglés), que proporciona tangentes alineadas con la variedad que apuntan hacia la variedad de datos. En consecuencia, nuestro método —denominado Alinea Tu Tangente (AYT, por sus siglas en inglés)— puede acelerar el entrenamiento de los CMs en órdenes de magnitud e incluso superar la métrica de similitud de parches de imagen perceptual aprendida (LPIPS, por sus siglas en inglés). Además, encontramos que nuestra función de pérdida permite el entrenamiento con tamaños de lote extremadamente pequeños sin comprometer la calidad de las muestras. Código: https://github.com/1202kbs/AYT.
Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han logrado un rendimiento sólido en benchmarks visuales generales, pero enfrentan dificultades con tareas fuera de distribución (OOD, por sus siglas en inglés) en dominios especializados como las imágenes médicas, donde los datos etiquetados son limitados y costosos. Presentamos LEAML, un marco de adaptación eficiente en etiquetas que aprovecha tanto muestras escasas de VQA (Visual Question Answering) etiquetadas como imágenes no etiquetadas abundantes. Nuestro enfoque genera pares de preguntas-respuestas pseudo-relevantes para datos no etiquetados utilizando un generador de preguntas y respuestas regularizado mediante destilación de descripciones. Es importante destacar que actualizamos selectivamente solo aquellas neuronas más relevantes para la tarea de preguntas y respuestas, permitiendo que el Generador de Preguntas y Respuestas adquiera eficientemente conocimiento específico del dominio durante la destilación. Los experimentos en endoscopía gastrointestinal y VQA deportiva demuestran que LEAML supera consistentemente el ajuste fino estándar bajo supervisión mínima, resaltando la efectividad de nuestro marco LEAML propuesto.
Los impresionantes avances en el rendimiento de los modelos de lenguaje modernos dependen actualmente del escalado de parámetros: los modelos más grandes almacenan más conocimiento del mundo y razonan mejor. Sin embargo, comprimir todo el conocimiento del mundo en parámetros es innecesario, ya que solo se utiliza una fracción por cada instrucción, e impráctico para dispositivos de borde con memoria y capacidad de cómputo limitadas durante la inferencia. Abordamos esta limitación mediante una arquitectura aumentada con memoria y una estrategia de preentrenamiento alineada con los paradigmas de hardware existentes. Introducimos modelos de lenguaje pequeños que acceden a grandes bancos de memoria paramétrica jerárquica que codifican conocimiento del mundo. Durante el preentrenamiento y la inferencia, recuperamos un bloque de memoria pequeño y dependiente del contexto, y lo añadimos al modelo. Nuestro preentrenamiento aprende a almacenar conocimiento del mundo de cola larga en los parámetros de la memoria, mientras que el modelo de lenguaje pequeño actúa como un ancla que captura conocimiento común y habilidades de razonamiento general. A través de experimentos a escala de billones de tokens, mostramos ganancias significativas: un modelo de 160 millones de parámetros aumentado con una memoria de 18 millones de parámetros, recuperada de un banco de memoria de 4.6 mil millones, obtiene un rendimiento comparable al de un modelo regular con más del doble de parámetros. Mediante experimentos exhaustivos, estudiamos el tipo y tamaño óptimos de memorias paramétricas en transformadores, escalándolas a más de 21 mil millones de parámetros. Encontramos que nuestras memorias jerárquicas de avance propuestas funcionan de manera robusta en diversas arquitecturas de transformadores, ya sea que se añadan durante el preentrenamiento o de manera posterior.
El desarrollo de software depende en gran medida de pruebas unitarias extensas, lo que hace que la eficiencia de la Generación Automatizada de Pruebas Unitarias (UTG, por sus siglas en inglés) sea particularmente importante. Sin embargo, la mayoría de los modelos de lenguaje grandes (LLMs) existentes generan casos de prueba un token a la vez en cada pasada hacia adelante, lo que resulta en una UTG ineficiente. Recientemente, han surgido los modelos de lenguaje grandes basados en difusión (dLLMs), que ofrecen capacidades prometedoras de generación en paralelo y muestran un fuerte potencial para una UTG eficiente. A pesar de esta ventaja, su aplicación a la UTG sigue estando limitada por una clara compensación entre eficiencia y calidad de las pruebas, ya que aumentar el número de tokens generados en cada paso suele provocar una disminución drástica en la calidad de los casos de prueba. Para superar esta limitación, presentamos DiffTester, un marco de aceleración específicamente diseñado para dLLMs en UTG. La idea clave de DiffTester es que las pruebas unitarias dirigidas al mismo método focal suelen compartir patrones estructurales repetitivos. Al identificar dinámicamente estos patrones comunes mediante el análisis de árboles de sintaxis abstracta durante la generación, DiffTester aumenta de manera adaptativa el número de tokens producidos en cada paso sin comprometer la calidad de la salida. Para permitir una evaluación exhaustiva, ampliamos el benchmark original TestEval, que estaba limitado a Python, mediante la introducción de lenguajes de programación adicionales, incluidos Java y C++. Experimentos extensos en tres benchmarks con dos modelos representativos muestran que DiffTester ofrece una aceleración significativa mientras preserva la cobertura de pruebas. Además, DiffTester se generaliza bien en diferentes dLLMs y lenguajes de programación, proporcionando una solución práctica y escalable para una UTG eficiente en el desarrollo de software. El código y los datos están disponibles públicamente en https://github.com/wellbeingyang/DLM4UTG-open.
Comprender el riesgo en la conducción autónoma no solo requiere percepción y predicción, sino también un razonamiento de alto nivel sobre el comportamiento de los agentes y el contexto. Los métodos actuales basados en Modelos de Lenguaje Visual (VLMs) principalmente anclan a los agentes en imágenes estáticas y ofrecen juicios cualitativos, careciendo del razonamiento espacio-temporal necesario para capturar cómo evolucionan los riesgos a lo largo del tiempo. Para abordar esta brecha, proponemos NuRisk, un conjunto de datos integral de Respuesta a Preguntas Visuales (VQA) que comprende 2,900 escenarios y 1.1 millones de muestras a nivel de agente, construido sobre datos del mundo real de nuScenes y Waymo, complementado con escenarios críticos de seguridad del simulador CommonRoad. El conjunto de datos proporciona imágenes secuenciales basadas en Vista de Ojo de Pájaro (BEV) con anotaciones cuantitativas de riesgo a nivel de agente, permitiendo el razonamiento espacio-temporal. Evaluamos VLMs conocidos a través de diferentes técnicas de indicación y encontramos que no logran realizar un razonamiento espacio-temporal explícito, alcanzando una precisión máxima del 33% con alta latencia. Para abordar estas deficiencias, nuestro agente VLM de 7B ajustado mejora la precisión al 41% y reduce la latencia en un 75%, demostrando capacidades explícitas de razonamiento espacio-temporal que los modelos propietarios carecían. Si bien esto representa un avance significativo, la modesta precisión subraya el profundo desafío de la tarea, estableciendo a NuRisk como un punto de referencia crítico para avanzar en el razonamiento espacio-temporal en la conducción autónoma.
La evaluación del cumplimiento de políticas es una tarea fundamental que consiste en determinar si un caso de entrada cumple estrictamente con un conjunto de reglas definidas por humanos, comúnmente conocidas como políticas. En la práctica, los expertos humanos siguen un proceso sistemático y paso a paso para identificar violaciones con respecto a las estipulaciones específicas detalladas en la política. Sin embargo, la documentación de estos procesos de razonamiento de nivel experto, considerados como estándar de oro, es costosa de obtener. En este artículo, presentamos las Trazas de Razonamiento de Políticas (PRT, por sus siglas en inglés), una forma especializada de cadenas de razonamiento generadas que sirven como puente de razonamiento para mejorar las capacidades de evaluación de cumplimiento de políticas de un modelo de lenguaje grande (LLM). Nuestras evaluaciones empíricas demuestran que el uso de PRT en escenarios tanto de inferencia como de entrenamiento mejora significativamente el rendimiento de modelos de acceso abierto y comerciales, estableciendo un nuevo estado del arte para las políticas HIPAA y GDPR. Más allá de las mejoras en precisión, también destacamos cómo las PRT pueden mejorar la capacidad de un LLM para citar con precisión las cláusulas de las políticas, así como influir en las decisiones de cumplimiento a través de su alta utilización en las cadenas de pensamiento originales.