Artículos de investigación en IA seleccionados diariamente con traducciones
Los agentes de investigación profunda, impulsados por modelos de lenguaje de gran escala (LLMs), están avanzando rápidamente; sin embargo, su rendimiento a menudo se estanca al generar informes de investigación complejos y extensos utilizando algoritmos genéricos de escalamiento en tiempo de prueba. Inspirándonos en la naturaleza iterativa de la investigación humana, que involucra ciclos de búsqueda, razonamiento y revisión, proponemos el Investigador Profundo de Difusión en Tiempo de Prueba (TTD-DR, por sus siglas en inglés). Este novedoso marco conceptualiza la generación de informes de investigación como un proceso de difusión. El TTD-DR inicia este proceso con un borrador preliminar, un esqueleto actualizable que sirve como base evolutiva para guiar la dirección de la investigación. Este borrador se refina iterativamente mediante un proceso de "eliminación de ruido", que se informa dinámicamente por un mecanismo de recuperación que incorpora información externa en cada paso. El proceso central se ve aún más potenciado por un algoritmo de auto-evolución aplicado a cada componente del flujo de trabajo del agente, asegurando la generación de contexto de alta calidad para el proceso de difusión. Este diseño centrado en el borrador hace que el proceso de redacción de informes sea más oportuno y coherente, al tiempo que reduce la pérdida de información durante el proceso de búsqueda iterativo. Demostramos que nuestro TTD-DR logra resultados de vanguardia en una amplia gama de benchmarks que requieren búsqueda intensiva y razonamiento multi-hop, superando significativamente a los agentes de investigación profunda existentes.
La cuantización de los pesos de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) de 16 bits a un ancho de bits inferior es el enfoque de facto para implementar transformadores masivos en aceleradores más asequibles. GPTQ surgió como uno de los métodos estándar para la cuantización post-entrenamiento en una sola pasada a escala de LLM. Sin embargo, su funcionamiento interno se describe como una secuencia de actualizaciones algebraicas ad hoc que oscurecen cualquier significado geométrico o garantías en el peor de los casos. En este trabajo, demostramos que, cuando se ejecuta de atrás hacia adelante (desde la última hasta la primera dimensión) para una capa lineal, GPTQ es matemáticamente idéntico al algoritmo del plano más cercano de Babai para el problema clásico del vector más cercano (CVP, por sus siglas en inglés) en una red definida por la matriz Hessiana de las entradas de la capa. Esta equivalencia se basa en un argumento matemático sofisticado y tiene dos consecuencias analíticas: (i) el paso de propagación de errores de GPTQ adquiere una interpretación geométrica intuitiva; (ii) GPTQ hereda el límite superior de error del algoritmo de Babai bajo la condición de no recorte. En conjunto, estos resultados sitúan a GPTQ sobre una base teórica sólida y abren la puerta a la importación de décadas de progreso en algoritmos de redes hacia el diseño de futuros algoritmos de cuantización para modelos de miles de millones de parámetros.
Presentamos MMBench-GUI, un benchmark jerárquico para evaluar agentes de automatización de interfaces gráficas de usuario (GUI) en plataformas como Windows, macOS, Linux, iOS, Android y Web. Este benchmark consta de cuatro niveles: Comprensión del Contenido de la GUI, Fundamentación de Elementos, Automatización de Tareas y Colaboración en Tareas, cubriendo habilidades esenciales para los agentes de GUI. Además, proponemos una nueva métrica llamada Área de Eficiencia-Calidad (EQA, por sus siglas en inglés) para evaluar la eficiencia de ejecución de los agentes de GUI en escenarios de automatización en línea. A través de MMBench-GUI, identificamos que la fundamentación visual precisa es un determinante crítico para el éxito general de las tareas, destacando los beneficios sustanciales de los marcos modulares que integran módulos especializados de fundamentación. Asimismo, para lograr una automatización de GUI confiable, un agente requiere fuertes habilidades de planificación de tareas y generalización multiplataforma, donde la memoria de contexto largo, un amplio espacio de acciones y el razonamiento a largo plazo desempeñan un papel crucial. Más importante aún, la eficiencia en las tareas sigue siendo una dimensión críticamente subexplorada, y todos los modelos presentan ineficiencias sustanciales, con pasos redundantes excesivos incluso cuando las tareas se completan finalmente. La integración de localización precisa, planificación efectiva y estrategias de detención temprana es indispensable para habilitar una automatización de GUI verdaderamente eficiente y escalable. Nuestro código de benchmark, datos de evaluación y entorno de ejecución estarán disponibles públicamente en https://github.com/open-compass/MMBench-GUI.
Los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) han logrado avances notables, impulsados en gran medida por su capacidad para procesar contextos cada vez más largos y complejos, como imágenes de alta resolución, secuencias de video extendidas y entradas de audio prolongadas. Si bien esta capacidad mejora significativamente las capacidades de los MLLMs, introduce desafíos computacionales sustanciales, principalmente debido a la complejidad cuadrática de los mecanismos de autoatención con numerosos tokens de entrada. Para mitigar estos cuellos de botella, la compresión de tokens ha surgido como un enfoque prometedor y crítico, reduciendo eficientemente el número de tokens tanto durante el entrenamiento como en la inferencia. En este artículo, presentamos la primera revisión sistemática y síntesis del campo emergente de la compresión de tokens en contextos largos multimodales. Reconociendo que las estrategias de compresión efectivas están profundamente ligadas a las características y redundancias únicas de cada modalidad, categorizamos los enfoques existentes según su enfoque principal en los datos, permitiendo a los investigadores acceder rápidamente y aprender métodos adaptados a su área de interés específica: (1) compresión centrada en imágenes, que aborda la redundancia espacial en datos visuales; (2) compresión centrada en video, que aborda la redundancia espacio-temporal en secuencias dinámicas; y (3) compresión centrada en audio, que maneja la redundancia temporal y espectral en señales acústicas. Más allá de esta categorización basada en la modalidad, analizamos los métodos según sus mecanismos subyacentes, incluyendo enfoques basados en transformaciones, similitudes, atención y consultas. Al proporcionar una visión general estructurada y exhaustiva, esta revisión tiene como objetivo consolidar el progreso actual, identificar los desafíos clave e inspirar futuras direcciones de investigación en este dominio en rápida evolución. También mantenemos un repositorio público para rastrear y actualizar continuamente los últimos avances en esta área prometedora.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se están adaptando cada vez más a tareas específicas mediante métodos de aprendizaje por refuerzo (RL, por sus siglas en inglés), como la Optimización de Políticas Relativas de Grupo (GRPO, por sus siglas en inglés), que a menudo requieren miles de iteraciones para aprender nuevas tareas. Argumentamos que la naturaleza interpretable del lenguaje puede proporcionar un medio de aprendizaje mucho más rico para los LLMs, en comparación con los gradientes de política derivados de recompensas escalares y dispersas. Para probar esto, presentamos GEPA (Genetic-Pareto), un optimizador de instrucciones que incorpora exhaustivamente la reflexión en lenguaje natural para aprender reglas de alto nivel a través del ensayo y error. Dado cualquier sistema de IA que contenga una o más instrucciones de LLM, GEPA toma muestras de trayectorias a nivel del sistema (por ejemplo, razonamiento, llamadas a herramientas y salidas de herramientas) y reflexiona sobre ellas en lenguaje natural para diagnosticar problemas, proponer y probar actualizaciones de instrucciones, y combinar lecciones complementarias de la frontera de Pareto de sus propios intentos. Como resultado del diseño de GEPA, a menudo puede convertir incluso unas pocas iteraciones en una gran mejora de calidad. En cuatro tareas, GEPA supera a GRPO en un 10 % en promedio y hasta en un 20 %, mientras utiliza hasta 35 veces menos iteraciones. GEPA también supera al principal optimizador de instrucciones, MIPROv2, en más de un 10 % en dos LLMs, y demuestra resultados prometedores como estrategia de búsqueda en tiempo de inferencia para la optimización de código.
La evaluación de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) depende cada vez más de otros LLMs que actúan como jueces. Sin embargo, los paradigmas de evaluación actuales suelen generar una única puntuación o clasificación, respondiendo cuál modelo es mejor pero no por qué. Aunque esenciales para la comparativa, estas puntuaciones generales ocultan las razones específicas y accionables detrás del rendimiento de un modelo. Para cerrar esta brecha, presentamos CLEAR, un paquete interactivo y de código abierto para el análisis de errores basado en LLMs. CLEAR primero genera comentarios textuales por instancia, luego crea un conjunto de problemas de errores a nivel del sistema y cuantifica la prevalencia de cada problema identificado. Nuestro paquete también proporciona a los usuarios un panel interactivo que permite un análisis exhaustivo de errores mediante visualizaciones agregadas, aplica filtros interactivos para aislar problemas específicos o rangos de puntuación, y profundiza en las instancias individuales que ejemplifican un patrón de comportamiento particular. Demostramos el análisis de CLEAR para puntos de referencia de RAG y Matemáticas, y mostramos su utilidad a través de un estudio de caso de usuario.
Los modelos de lenguaje (LMs) son susceptibles al "hacking de recompensas en contexto", donde explotan fallas en especificaciones o rúbricas defectuosas o contaminadas para obtener puntuaciones altas sin cumplir con la verdadera intención del usuario. Introducimos la Autocorrección de Especificaciones (SSC, por sus siglas en inglés), un marco novedoso en tiempo de prueba que permite a un LM identificar y corregir fallas dentro de su propia especificación guía. SSC emplea un proceso de inferencia de múltiples pasos en el que el modelo primero genera una respuesta basada en una especificación potencialmente contaminada, critica su salida y luego revisa la especificación misma para eliminar el vacío explotable. Finalmente, se genera una respuesta más robusta utilizando esta especificación autocorregida. A través de experimentos que abarcan tareas de escritura creativa y codificación agentiva con varios LMs, demostramos que, aunque los modelos inicialmente aprovechan especificaciones contaminadas en el 50-70\% de los casos, el proceso SSC reduce esta vulnerabilidad en más del 90\%. Esta reparación dinámica ocurre en tiempo de inferencia, no requiere modificación de pesos y conduce a un comportamiento del modelo más robustamente alineado. Código disponible en https://github.com/vicgalle/specification-self-correction.
Si bien los modelos de conducción autónoma de extremo a extremo muestran resultados prometedores, su implementación práctica a menudo se ve obstaculizada por el gran tamaño de los modelos, la dependencia de costosos sensores LiDAR y las representaciones de características BEV computacionalmente intensivas. Esto limita su escalabilidad, especialmente para vehículos de mercado masivo equipados únicamente con cámaras. Para abordar estos desafíos, proponemos PRIX (Plan from Raw Pixels). Nuestra novedosa y eficiente arquitectura de conducción de extremo a extremo opera utilizando únicamente datos de cámaras, sin una representación explícita BEV y prescindiendo de la necesidad de LiDAR. PRIX aprovecha un extractor de características visuales junto con un cabezal de planificación generativo para predecir trayectorias seguras directamente a partir de entradas de píxeles en bruto. Un componente central de nuestra arquitectura es el Context-aware Recalibration Transformer (CaRT), un módulo novedoso diseñado para mejorar eficazmente las características visuales de múltiples niveles para una planificación más robusta. Demostramos mediante experimentos exhaustivos que PRIX alcanza un rendimiento de vanguardia en los benchmarks NavSim y nuScenes, igualando las capacidades de planificadores de difusión multimodal más grandes, mientras es significativamente más eficiente en términos de velocidad de inferencia y tamaño del modelo, lo que lo convierte en una solución práctica para la implementación en el mundo real. Nuestro trabajo es de código abierto y el código estará disponible en https://maxiuw.github.io/prix.
Para comprender e identificar los riesgos sin precedentes que plantean los modelos de inteligencia artificial (IA) en rápido avance, este informe presenta una evaluación exhaustiva de sus riesgos fronterizos. Basándonos en el análisis E-T-C (entorno de despliegue, fuente de amenaza, capacidad habilitante) del Marco de Gestión de Riesgos de IA Fronteriza (v1.0) (SafeWork-F1-Framework), identificamos riesgos críticos en siete áreas: ofensiva cibernética, riesgos biológicos y químicos, persuasión y manipulación, investigación y desarrollo (I+D) autónoma de IA no controlada, engaño y maquinación estratégica, autorreplicación y colusión. Guiados por la "Ley AI-45^circ", evaluamos estos riesgos utilizando "líneas rojas" (umbrales intolerables) y "líneas amarillas" (indicadores de alerta temprana) para definir zonas de riesgo: verde (riesgo manejable para despliegue rutinario y monitoreo continuo), amarillo (que requiere mitigaciones reforzadas y despliegue controlado) y rojo (que exige la suspensión del desarrollo y/o despliegue). Los resultados experimentales muestran que todos los modelos recientes de IA fronteriza se encuentran en las zonas verde y amarilla, sin cruzar las líneas rojas. Específicamente, ningún modelo evaluado cruza la línea amarilla para los riesgos de ofensiva cibernética o I+D de IA no controlada. En cuanto a la autorreplicación, y el engaño y maquinación estratégica, la mayoría de los modelos permanecen en la zona verde, excepto ciertos modelos de razonamiento en la zona amarilla. En persuasión y manipulación, la mayoría de los modelos están en la zona amarilla debido a su influencia efectiva sobre los humanos. Para los riesgos biológicos y químicos, no podemos descartar la posibilidad de que la mayoría de los modelos residan en la zona amarilla, aunque se requieren modelado detallado de amenazas y evaluación en profundidad para hacer afirmaciones adicionales. Este trabajo refleja nuestra comprensión actual de los riesgos fronterizos de la IA y urge a la acción colectiva para mitigar estos desafíos.
El Chat de Video con IA surge como un nuevo paradigma para la Comunicación en Tiempo Real (RTC, por sus siglas en inglés), donde uno de los interlocutores no es un humano, sino un Modelo de Lenguaje Multimodal de Gran Escala (MLLM, por sus siglas en inglés). Esto hace que la interacción entre humanos e IA sea más intuitiva, como si se estuviera conversando cara a cara con una persona real. Sin embargo, esto plantea desafíos significativos en cuanto a la latencia, ya que la inferencia del MLLM consume la mayor parte del tiempo de respuesta, dejando muy poco tiempo para la transmisión de video. Debido a la incertidumbre e inestabilidad de la red, la latencia de transmisión se convierte en un cuello de botella crítico que impide que la IA se comporte como una persona real. Para abordar este problema, proponemos Artic, un marco de Comunicación en Tiempo Real orientado a la IA, que explora el cambio en los requisitos de la red desde "humanos viendo video" hacia "IA entendiendo video". Para reducir drásticamente la tasa de bits mientras se mantiene la precisión del MLLM, proponemos la Transmisión de Video Consciente del Contexto, que reconoce la importancia de cada región del video para la conversación y asigna la tasa de bits casi exclusivamente a las regiones importantes para el chat. Para evitar la retransmisión de paquetes, proponemos una Tasa de Cuadros Adaptativa Resiliente a Pérdidas, que aprovecha los cuadros anteriores para sustituir los cuadros perdidos o retrasados, evitando el desperdicio de tasa de bits. Para evaluar el impacto de la calidad de la transmisión de video en la precisión del MLLM, construimos el primer punto de referencia, denominado Punto de Referencia de Comprensión de Video Degradado (DeViBench). Finalmente, discutimos algunas preguntas abiertas y soluciones en curso para el Chat de Video con IA.
En la Segmentación Semántica Adaptativa de Dominio No Supervisado (UDA-SS), un modelo se entrena con datos etiquetados de un dominio fuente (por ejemplo, imágenes sintéticas) y se adapta a un dominio objetivo sin etiquetar (por ejemplo, imágenes del mundo real) sin acceso a anotaciones del objetivo. Los métodos existentes de UDA-SS suelen tener dificultades para equilibrar los detalles locales finos con la información contextual global, lo que genera errores de segmentación en regiones complejas. Para abordar esto, presentamos el módulo de Refinamiento Adaptativo de Características (AFR), que mejora la precisión de la segmentación refinando características de alta resolución utilizando prioridades semánticas extraídas de logits de baja resolución. AFR también integra componentes de alta frecuencia, que capturan estructuras finas y proporcionan información crucial sobre los límites, mejorando la delimitación de objetos. Además, AFR equilibra de manera adaptativa la información local y global mediante atención basada en incertidumbre, reduciendo las clasificaciones erróneas. Su diseño ligero permite una integración sin problemas en métodos UDA basados en HRDA, logrando un rendimiento de segmentación de vanguardia. Nuestro enfoque mejora los métodos existentes de UDA-SS en un 1.05% de mIoU en GTA V --> Cityscapes y un 1.04% de mIoU en Synthia --> Cityscapes. La implementación de nuestro marco está disponible en: https://github.com/Masrur02/AFRDA.