HuggingFace Daily Papers

Papers Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Seleccionar fecha

11 papers found

Investigador Profundo con Difusión en Tiempo de Prueba
Deep Researcher with Test-Time Diffusion

Jul 21

ByRujun Han, Yanfei Chen, Zoey CuiZhu, Lesly Miculicich, Guan Sun, Yuanjun Bi, Weiming Wen, Hui Wan, Chunfeng Wen, Solène Maître, George Lee, Vishy Tirumalashetty, Emily Xue, Zizhao Zhang, Salem Haykal, Burak Gokturk, Tomas Pfister, Chen-Yu Lee

Los agentes de investigación profunda, impulsados por modelos de lenguaje de gran escala (LLMs), están avanzando rápidamente; sin embargo, su rendimiento a menudo se estanca al generar informes de investigación complejos y extensos utilizando algoritmos genéricos de escalamiento en tiempo de prueba. Inspirándonos en la naturaleza iterativa de la investigación humana, que involucra ciclos de búsqueda, razonamiento y revisión, proponemos el Investigador Profundo de Difusión en Tiempo de Prueba (TTD-DR, por sus siglas en inglés). Este novedoso marco conceptualiza la generación de informes de investigación como un proceso de difusión. El TTD-DR inicia este proceso con un borrador preliminar, un esqueleto actualizable que sirve como base evolutiva para guiar la dirección de la investigación. Este borrador se refina iterativamente mediante un proceso de "eliminación de ruido", que se informa dinámicamente por un mecanismo de recuperación que incorpora información externa en cada paso. El proceso central se ve aún más potenciado por un algoritmo de auto-evolución aplicado a cada componente del flujo de trabajo del agente, asegurando la generación de contexto de alta calidad para el proceso de difusión. Este diseño centrado en el borrador hace que el proceso de redacción de informes sea más oportuno y coherente, al tiempo que reduce la pérdida de información durante el proceso de búsqueda iterativo. Demostramos que nuestro TTD-DR logra resultados de vanguardia en una amplia gama de benchmarks que requieren búsqueda intensiva y razonamiento multi-hop, superando significativamente a los agentes de investigación profunda existentes.

La Geometría de la Cuantización de LLM: GPTQ como el Algoritmo del Plano Más Cercano de Babai
The Geometry of LLM Quantization: GPTQ as Babai's Nearest Plane Algorithm

Jul 24

ByJiale Chen, Torsten Hoefler, Dan Alistarh

La cuantización de los pesos de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) de 16 bits a un ancho de bits inferior es el enfoque de facto para implementar transformadores masivos en aceleradores más asequibles. GPTQ surgió como uno de los métodos estándar para la cuantización post-entrenamiento en una sola pasada a escala de LLM. Sin embargo, su funcionamiento interno se describe como una secuencia de actualizaciones algebraicas ad hoc que oscurecen cualquier significado geométrico o garantías en el peor de los casos. En este trabajo, demostramos que, cuando se ejecuta de atrás hacia adelante (desde la última hasta la primera dimensión) para una capa lineal, GPTQ es matemáticamente idéntico al algoritmo del plano más cercano de Babai para el problema clásico del vector más cercano (CVP, por sus siglas en inglés) en una red definida por la matriz Hessiana de las entradas de la capa. Esta equivalencia se basa en un argumento matemático sofisticado y tiene dos consecuencias analíticas: (i) el paso de propagación de errores de GPTQ adquiere una interpretación geométrica intuitiva; (ii) GPTQ hereda el límite superior de error del algoritmo de Babai bajo la condición de no recorte. En conjunto, estos resultados sitúan a GPTQ sobre una base teórica sólida y abren la puerta a la importación de décadas de progreso en algoritmos de redes hacia el diseño de futuros algoritmos de cuantización para modelos de miles de millones de parámetros.

MMBench-GUI: Marco de Evaluación Jerárquico Multiplataforma para Agentes de Interfaz Gráfica de Usuario
MMBench-GUI: Hierarchical Multi-Platform Evaluation Framework for GUI Agents

Jul 25

ByXuehui Wang, Zhenyu Wu, JingJing Xie, Zichen Ding, Bowen Yang, Zehao Li, Zhaoyang Liu, Qingyun Li, Xuan Dong, Zhe Chen, Weiyun Wang, Xiangyu Zhao, Jixuan Chen, Haodong Duan, Tianbao Xie, Chenyu Yang, Shiqian Su, Yue Yu, Yuan Huang, Yiqian Liu, Xiao Zhang, Yanting Zhang, Xiangyu Yue, Weijie Su, Xizhou Zhu, Wei Shen, Jifeng Dai, Wenhai Wang

Presentamos MMBench-GUI, un benchmark jerárquico para evaluar agentes de automatización de interfaces gráficas de usuario (GUI) en plataformas como Windows, macOS, Linux, iOS, Android y Web. Este benchmark consta de cuatro niveles: Comprensión del Contenido de la GUI, Fundamentación de Elementos, Automatización de Tareas y Colaboración en Tareas, cubriendo habilidades esenciales para los agentes de GUI. Además, proponemos una nueva métrica llamada Área de Eficiencia-Calidad (EQA, por sus siglas en inglés) para evaluar la eficiencia de ejecución de los agentes de GUI en escenarios de automatización en línea. A través de MMBench-GUI, identificamos que la fundamentación visual precisa es un determinante crítico para el éxito general de las tareas, destacando los beneficios sustanciales de los marcos modulares que integran módulos especializados de fundamentación. Asimismo, para lograr una automatización de GUI confiable, un agente requiere fuertes habilidades de planificación de tareas y generalización multiplataforma, donde la memoria de contexto largo, un amplio espacio de acciones y el razonamiento a largo plazo desempeñan un papel crucial. Más importante aún, la eficiencia en las tareas sigue siendo una dimensión críticamente subexplorada, y todos los modelos presentan ineficiencias sustanciales, con pasos redundantes excesivos incluso cuando las tareas se completan finalmente. La integración de localización precisa, planificación efectiva y estrategias de detención temprana es indispensable para habilitar una automatización de GUI verdaderamente eficiente y escalable. Nuestro código de benchmark, datos de evaluación y entorno de ejecución estarán disponibles públicamente en https://github.com/open-compass/MMBench-GUI.

GEPA: La Evolución de Indicaciones Reflexivas Puede Superar al Aprendizaje por Refuerzo
GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning

Jul 25

ByLakshya A Agrawal, Shangyin Tan, Dilara Soylu, Noah Ziems, Rishi Khare, Krista Opsahl-Ong, Arnav Singhvi, Herumb Shandilya, Michael J Ryan, Meng Jiang, Christopher Potts, Koushik Sen, Alexandros G. Dimakis, Ion Stoica, Dan Klein, Matei Zaharia, Omar Khattab

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se están adaptando cada vez más a tareas específicas mediante métodos de aprendizaje por refuerzo (RL, por sus siglas en inglés), como la Optimización de Políticas Relativas de Grupo (GRPO, por sus siglas en inglés), que a menudo requieren miles de iteraciones para aprender nuevas tareas. Argumentamos que la naturaleza interpretable del lenguaje puede proporcionar un medio de aprendizaje mucho más rico para los LLMs, en comparación con los gradientes de política derivados de recompensas escalares y dispersas. Para probar esto, presentamos GEPA (Genetic-Pareto), un optimizador de instrucciones que incorpora exhaustivamente la reflexión en lenguaje natural para aprender reglas de alto nivel a través del ensayo y error. Dado cualquier sistema de IA que contenga una o más instrucciones de LLM, GEPA toma muestras de trayectorias a nivel del sistema (por ejemplo, razonamiento, llamadas a herramientas y salidas de herramientas) y reflexiona sobre ellas en lenguaje natural para diagnosticar problemas, proponer y probar actualizaciones de instrucciones, y combinar lecciones complementarias de la frontera de Pareto de sus propios intentos. Como resultado del diseño de GEPA, a menudo puede convertir incluso unas pocas iteraciones en una gran mejora de calidad. En cuatro tareas, GEPA supera a GRPO en un 10 % en promedio y hasta en un 20 %, mientras utiliza hasta 35 veces menos iteraciones. GEPA también supera al principal optimizador de instrucciones, MIPROv2, en más de un 10 % en dos LLMs, y demuestra resultados prometedores como estrategia de búsqueda en tiempo de inferencia para la optimización de código.

Cuando los Tokens Hablan Demasiado: Una Revisión de la Compresión de Tokens de Contexto Largo Multimodal en Imágenes, Videos y Audios
When Tokens Talk Too Much: A Survey of Multimodal Long-Context Token Compression across Images, Videos, and Audios

Jul 27

ByKele Shao, Keda Tao, Kejia Zhang, Sicheng Feng, Mu Cai, Yuzhang Shang, Haoxuan You, Can Qin, Yang Sui, Huan Wang

Los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) han logrado avances notables, impulsados en gran medida por su capacidad para procesar contextos cada vez más largos y complejos, como imágenes de alta resolución, secuencias de video extendidas y entradas de audio prolongadas. Si bien esta capacidad mejora significativamente las capacidades de los MLLMs, introduce desafíos computacionales sustanciales, principalmente debido a la complejidad cuadrática de los mecanismos de autoatención con numerosos tokens de entrada. Para mitigar estos cuellos de botella, la compresión de tokens ha surgido como un enfoque prometedor y crítico, reduciendo eficientemente el número de tokens tanto durante el entrenamiento como en la inferencia. En este artículo, presentamos la primera revisión sistemática y síntesis del campo emergente de la compresión de tokens en contextos largos multimodales. Reconociendo que las estrategias de compresión efectivas están profundamente ligadas a las características y redundancias únicas de cada modalidad, categorizamos los enfoques existentes según su enfoque principal en los datos, permitiendo a los investigadores acceder rápidamente y aprender métodos adaptados a su área de interés específica: (1) compresión centrada en imágenes, que aborda la redundancia espacial en datos visuales; (2) compresión centrada en video, que aborda la redundancia espacio-temporal en secuencias dinámicas; y (3) compresión centrada en audio, que maneja la redundancia temporal y espectral en señales acústicas. Más allá de esta categorización basada en la modalidad, analizamos los métodos según sus mecanismos subyacentes, incluyendo enfoques basados en transformaciones, similitudes, atención y consultas. Al proporcionar una visión general estructurada y exhaustiva, esta revisión tiene como objetivo consolidar el progreso actual, identificar los desafíos clave e inspirar futuras direcciones de investigación en este dominio en rápida evolución. También mantenemos un repositorio público para rastrear y actualizar continuamente los últimos avances en esta área prometedora.

CLEAR: Análisis de errores mediante LLM-como-Juez simplificado
CLEAR: Error Analysis via LLM-as-a-Judge Made Easy

Jul 24

ByAsaf Yehudai, Lilach Eden, Yotam Perlitz, Roy Bar-Haim, Michal Shmueli-Scheuer

La evaluación de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) depende cada vez más de otros LLMs que actúan como jueces. Sin embargo, los paradigmas de evaluación actuales suelen generar una única puntuación o clasificación, respondiendo cuál modelo es mejor pero no por qué. Aunque esenciales para la comparativa, estas puntuaciones generales ocultan las razones específicas y accionables detrás del rendimiento de un modelo. Para cerrar esta brecha, presentamos CLEAR, un paquete interactivo y de código abierto para el análisis de errores basado en LLMs. CLEAR primero genera comentarios textuales por instancia, luego crea un conjunto de problemas de errores a nivel del sistema y cuantifica la prevalencia de cada problema identificado. Nuestro paquete también proporciona a los usuarios un panel interactivo que permite un análisis exhaustivo de errores mediante visualizaciones agregadas, aplica filtros interactivos para aislar problemas específicos o rangos de puntuación, y profundiza en las instancias individuales que ejemplifican un patrón de comportamiento particular. Demostramos el análisis de CLEAR para puntos de referencia de RAG y Matemáticas, y mostramos su utilidad a través de un estudio de caso de usuario.

Marco de Gestión de Riesgos de IA de Frontera en la Práctica: Un Análisis de Riesgos Informe Técnico
Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report

Jul 22

ByShanghai AI Lab, Xiaoyang Chen, Yunhao Chen, Zeren Chen, Zhiyun Chen, Hanyun Cui, Yawen Duan, Jiaxuan Guo, Qi Guo, Xuhao Hu, Hong Huang, Lige Huang, Chunxiao Li, Juncheng Li, Qihao Lin, Dongrui Liu, Xinmin Liu, Zicheng Liu, Chaochao Lu, Xiaoya Lu, Jingjing Qu, Qibing Ren, Jing Shao, Jingwei Shi, Jingwei Sun, Peng Wang, Weibing Wang, Jia Xu, Lewen Yan, Xiao Yu, Yi Yu, Boxuan Zhang, Jie Zhang, Weichen Zhang, Zhijie Zheng, Tianyi Zhou, Bowen Zhou

Para comprender e identificar los riesgos sin precedentes que plantean los modelos de inteligencia artificial (IA) en rápido avance, este informe presenta una evaluación exhaustiva de sus riesgos fronterizos. Basándonos en el análisis E-T-C (entorno de despliegue, fuente de amenaza, capacidad habilitante) del Marco de Gestión de Riesgos de IA Fronteriza (v1.0) (SafeWork-F1-Framework), identificamos riesgos críticos en siete áreas: ofensiva cibernética, riesgos biológicos y químicos, persuasión y manipulación, investigación y desarrollo (I+D) autónoma de IA no controlada, engaño y maquinación estratégica, autorreplicación y colusión. Guiados por la "Ley AI-45^circ", evaluamos estos riesgos utilizando "líneas rojas" (umbrales intolerables) y "líneas amarillas" (indicadores de alerta temprana) para definir zonas de riesgo: verde (riesgo manejable para despliegue rutinario y monitoreo continuo), amarillo (que requiere mitigaciones reforzadas y despliegue controlado) y rojo (que exige la suspensión del desarrollo y/o despliegue). Los resultados experimentales muestran que todos los modelos recientes de IA fronteriza se encuentran en las zonas verde y amarilla, sin cruzar las líneas rojas. Específicamente, ningún modelo evaluado cruza la línea amarilla para los riesgos de ofensiva cibernética o I+D de IA no controlada. En cuanto a la autorreplicación, y el engaño y maquinación estratégica, la mayoría de los modelos permanecen en la zona verde, excepto ciertos modelos de razonamiento en la zona amarilla. En persuasión y manipulación, la mayoría de los modelos están en la zona amarilla debido a su influencia efectiva sobre los humanos. Para los riesgos biológicos y químicos, no podemos descartar la posibilidad de que la mayoría de los modelos residan en la zona amarilla, aunque se requieren modelado detallado de amenazas y evaluación en profundidad para hacer afirmaciones adicionales. Este trabajo refleja nuestra comprensión actual de los riesgos fronterizos de la IA y urge a la acción colectiva para mitigar estos desafíos.

Autocorrección de Especificaciones: Mitigación del Hackeo de Recompensas en Contexto mediante Refinamiento en Tiempo de Prueba
Specification Self-Correction: Mitigating In-Context Reward Hacking Through Test-Time Refinement

Jul 24

ByVíctor Gallego

Los modelos de lenguaje (LMs) son susceptibles al "hacking de recompensas en contexto", donde explotan fallas en especificaciones o rúbricas defectuosas o contaminadas para obtener puntuaciones altas sin cumplir con la verdadera intención del usuario. Introducimos la Autocorrección de Especificaciones (SSC, por sus siglas en inglés), un marco novedoso en tiempo de prueba que permite a un LM identificar y corregir fallas dentro de su propia especificación guía. SSC emplea un proceso de inferencia de múltiples pasos en el que el modelo primero genera una respuesta basada en una especificación potencialmente contaminada, critica su salida y luego revisa la especificación misma para eliminar el vacío explotable. Finalmente, se genera una respuesta más robusta utilizando esta especificación autocorregida. A través de experimentos que abarcan tareas de escritura creativa y codificación agentiva con varios LMs, demostramos que, aunque los modelos inicialmente aprovechan especificaciones contaminadas en el 50-70\% de los casos, el proceso SSC reduce esta vulnerabilidad en más del 90\%. Esta reparación dinámica ocurre en tiempo de inferencia, no requiere modificación de pesos y conduce a un comportamiento del modelo más robustamente alineado. Código disponible en https://github.com/vicgalle/specification-self-correction.

PRIX: Aprendizaje de planificación a partir de píxeles en bruto para conducción autónoma de extremo a extremo
PRIX: Learning to Plan from Raw Pixels for End-to-End Autonomous Driving

Jul 23

ByMaciej K. Wozniak, Lianhang Liu, Yixi Cai, Patric Jensfelt

Si bien los modelos de conducción autónoma de extremo a extremo muestran resultados prometedores, su implementación práctica a menudo se ve obstaculizada por el gran tamaño de los modelos, la dependencia de costosos sensores LiDAR y las representaciones de características BEV computacionalmente intensivas. Esto limita su escalabilidad, especialmente para vehículos de mercado masivo equipados únicamente con cámaras. Para abordar estos desafíos, proponemos PRIX (Plan from Raw Pixels). Nuestra novedosa y eficiente arquitectura de conducción de extremo a extremo opera utilizando únicamente datos de cámaras, sin una representación explícita BEV y prescindiendo de la necesidad de LiDAR. PRIX aprovecha un extractor de características visuales junto con un cabezal de planificación generativo para predecir trayectorias seguras directamente a partir de entradas de píxeles en bruto. Un componente central de nuestra arquitectura es el Context-aware Recalibration Transformer (CaRT), un módulo novedoso diseñado para mejorar eficazmente las características visuales de múltiples niveles para una planificación más robusta. Demostramos mediante experimentos exhaustivos que PRIX alcanza un rendimiento de vanguardia en los benchmarks NavSim y nuScenes, igualando las capacidades de planificadores de difusión multimodal más grandes, mientras es significativamente más eficiente en términos de velocidad de inferencia y tamaño del modelo, lo que lo convierte en una solución práctica para la implementación en el mundo real. Nuestro trabajo es de código abierto y el código estará disponible en https://maxiuw.github.io/prix.

Chatear con IA: El giro sorprendente de la comunicación por video en tiempo real de humano a IA
Chat with AI: The Surprising Turn of Real-time Video Communication from Human to AI

Jul 14

ByJiangkai Wu, Zhiyuan Ren, Liming Liu, Xinggong Zhang

El Chat de Video con IA surge como un nuevo paradigma para la Comunicación en Tiempo Real (RTC, por sus siglas en inglés), donde uno de los interlocutores no es un humano, sino un Modelo de Lenguaje Multimodal de Gran Escala (MLLM, por sus siglas en inglés). Esto hace que la interacción entre humanos e IA sea más intuitiva, como si se estuviera conversando cara a cara con una persona real. Sin embargo, esto plantea desafíos significativos en cuanto a la latencia, ya que la inferencia del MLLM consume la mayor parte del tiempo de respuesta, dejando muy poco tiempo para la transmisión de video. Debido a la incertidumbre e inestabilidad de la red, la latencia de transmisión se convierte en un cuello de botella crítico que impide que la IA se comporte como una persona real. Para abordar este problema, proponemos Artic, un marco de Comunicación en Tiempo Real orientado a la IA, que explora el cambio en los requisitos de la red desde "humanos viendo video" hacia "IA entendiendo video". Para reducir drásticamente la tasa de bits mientras se mantiene la precisión del MLLM, proponemos la Transmisión de Video Consciente del Contexto, que reconoce la importancia de cada región del video para la conversación y asigna la tasa de bits casi exclusivamente a las regiones importantes para el chat. Para evitar la retransmisión de paquetes, proponemos una Tasa de Cuadros Adaptativa Resiliente a Pérdidas, que aprovecha los cuadros anteriores para sustituir los cuadros perdidos o retrasados, evitando el desperdicio de tasa de bits. Para evaluar el impacto de la calidad de la transmisión de video en la precisión del MLLM, construimos el primer punto de referencia, denominado Punto de Referencia de Comprensión de Video Degradado (DeViBench). Finalmente, discutimos algunas preguntas abiertas y soluciones en curso para el Chat de Video con IA.

AFRDA: Refinamiento de Características con Atención para la Segmentación Semántica con Adaptación de Dominio
AFRDA: Attentive Feature Refinement for Domain Adaptive Semantic Segmentation

Jul 23

ByMd. Al-Masrur Khan, Durgakant Pushp, Lantao Liu

En la Segmentación Semántica Adaptativa de Dominio No Supervisado (UDA-SS), un modelo se entrena con datos etiquetados de un dominio fuente (por ejemplo, imágenes sintéticas) y se adapta a un dominio objetivo sin etiquetar (por ejemplo, imágenes del mundo real) sin acceso a anotaciones del objetivo. Los métodos existentes de UDA-SS suelen tener dificultades para equilibrar los detalles locales finos con la información contextual global, lo que genera errores de segmentación en regiones complejas. Para abordar esto, presentamos el módulo de Refinamiento Adaptativo de Características (AFR), que mejora la precisión de la segmentación refinando características de alta resolución utilizando prioridades semánticas extraídas de logits de baja resolución. AFR también integra componentes de alta frecuencia, que capturan estructuras finas y proporcionan información crucial sobre los límites, mejorando la delimitación de objetos. Además, AFR equilibra de manera adaptativa la información local y global mediante atención basada en incertidumbre, reduciendo las clasificaciones erróneas. Su diseño ligero permite una integración sin problemas en métodos UDA basados en HRDA, logrando un rendimiento de segmentación de vanguardia. Nuestro enfoque mejora los métodos existentes de UDA-SS en un 1.05% de mIoU en GTA V --> Cityscapes y un 1.04% de mIoU en Synthia --> Cityscapes. La implementación de nuestro marco está disponible en: https://github.com/Masrur02/AFRDA.

Marco de Gestión de Riesgos de IA de Frontera en la Práctica: Un Análisis de Riesgos Informe Técnico
Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report

Jul 22