HuggingFace Daily Papers

Papers Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Seleccionar fecha

19 papers found

Sekai: Un conjunto de datos de video para la exploración del mundo
Sekai: A Video Dataset towards World Exploration

Jun 18

ByZhen Li, Chuanhao Li, Xiaofeng Mao, Shaoheng Lin, Ming Li, Shitian Zhao, Zhaopan Xu, Xinyue Li, Yukang Feng, Jianwen Sun, Zizhen Li, Fanrui Zhang, Jiaxin Ai, Zhixiang Wang, Yuwei Wu, Tong He, Jiangmiao Pang, Yu Qiao, Yunde Jia, Kaipeng Zhang

Las técnicas de generación de videos han logrado avances notables, prometiendo ser la base para la exploración interactiva de mundos. Sin embargo, los conjuntos de datos existentes para la generación de videos no son adecuados para el entrenamiento en exploración de mundos, ya que presentan algunas limitaciones: ubicaciones limitadas, duración corta, escenas estáticas y falta de anotaciones sobre la exploración y el mundo. En este artículo, presentamos Sekai (que significa "mundo" en japonés), un conjunto de datos de videos de alta calidad en primera persona a nivel mundial, con anotaciones ricas para la exploración de mundos. Consta de más de 5,000 horas de videos de caminata o vista de dron (FPV y UVA) de más de 100 países y regiones en 750 ciudades. Desarrollamos una caja de herramientas eficiente y efectiva para recopilar, preprocesar y anotar videos con ubicación, escena, clima, densidad de multitudes, descripciones y trayectorias de la cámara. Los experimentos demuestran la calidad del conjunto de datos. Además, utilizamos un subconjunto para entrenar un modelo interactivo de exploración de mundos en video, llamado YUME (que significa "sueño" en japonés). Creemos que Sekai beneficiará el área de generación de videos y exploración de mundos, y motivará aplicaciones valiosas.

GenRecal: Generación tras Recalibración de Modelos de Visión-Lenguaje de Grande a Pequeño
GenRecal: Generation after Recalibration from Large to Small Vision-Language Models

Jun 18

ByByung-Kwan Lee, Ryo Hachiuma, Yong Man Ro, Yu-Chiang Frank Wang, Yueh-Hua Wu

Los avances recientes en los modelos de visión y lenguaje (VLMs, por sus siglas en inglés) han aprovechado los grandes modelos de lenguaje (LLMs) para alcanzar un rendimiento comparable con sistemas de código cerrado como GPT-4V. Sin embargo, desplegar estos modelos en escenarios del mundo real, particularmente en dispositivos con recursos limitados, sigue siendo un desafío debido a sus considerables demandas computacionales. Esto ha impulsado el interés en destilar conocimiento de los VLMs grandes hacia contrapartes más pequeñas y eficientes. Un desafío clave surge aquí de la diversidad de arquitecturas de VLMs, que se construyen sobre diferentes LLMs y emplean tipos de tokens variados, que difieren en el tamaño del vocabulario, las divisiones de tokens y el orden de los índices de tokens. Para abordar este desafío de limitación a un tipo específico de VLM, presentamos Generation after Recalibration (GenRecal), un marco novedoso y de propósito general para la destilación de VLMs. GenRecal incorpora un Recalibrador que alinea y adapta las representaciones de características entre VLMs heterogéneos, permitiendo una transferencia efectiva de conocimiento entre diferentes tipos de VLMs. A través de experimentos extensos en múltiples benchmarks desafiantes, demostramos que GenRecal mejora significativamente los rendimientos de referencia, superando eventualmente a VLMs de gran escala, tanto de código abierto como cerrado.

No Todo Está Perdido: Recuperación de LLM sin Puntos de Control
All is Not Lost: LLM Recovery without Checkpoints

Jun 18

ByNikolay Blagoev, Oğuzhan Ersoy, Lydia Yiyu Chen

El entrenamiento de LLMs (Modelos de Lenguaje de Gran Escala) en nodos de computación descentralizados y de baja potencia, por ejemplo, múltiples instancias locales, reduce el costo de entrenamiento y permite la democratización del modelo. El desafío inevitable en este contexto es la rotación de nodos debido a fallos y las políticas de planificación del operador, lo que conduce a la pérdida de una etapa, es decir, una parte del modelo. Los enfoques convencionales para recuperarse de fallos son el uso de puntos de control, donde periódicamente se envía una copia completa del modelo a un almacenamiento adicional, o la computación redundante. Estos enfoques generan un sobrecosto significativo de comunicación y/o computación, incluso en casos sin fallos, y escalan pobremente en entornos con modelos grandes. En este artículo, proponemos CheckFree, un método de recuperación eficiente en el que una etapa fallida se sustituye por un promedio ponderado de las etapas vecinas más cercanas. A diferencia del estado del arte, CheckFree no requiere computación ni almacenamiento adicional. Sin embargo, debido a la naturaleza del promedio de etapas vecinas, solo puede recuperar fallos en etapas intermedias. Extendemos nuestro método a CheckFree+ con ejecución de tubería fuera de orden para tolerar fallos en las primeras y últimas etapas. Gracias a la tubería fuera de orden, el comportamiento de esas etapas es imitado por sus vecinas, lo que permite a CheckFree+ recuperarlas simplemente copiando los pesos del vecino inmediato. Para poder recuperar las capas de (des)incrustación, CheckFree+ copia esas capas en las etapas vecinas, lo que requiere un sobrecosto de almacenamiento relativamente pequeño. Evaluamos exhaustivamente nuestro método en modelos LLaMa con tamaños que van desde 124M hasta 1.5B, con frecuencias de fallos variables. En el caso de tasas de fallos bajas y medias (5-10%), CheckFree y CheckFree+ superan tanto a los puntos de control como a la computación redundante en términos de convergencia en tiempo real en más de un 12%. Ambas propuestas pueden ejecutarse a través de nuestro código disponible en: https://github.com/gensyn-ai/CheckFree.

ProtoRazonamiento: Los prototipos como base para el razonamiento generalizable en los LLM
ProtoReasoning: Prototypes as the Foundation for Generalizable Reasoning in LLMs

Jun 18

ByFeng He, Zijun Chen, Xinnian Liang, Tingting Ma, Yunqi Qiu, Shuangzhi Wu, Junchi Yan

Los avances recientes en los Modelos de Razonamiento a Gran Escala (LRMs, por sus siglas en inglés) entrenados con el razonamiento de Cadena Larga de Pensamiento (Long CoT, por sus siglas en inglés) han demostrado capacidades notables de generalización entre dominios. Sin embargo, los mecanismos subyacentes que respaldan dicha transferencia siguen siendo poco comprendidos. Planteamos la hipótesis de que la generalización entre dominios surge de prototipos abstractos de razonamiento compartidos —patrones fundamentales de razonamiento que capturan la esencia de los problemas en distintos dominios—. Estos prototipos minimizan los matices de la representación, revelando que tareas aparentemente diversas se basan en estructuras de razonamiento compartidas. Basándonos en esta hipótesis, proponemos ProtoReasoning, un marco que mejora la capacidad de razonamiento de los LLMs (Modelos de Lenguaje a Gran Escala) mediante el uso de representaciones prototípicas escalables y verificables (Prolog para razonamiento lógico, PDDL para planificación). ProtoReasoning incluye: (1) una canalización automatizada de construcción de prototipos que transforma problemas en representaciones prototípicas correspondientes; (2) un sistema de verificación integral que proporciona retroalimentación confiable a través de intérpretes de Prolog/PDDL; (3) la escalabilidad para sintetizar problemas de manera arbitraria dentro del espacio de prototipos mientras se garantiza la corrección. Experimentos extensos muestran que ProtoReasoning logra una mejora del 4.7 % sobre los modelos de referencia en razonamiento lógico (Enigmata-Eval), un 6.3 % en tareas de planificación, un 4.0 % en razonamiento general (MMLU) y un 1.0 % en matemáticas (AIME24). De manera significativa, nuestros estudios de ablación confirman que el aprendizaje en el espacio de prototipos también demuestra una mayor generalización a problemas estructuralmente similares en comparación con el entrenamiento únicamente en representaciones de lenguaje natural, validando nuestra hipótesis de que los prototipos de razonamiento sirven como base para el razonamiento generalizable en los modelos de lenguaje a gran escala.

Agentes Web Encarnados: Conectando los Reinos Físico-Digitales para una Inteligencia de Agentes Integrada
Embodied Web Agents: Bridging Physical-Digital Realms for Integrated Agent Intelligence

Jun 18

ByYining Hong, Rui Sun, Bingxuan Li, Xingcheng Yao, Maxine Wu, Alexander Chien, Da Yin, Ying Nian Wu, Zhecan James Wang, Kai-Wei Chang

Los agentes de IA actualmente están mayormente aislados: o bien recuperan y razonan sobre vastas cantidades de información y conocimiento digital obtenido en línea, o interactúan con el mundo físico a través de percepción, planificación y acción encarnada, pero rara vez ambas cosas. Esta separación limita su capacidad para resolver tareas que requieren inteligencia física y digital integrada, como cocinar siguiendo recetas en línea, navegar con datos de mapas dinámicos o interpretar puntos de referencia del mundo real utilizando conocimiento web. Introducimos los Agentes Web Encarnados, un paradigma novedoso para agentes de IA que conectan fluidamente la encarnación y el razonamiento a escala web. Para operacionalizar este concepto, primero desarrollamos los entornos de tareas de Agentes Web Encarnados, una plataforma de simulación unificada que integra estrechamente entornos realistas en 3D, tanto interiores como exteriores, con interfaces web funcionales. Sobre esta plataforma, construimos y publicamos el Benchmark de Agentes Web Encarnados, que abarca una diversa gama de tareas que incluyen cocinar, navegar, comprar, turismo y geolocalización, todas las cuales requieren razonamiento coordinado entre los ámbitos físico y digital para una evaluación sistemática de la inteligencia interdominio. Los resultados experimentales revelan brechas significativas de rendimiento entre los sistemas de IA de vanguardia y las capacidades humanas, estableciendo tanto desafíos como oportunidades en la intersección de la cognición encarnada y el acceso al conocimiento a escala web. Todos los conjuntos de datos, códigos y sitios web están disponibles públicamente en nuestra página del proyecto: https://embodied-web-agent.github.io/.

SwarmAgentic: Hacia la Generación Totalmente Automatizada de Sistemas Agénticos mediante Inteligencia de Enjambre
SwarmAgentic: Towards Fully Automated Agentic System Generation via Swarm Intelligence

Jun 18

ByYao Zhang, Chenyang Lin, Shijie Tang, Haokun Chen, Shijie Zhou, Yunpu Ma, Volker Tresp

El rápido avance de los Modelos de Lenguaje a Gran Escala ha impulsado los sistemas agentes en la toma de decisiones, la coordinación y la ejecución de tareas. Sin embargo, los marcos de generación de sistemas agentes existentes carecen de autonomía completa, faltando la generación de agentes desde cero, la optimización automática de la funcionalidad de los agentes y la colaboración, lo que limita la adaptabilidad y escalabilidad. Proponemos SwarmAgentic, un marco para la generación completamente automatizada de sistemas agentes que construye sistemas agentes desde cero y optimiza conjuntamente la funcionalidad de los agentes y la colaboración como componentes interdependientes mediante la exploración basada en lenguaje. Para permitir una búsqueda eficiente sobre estructuras a nivel de sistema, SwarmAgentic mantiene una población de sistemas candidatos y los evoluciona mediante actualizaciones guiadas por retroalimentación, inspirándose en la Optimización por Enjambre de Partículas (PSO, por sus siglas en inglés). Evaluamos nuestro método en seis tareas del mundo real, abiertas y exploratorias que involucran planificación de alto nivel, coordinación a nivel de sistema y razonamiento creativo. Dada únicamente una descripción de la tarea y una función objetivo, SwarmAgentic supera a todas las líneas base, logrando una mejora relativa del +261.8% sobre ADAS en el benchmark TravelPlanner, destacando la efectividad de la automatización completa en tareas estructuralmente no restringidas. Este marco representa un paso significativo hacia el diseño escalable y autónomo de sistemas agentes, conectando la inteligencia de enjambre con la generación completamente automatizada de sistemas multiagente. Nuestro código está disponible públicamente en https://yaoz720.github.io/SwarmAgentic/.

Sistema BUT para el Desafío MLC-SLM
BUT System for the MLC-SLM Challenge

Jun 16

ByAlexander Polok, Jiangyu Han, Dominik Klement, Samuele Cornell, Jan Černocký, Lukáš Burget

Presentamos un sistema de reconocimiento automático del habla (ASR) para dos hablantes que combina DiCoW -- una variante de Whisper condicionada por diarización -- con DiariZen, una canalización de diarización construida sobre Pyannote. Primero evaluamos ambos sistemas en escenarios multilingües fuera de dominio (OOD) sin ningún ajuste fino. En este escenario, DiariZen supera consistentemente el modelo de diarización Pyannote de referencia, demostrando una fuerte generalización. A pesar de estar ajustado fino solo con datos en inglés para ASR de hablante objetivo, DiCoW mantiene un sólido rendimiento multilingüe, lo que indica que las modificaciones en el codificador preservan las capacidades multilingües de Whisper. Luego ajustamos fino tanto DiCoW como DiariZen con los datos del desafío MLC-SLM. El DiariZen ajustado fino continúa superando la referencia de Pyannote ajustada, mientras que DiCoW obtiene mejoras adicionales gracias a la adaptación al dominio. Nuestro sistema final alcanza un tcpWER/CER promedio micro de 16.75% y se posiciona en segundo lugar en la Tarea 2 del desafío MLC-SLM. Por último, identificamos varias inconsistencias en el etiquetado de los datos de entrenamiento -- como segmentos de habla faltantes y anotaciones incorrectas de silencio -- que pueden dificultar el ajuste fino de la diarización. Proponemos estrategias simples de mitigación para abordar estos problemas y mejorar la robustez del sistema.

Recompensas Semánticamente Conscientes para el Entrenamiento de R1 de Forma Abierta en Generación de Texto Libre
Semantically-Aware Rewards for Open-Ended R1 Training in Free-Form Generation

Jun 18

ByZongxia Li, Yapei Chang, Yuhang Zhou, Xiyang Wu, Zichao Liang, Yoo Yeon Sung, Jordan Lee Boyd-Graber

Evaluar la generación abierta de texto extenso es un desafío porque es difícil definir qué separa claramente las buenas de las malas salidas. Los métodos existentes a menudo pasan por alto aspectos clave como la coherencia, el estilo o la relevancia, o están sesgados por los datos de preentrenamiento, lo que convierte la evaluación de texto extenso abierto en un problema poco explorado. Para abordar esta brecha, proponemos PrefBERT, un modelo de puntuación para evaluar la generación abierta de texto extenso en GRPO y guiar su entrenamiento con recompensas distintas para buenas y malas salidas. Entrenado en dos conjuntos de datos de evaluación de respuestas con diversos estilos de texto extenso y calidad calificada en escala Likert, PrefBERT respalda eficazmente a GRPO al ofrecer una retroalimentación de recompensa semántica mejor que las métricas tradicionales ROUGE-L y BERTScore. A través de evaluaciones exhaustivas, incluyendo LLM-como-juez, calificaciones humanas y análisis cualitativo, demostramos que PrefBERT, entrenado en respuestas de múltiples oraciones y párrafos, sigue siendo confiable en pasajes extensos variados y se alinea bien con las recompensas verificables que GRPO necesita. Las evaluaciones humanas confirman que usar PrefBERT como señal de recompensa para entrenar modelos de políticas produce respuestas mejor alineadas con las preferencias humanas que aquellas entrenadas con métricas tradicionales. Nuestro código está disponible en https://github.com/zli12321/long_form_rl.

SciVer: Evaluación de Modelos Fundamentales para la Verificación de Afirmaciones Científicas Multimodales
SciVer: Evaluating Foundation Models for Multimodal Scientific Claim Verification

Jun 18

ByChengye Wang, Yifei Shen, Zexi Kuang, Arman Cohan, Yilun Zhao

Presentamos SciVer, el primer punto de referencia diseñado específicamente para evaluar la capacidad de los modelos fundamentales para verificar afirmaciones en un contexto científico multimodal. SciVer consta de 3,000 ejemplos anotados por expertos, extraídos de 1,113 artículos científicos, y abarca cuatro subconjuntos, cada uno representando un tipo de razonamiento común en la verificación de afirmaciones científicas multimodales. Para permitir una evaluación detallada, cada ejemplo incluye evidencia de apoyo anotada por expertos. Evaluamos el rendimiento de 21 modelos fundamentales multimodales de vanguardia, incluyendo o4-mini, Gemini-2.5-Flash, Llama-3.2-Vision y Qwen2.5-VL. Nuestro experimento revela una brecha significativa en el rendimiento entre estos modelos y los expertos humanos en SciVer. A través de un análisis en profundidad de la generación aumentada por recuperación (RAG, por sus siglas en inglés) y evaluaciones de errores realizadas por humanos, identificamos limitaciones críticas en los modelos de código abierto actuales, ofreciendo insights clave para avanzar en la comprensión y el razonamiento de los modelos en tareas relacionadas con la literatura científica multimodal.

Optimización de Política Proximal Truncada
Truncated Proximal Policy Optimization

Jun 18

ByTiantian Fan, Lingjun Liu, Yu Yue, Jiaze Chen, Chengyi Wang, Qiying Yu, Chi Zhang, Zhiqi Lin, Ruofei Zhu, Yufeng Yuan, Xiaochen Zuo, Bole Ma, Mofan Zhang, Gaohong Liu, Ru Zhang, Haotian Zhou, Cong Xie, Ruidong Zhu, Zhi Zhang, Xin Liu, Mingxuan Wang, Lin Yan, Yonghui Wu

Recientemente, los modelos de lenguaje de gran escala (LLMs) ajustados en tiempo de prueba han demostrado capacidades excepcionales de razonamiento en tareas científicas y profesionales mediante la generación de largas cadenas de pensamiento (CoT). Como componente crucial para desarrollar estos modelos de razonamiento, el aprendizaje por refuerzo (RL), ejemplificado por la Optimización de Política Proximal (PPO) y sus variantes, permite que los modelos aprendan mediante prueba y error. Sin embargo, PPO puede ser lento debido a su naturaleza inherentemente on-policy, lo que se ve agravado por el aumento en la longitud de las respuestas. En este trabajo, proponemos la Optimización de Política Proximal Truncada (T-PPO), una extensión novedosa de PPO que mejora la eficiencia del entrenamiento optimizando la actualización de políticas y la generación de respuestas con longitud restringida. T-PPO mitiga el problema de la baja utilización del hardware, una desventaja inherente de los procedimientos de generación larga completamente sincronizados, donde los recursos suelen permanecer inactivos durante los períodos de espera para completar las ejecuciones. Nuestras contribuciones son dobles. Primero, proponemos la Estimación de Ventaja Generalizada Extendida (EGAE) para la estimación de ventajas derivada de respuestas incompletas, manteniendo la integridad del aprendizaje de políticas. Segundo, diseñamos un mecanismo computacionalmente optimizado que permite la optimización independiente de los modelos de política y valor. Al filtrar selectivamente los tokens de entrada y truncados, este mecanismo reduce los cálculos redundantes y acelera el proceso de entrenamiento sin sacrificar el rendimiento de convergencia. Demostramos la efectividad y eficacia de T-PPO en AIME 2024 con un modelo base de 32B. Los resultados experimentales muestran que T-PPO mejora la eficiencia del entrenamiento de LLMs de razonamiento hasta 2.5 veces y supera a sus competidores existentes.

ImmerseGen: Generación Inmersiva de Mundos Guiada por Agentes con Proxies de Texturas Alfa
ImmerseGen: Agent-Guided Immersive World Generation with Alpha-Textured Proxies

Jun 17

ByJinyan Yuan, Bangbang Yang, Keke Wang, Panwang Pan, Lin Ma, Xuehai Zhang, Xiao Liu, Zhaopeng Cui, Yuewen Ma

La creación automática de escenas 3D para la presencia inmersiva en realidad virtual (VR) ha sido un enfoque de investigación significativo durante décadas. Sin embargo, los métodos existentes suelen depender del modelado de mallas de alta poligonización con simplificación posterior o de grandes cantidades de gaussianos 3D, lo que resulta en un flujo de trabajo complejo o en un realismo visual limitado. En este artículo, demostramos que dicho modelado exhaustivo no es necesario para lograr una experiencia inmersiva convincente. Presentamos ImmerseGen, un marco novedoso guiado por agentes para el modelado compacto y fotorrealista de mundos. ImmerseGen representa las escenas como composiciones jerárquicas de proxies geométricos ligeros, es decir, terrenos simplificados y mallas de billboards, y genera apariencias fotorrealistas sintetizando texturas RGBA sobre estos proxies. Específicamente, proponemos texturizado condicionado por el terreno para la síntesis de mundos base centrados en el usuario, y texturizado de activos RGBA para la escenografía de medio y primer plano. Esta reformulación ofrece varias ventajas: (i) simplifica el modelado al permitir que los agentes guíen a los modelos generativos en la producción de texturas coherentes que se integran perfectamente con la escena; (ii) evita la creación y decimación de geometría compleja al sintetizar directamente texturas fotorrealistas sobre los proxies, preservando la calidad visual sin degradación; (iii) permite representaciones compactas adecuadas para la renderización en tiempo real en dispositivos móviles de VR. Para automatizar la creación de escenas a partir de indicaciones de texto, introducimos agentes de modelado basados en VLM mejorados con análisis semántico basado en cuadrículas para un razonamiento espacial mejorado y una colocación precisa de activos. ImmerseGen enriquece aún más las escenas con efectos dinámicos y audio ambiental para apoyar la inmersión multisensorial. Los experimentos en generación de escenas y demostraciones en vivo de VR muestran que ImmerseGen logra un fotorrealismo superior, coherencia espacial y eficiencia de renderización en comparación con métodos anteriores. Página del proyecto: https://immersegen.github.io.

CoMemo: Los LVLM necesitan contexto de imagen con memoria visual
CoMemo: LVLMs Need Image Context with Image Memory

Jun 6

ByShi Liu, Weijie Su, Xizhou Zhu, Wenhai Wang, Jifeng Dai

Los recientes avances en los Modelos de Visión y Lenguaje a Gran Escala (LVLM, por sus siglas en inglés), construidos sobre Modelos de Lenguaje a Gran Escala (LLM), han establecido la alineación de características visuales con representaciones de LLM como el paradigma dominante. Sin embargo, los diseños arquitectónicos heredados de los LLM introducen características subóptimas para el procesamiento multimodal. En primer lugar, los LVLM exhiben una distribución bimodal en la asignación de atención, lo que lleva al descuido progresivo del contenido visual intermedio a medida que el contexto se expande. En segundo lugar, los esquemas convencionales de codificación posicional no logran preservar las relaciones estructurales 2D vitales al procesar imágenes dinámicas de alta resolución. Para abordar estas limitaciones, proponemos CoMemo: una arquitectura de doble vía que combina una vía de imagen de Contexto con una vía de Memoria de imagen para el procesamiento visual, aliviando efectivamente el descuido de la información visual. Además, introducimos RoPE-DHR, un novedoso mecanismo de codificación posicional que emplea agregación posicional basada en miniaturas para mantener la conciencia espacial 2D mientras mitiga la degradación remota en secuencias extendidas. Las evaluaciones en siete puntos de referencia, que incluyen comprensión de contexto largo, razonamiento con múltiples imágenes y respuesta a preguntas visuales, demuestran el rendimiento superior de CoMemo en comparación con las arquitecturas LVLM convencionales. La página del proyecto está disponible en https://lalbj.github.io/projects/CoMemo/.

PictSure: La Preentrenamiento de Incrustaciones es Fundamental para los Clasificadores de Imágenes con Aprendizaje en Contexto
PictSure: Pretraining Embeddings Matters for In-Context Learning Image Classifiers

Jun 16

ByLukas Schiesser, Cornelius Wolff, Sophie Haas, Simon Pukrop

La construcción de modelos de clasificación de imágenes sigue siendo engorrosa en dominios con escasez de datos, donde la recopilación de grandes conjuntos de datos etiquetados resulta poco práctica. El aprendizaje en contexto (ICL, por sus siglas en inglés) ha surgido como un paradigma prometedor para la clasificación de imágenes con pocos ejemplos (FSIC, por sus siglas en inglés), permitiendo que los modelos generalicen entre dominios sin necesidad de adaptación basada en gradientes. Sin embargo, trabajos previos han pasado por alto un componente crítico de las pipelines de FSIC basadas en ICL: el papel de los embeddings de imágenes. En este trabajo, presentamos PictSure, un marco de ICL que sitúa el modelo de embedding —su arquitectura, preentrenamiento y dinámica de entrenamiento— en el centro del análisis. Examinamos sistemáticamente los efectos de diferentes tipos de codificadores visuales, objetivos de preentrenamiento y estrategias de ajuste fino en el rendimiento de FSIC en tareas posteriores. Nuestros experimentos muestran que el éxito del entrenamiento y el rendimiento fuera del dominio dependen en gran medida de cómo se preentrenan los modelos de embedding. En consecuencia, PictSure logra superar a los modelos existentes de FSIC basados en ICL en benchmarks fuera del dominio que difieren significativamente de la distribución de entrenamiento, manteniendo resultados comparables en tareas dentro del dominio. El código está disponible en https://github.com/PictSure/pictsure-library.

FedNano: Hacia un Ajuste Ligero Federado para Modelos de Lenguaje Multimodales Preentrenados de Gran Escala
FedNano: Toward Lightweight Federated Tuning for Pretrained Multimodal Large Language Models

Jun 12

ByYao Zhang, Hewei Gao, Haokun Chen, Weiguo Li, Yunpu Ma, Volker Tresp

Los Modelos de Lenguaje Multimodales a Gran Escala (MLLMs, por sus siglas en inglés) destacan en tareas como el razonamiento multimodal y la recuperación cruzada de modalidades, pero enfrentan desafíos de implementación en escenarios del mundo real debido a la distribución de datos multimodales y los estrictos requisitos de privacidad. El Aprendizaje Federado (FL, por sus siglas en inglés) ofrece una solución al permitir el entrenamiento colaborativo de modelos sin centralizar los datos. Sin embargo, implementar FL para MLLMs presenta desafíos significativos, incluyendo altas demandas computacionales, capacidad limitada en los clientes, costos sustanciales de comunicación y datos heterogéneos entre clientes. Los métodos existentes de FL asumen la implementación de modelos completos en el lado del cliente, una suposición que no se sostiene para MLLMs a gran escala debido a su tamaño masivo y demandas de comunicación. Para abordar estas limitaciones, proponemos FedNano, el primer marco de FL que centraliza el modelo de lenguaje (LLM) en el servidor mientras introduce NanoEdge, un módulo ligero para la adaptación específica del cliente. NanoEdge emplea codificadores específicos por modalidad, conectores y NanoAdaptadores entrenables con adaptación de bajo rango. Este diseño elimina la necesidad de implementar el LLM en los clientes, reduciendo el almacenamiento en el cliente en un 95% y limitando la sobrecarga de comunicación a solo el 0.01% de los parámetros del modelo. Al transmitir únicamente actualizaciones compactas de los NanoAdaptadores, FedNano maneja datos heterogéneos entre clientes y restricciones de recursos mientras preserva la privacidad. Los experimentos demuestran que FedNano supera a los enfoques basados en FL anteriores, cerrando la brecha entre la escala de los MLLMs y la viabilidad del FL, y permitiendo sistemas de IA multimodal escalables y descentralizados.

MoTE: Mezcla de Expertos Ternarios para Modelos Multimodales Grandes con Eficiencia de Memoria
MoTE: Mixture of Ternary Experts for Memory-efficient Large Multimodal Models

Jun 17

ByHongyu Wang, Jiayu Xu, Ruiping Wang, Yan Feng, Yitao Zhai, Peng Pei, Xunliang Cai, Xilin Chen

Los modelos grandes multimodales de Mezcla de Expertos (MoEs, por sus siglas en inglés) escalan eficazmente el tamaño del modelo para mejorar el rendimiento mientras mantienen parámetros activos fijos. Sin embargo, trabajos previos utilizaron principalmente expertos de precisión completa durante el reciclado disperso. Aunque muestran un rendimiento superior en tareas finales, la gran cantidad de expertos introduce una mayor huella de memoria, lo que plantea desafíos significativos para su implementación en dispositivos de borde. En este trabajo, proponemos MoTE, un enfoque escalable y eficiente en memoria para entrenar modelos de Mezcla de Expertos Ternarios a partir de un punto de control denso. En lugar de entrenar menos expertos de alta precisión, proponemos entrenar más expertos de baja precisión durante el reciclado. Específicamente, utilizamos la red neuronal preentrenada (FFN) como un experto compartido y entrenamos expertos enrutados ternarios con parámetros en {-1, 0, 1}. Experimentos extensos muestran que nuestro enfoque tiene una tendencia de escalado prometedora junto con el tamaño del modelo. MoTE logra un rendimiento comparable al modelo de referencia de precisión completa MoE-LLaVA, mientras ofrece una menor huella de memoria. Además, nuestro enfoque es compatible con métodos de cuantización posteriores al entrenamiento, y la ventaja se amplía aún más cuando la restricción de memoria es menor. Dada la misma huella de memoria de expertos de 3.4 GB y combinada con cuantización posterior al entrenamiento, MoTE supera a MoE-LLaVA con una ganancia del 4.3% en precisión promedio en tareas finales, demostrando su efectividad y potencial para dispositivos con restricciones de memoria.

GMT: Seguimiento General de Movimiento para el Control de Cuerpo Completo en Humanoides
GMT: General Motion Tracking for Humanoid Whole-Body Control

Jun 17

ByZixuan Chen, Mazeyu Ji, Xuxin Cheng, Xuanbin Peng, Xue Bin Peng, Xiaolong Wang

La capacidad de rastrear movimientos generales de todo el cuerpo en el mundo real es una forma útil de construir robots humanoides de propósito general. Sin embargo, lograr esto puede ser desafiante debido a la diversidad temporal y cinemática de los movimientos, la capacidad de la política y la dificultad de coordinación entre las partes superior e inferior del cuerpo. Para abordar estos problemas, proponemos GMT, un marco general y escalable de seguimiento de movimientos que entrena una única política unificada para permitir que los robots humanoides rastreen diversos movimientos en el mundo real. GMT se basa en dos componentes principales: una estrategia de Muestreo Adaptativo y una arquitectura de Mezcla de Expertos en Movimiento (MoE, por sus siglas en inglés). El Muestreo Adaptativo equilibra automáticamente movimientos fáciles y difíciles durante el entrenamiento. El MoE asegura una mejor especialización de diferentes regiones del colector de movimientos. A través de extensos experimentos tanto en simulación como en el mundo real, demostramos la efectividad de GMT, logrando un rendimiento de vanguardia en un amplio espectro de movimientos utilizando una política general unificada. Los videos e información adicional se pueden encontrar en https://gmt-humanoid.github.io.

Caché Evolutivo para Acelerar tu Modelo de Difusión Estándar
Evolutionary Caching to Accelerate Your Off-the-Shelf Diffusion Model

Jun 18

ByAnirud Aggarwal, Abhinav Shrivastava, Matthew Gwilliam

Los modelos de generación de imágenes basados en difusión destacan por producir contenido sintético de alta calidad, pero adolecen de una inferencia lenta y computacionalmente costosa. Trabajos previos han intentado mitigar esto mediante el almacenamiento en caché y la reutilización de características dentro de transformadores de difusión a lo largo de los pasos de inferencia. Sin embargo, estos métodos suelen depender de heurísticas rígidas que resultan en una aceleración limitada o una mala generalización entre arquitecturas. Proponemos Evolutionary Caching to Accelerate Diffusion models (ECAD), un algoritmo genético que aprende horarios de almacenamiento en caché eficientes y específicos para cada modelo, formando una frontera de Pareto, utilizando solo un pequeño conjunto de indicaciones de calibración. ECAD no requiere modificaciones en los parámetros de la red ni en imágenes de referencia. Ofrece aceleraciones significativas en la inferencia, permite un control detallado sobre el equilibrio entre calidad y latencia, y se adapta sin problemas a diferentes modelos de difusión. Notablemente, los horarios aprendidos por ECAD pueden generalizarse efectivamente a resoluciones y variantes de modelos no vistas durante la calibración. Evaluamos ECAD en PixArt-alpha, PixArt-Sigma y FLUX-1.dev utilizando múltiples métricas (FID, CLIP, Image Reward) en diversos puntos de referencia (COCO, MJHQ-30k, PartiPrompts), demostrando mejoras consistentes sobre enfoques anteriores. En PixArt-alpha, ECAD identifica un horario que supera al método anterior más avanzado en 4.47 COCO FID mientras aumenta la aceleración de la inferencia de 2.35x a 2.58x. Nuestros resultados establecen a ECAD como un enfoque escalable y generalizable para acelerar la inferencia de difusión. Nuestro sitio web del proyecto está disponible en https://aniaggarwal.github.io/ecad y nuestro código está disponible en https://github.com/aniaggarwal/ecad.

OS-Harm: Un punto de referencia para medir la seguridad de los agentes de uso informático
OS-Harm: A Benchmark for Measuring Safety of Computer Use Agents

Jun 17

ByThomas Kuntz, Agatha Duzan, Hao Zhao, Francesco Croce, Zico Kolter, Nicolas Flammarion, Maksym Andriushchenko

Los agentes de uso informático son agentes basados en LLM que pueden interactuar directamente con una interfaz gráfica de usuario, procesando capturas de pantalla o árboles de accesibilidad. Aunque estos sistemas están ganando popularidad, su seguridad ha sido en gran medida ignorada, a pesar de que evaluar y comprender su potencial para comportamientos dañinos es esencial para su adopción generalizada. Para abordar esta brecha, presentamos OS-Harm, un nuevo punto de referencia para medir la seguridad de los agentes de uso informático. OS-Harm se construye sobre el entorno OSWorld y tiene como objetivo probar modelos en tres categorías de daño: uso indebido deliberado por parte del usuario, ataques de inyección de prompts y comportamiento incorrecto del modelo. Para cubrir estos casos, creamos 150 tareas que abarcan varios tipos de violaciones de seguridad (acoso, infracción de derechos de autor, desinformación, exfiltración de datos, etc.) y requieren que el agente interactúe con una variedad de aplicaciones del sistema operativo (cliente de correo electrónico, editor de código, navegador, etc.). Además, proponemos un juez automatizado para evaluar tanto la precisión como la seguridad de los agentes, que logra un alto acuerdo con las anotaciones humanas (puntuación F1 de 0.76 y 0.79). Evaluamos agentes de uso informático basados en una gama de modelos de vanguardia, como o4-mini, Claude 3.7 Sonnet, Gemini 2.5 Pro, y proporcionamos información sobre su seguridad. En particular, todos los modelos tienden a cumplir directamente con muchas consultas de uso indebido deliberado, son relativamente vulnerables a inyecciones de prompts estáticas y ocasionalmente realizan acciones inseguras. El punto de referencia OS-Harm está disponible en https://github.com/tml-epfl/os-harm.

AssertBench: Un Punto de Referencia para Evaluar la Autoafirmación en Modelos de Lenguaje a Gran Escala
AssertBench: A Benchmark for Evaluating Self-Assertion in Large Language Models

Jun 8

ByJaeho Lee, Atharv Chowdhary

Los recientes puntos de referencia han explorado la consistencia factual y la robustez retórica en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés). Sin embargo, existe una brecha de conocimiento sobre cómo el encuadre direccional de afirmaciones factualmente verdaderas influye en la concordancia del modelo, un escenario común para los usuarios de LLMs. AssertBench aborda este problema mediante el muestreo de hechos respaldados por evidencia provenientes de FEVEROUS, un conjunto de datos de verificación de hechos. Para cada hecho (respaldado por evidencia), construimos dos indicaciones de encuadre: una en la que el usuario afirma que la declaración es factualmente correcta y otra en la que el usuario afirma que es incorrecta. Luego, registramos la concordancia y el razonamiento del modelo. El resultado deseado es que el modelo se mantenga firme, manteniendo una evaluación consistente de la verdad en ambos encuadres, en lugar de cambiar su evaluación para coincidir con el usuario. AssertBench aísla la variabilidad inducida por el encuadre del conocimiento factual subyacente del modelo al estratificar los resultados según la precisión del modelo en las mismas afirmaciones cuando se presentan de manera neutral. De esta manera, este punto de referencia busca medir la capacidad de un LLM para "mantenerse firme" cuando se enfrenta a afirmaciones contradictorias del usuario sobre el mismo hecho. El código fuente completo está disponible en https://github.com/achowd32/assert-bench.

ImmerseGen: Generación Inmersiva de Mundos Guiada por Agentes con Proxies de Texturas Alfa
ImmerseGen: Agent-Guided Immersive World Generation with Alpha-Textured Proxies

Jun 17

ByJinyan Yuan, Bangbang Yang, Keke Wang, Panwang Pan, Lin Ma, Xuehai Zhang, Xiao Liu, Zhaopeng Cui, Yuewen Ma