Artículos de investigación en IA seleccionados diariamente con traducciones
Mejorar los modelos existentes con nuevos conocimientos es un aspecto crucial del desarrollo de la IA. Este artículo presenta un método novedoso para integrar un nuevo idioma en un modelo de lenguaje grande (LLM, por sus siglas en inglés). Nuestro enfoque incorpora con éxito un idioma objetivo previamente no visto en un LLM existente sin comprometer su conocimiento previo. Entrenamos un modelo pequeño con 1.500 millones de parámetros, llamado Kuwain, inyectando el idioma árabe en un modelo de código abierto principalmente entrenado en inglés. Nuestro método demuestra mejoras significativas en el rendimiento del idioma árabe, con un aumento promedio del 8% en varios puntos de referencia, mientras se conserva el conocimiento existente del modelo con una cantidad mínima de los datos originales. Esto ofrece una alternativa rentable al entrenamiento de un modelo completo en inglés y árabe. Los resultados destacan el potencial para una expansión eficiente y dirigida de modelos de lenguaje sin necesidad de un reentrenamiento extenso o procesos intensivos en recursos.
Este artículo investiga el Aprendizaje por Refuerzo (RL, por sus siglas en inglés) en datos sin etiquetas explícitas para tareas de razonamiento en Modelos de Lenguaje a Gran Escala (LLMs). El desafío central del problema es la estimación de recompensas durante la inferencia sin tener acceso a información de referencia. Aunque este escenario parece elusivo, encontramos que prácticas comunes en Escalado en Tiempo de Prueba (TTS), como la votación por mayoría, generan recompensas sorprendentemente efectivas adecuadas para impulsar el entrenamiento de RL. En este trabajo, presentamos Aprendizaje por Refuerzo en Tiempo de Prueba (TTRL), un método novedoso para entrenar LLMs utilizando RL en datos no etiquetados. TTRL permite la auto-evolución de los LLMs al utilizar los conocimientos previos en los modelos preentrenados. Nuestros experimentos demuestran que TTRL mejora consistentemente el rendimiento en una variedad de tareas y modelos. Notablemente, TTRL incrementa el rendimiento pass@1 de Qwen-2.5-Math-7B en aproximadamente un 159% en el AIME 2024 utilizando únicamente datos de prueba no etiquetados. Además, aunque TTRL solo está supervisado por la métrica Maj@N, ha demostrado un rendimiento que supera consistentemente el límite superior del modelo inicial y se acerca al rendimiento de modelos entrenados directamente en datos de prueba con etiquetas de referencia. Nuestros hallazgos experimentales validan la efectividad general de TTRL en diversas tareas y destacan su potencial para tareas y dominios más amplios. GitHub: https://github.com/PRIME-RL/TTRL
A medida que los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) continúan avanzando en sus capacidades lingüísticas, la evaluación multilingüe robusta se ha vuelto esencial para promover un progreso tecnológico equitativo. Este documento de posición examina más de 2,000 puntos de referencia multilingües (no en inglés) de 148 países, publicados entre 2021 y 2024, para evaluar las prácticas pasadas, presentes y futuras en la evaluación multilingüe. Nuestros hallazgos revelan que, a pesar de inversiones significativas que ascienden a decenas de millones de dólares, el inglés sigue estando significativamente sobrerrepresentado en estos puntos de referencia. Además, la mayoría de los puntos de referencia se basan en contenido en el idioma original en lugar de traducciones, con la mayoría proveniente de países con recursos abundantes como China, India, Alemania, el Reino Unido y los Estados Unidos. Asimismo, una comparación del rendimiento de los puntos de referencia con los juicios humanos destaca disparidades notables. Las tareas relacionadas con STEM muestran fuertes correlaciones con las evaluaciones humanas (0.70 a 0.85), mientras que las tareas tradicionales de PLN, como la respuesta a preguntas (por ejemplo, XQuAD), muestran correlaciones mucho más débiles (0.11 a 0.30). Además, traducir puntos de referencia en inglés a otros idiomas resulta insuficiente, ya que los puntos de referencia localizados demuestran una alineación significativamente mayor con los juicios humanos locales (0.68) que sus contrapartes traducidas (0.47). Esto subraya la importancia de crear puntos de referencia adaptados cultural y lingüísticamente en lugar de depender únicamente de traducciones. A través de este análisis exhaustivo, destacamos seis limitaciones clave en las prácticas actuales de evaluación multilingüe, proponemos los principios rectores correspondientes para una evaluación multilingüe efectiva y delineamos cinco direcciones críticas de investigación para impulsar el progreso en el campo. Finalmente, hacemos un llamado a un esfuerzo colaborativo global para desarrollar puntos de referencia alineados con los humanos que prioricen aplicaciones del mundo real.
Generar descripciones detalladas y precisas para regiones específicas en imágenes y videos sigue siendo un desafío fundamental para los modelos de visión y lenguaje. Presentamos el Modelo Describe Anything (DAM, por sus siglas en inglés), un modelo diseñado para la generación de subtítulos localizados detallados (DLC, por sus siglas en inglés). DAM preserva tanto los detalles locales como el contexto global mediante dos innovaciones clave: un prompt focal, que asegura una codificación de alta resolución de las regiones objetivo, y un backbone de visión localizado, que integra la localización precisa con su contexto más amplio. Para abordar la escasez de datos de alta calidad en DLC, proponemos un Pipeline de Datos basado en Aprendizaje Semi-supervisado (SSL, por sus siglas en inglés) (DLC-SDP). DLC-SDP comienza con conjuntos de datos de segmentación existentes y se expande a imágenes web no etiquetadas utilizando SSL. Introducimos DLC-Bench, un benchmark diseñado para evaluar DLC sin depender de subtítulos de referencia. DAM establece un nuevo estado del arte en 7 benchmarks que abarcan la generación de subtítulos localizados a nivel de palabras clave, frases y descripciones detalladas de múltiples oraciones en imágenes y videos.
El escalado del cómputo en tiempo de inferencia ha mejorado sustancialmente las capacidades de razonamiento de los modelos de lenguaje. Sin embargo, los métodos existentes presentan limitaciones significativas: los enfoques serializados de cadena de pensamiento generan salidas excesivamente largas, lo que aumenta la latencia y agota las ventanas de contexto, mientras que los métodos paralelos, como la autoconsistencia, sufren de una coordinación insuficiente, lo que resulta en cómputos redundantes y ganancias de rendimiento limitadas. Para abordar estas deficiencias, proponemos Razonamiento Paralelo Adaptativo (APR, por sus siglas en inglés), un marco de razonamiento novedoso que permite a los modelos de lenguaje orquestar tanto cómputos serializados como paralelos de extremo a extremo. APR generaliza los métodos de razonamiento existentes al permitir inferencia multi-hilo adaptativa mediante operaciones de spawn() y join(). Una innovación clave es nuestra estrategia de aprendizaje por refuerzo de extremo a extremo, que optimiza tanto los hilos de inferencia principales como los secundarios para mejorar la tasa de éxito en las tareas sin requerir estructuras de razonamiento predefinidas. Los experimentos en la tarea de razonamiento Countdown demuestran los beneficios significativos de APR: (1) mayor rendimiento dentro de la misma ventana de contexto (83.4% vs. 60.0% en 4k de contexto); (2) escalabilidad superior con un aumento en el cómputo (80.1% vs. 66.6% en 20k tokens totales); (3) mayor precisión con latencia equivalente (75.2% vs. 57.3% en aproximadamente 5,000ms). APR representa un paso hacia la habilitación de modelos de lenguaje para optimizar autónomamente sus procesos de razonamiento mediante la asignación adaptativa de cómputo.
Los modelos de lenguaje de gran escala para video (Video LLMs) recientes suelen depender de costosas anotaciones humanas o APIs de modelos propietarios (por ejemplo, GPT-4o) para generar datos de entrenamiento, lo que limita su entrenamiento a gran escala. En este artículo, exploramos el entrenamiento a gran escala para Video LLM utilizando transcripciones económicas de reconocimiento automático de voz (ASR). Específicamente, proponemos un novedoso enfoque de entrenamiento en streaming que entrelaza densamente las palabras del ASR y los fotogramas de video según sus marcas de tiempo. En comparación con estudios previos en representación visión-lenguaje con ASR, nuestro método se ajusta naturalmente a las características de streaming del ASR, permitiendo así que el modelo aprenda un modelado visión-lenguaje temporalmente alineado y de grano fino. Para respaldar el algoritmo de entrenamiento, introducimos una pipeline de producción de datos para procesar videos de YouTube y sus subtítulos cerrados (CC, equivalentes a ASR), resultando en el conjunto de datos Live-CC-5M para pre-entrenamiento y el conjunto de datos Live-WhisperX-526K para ajuste fino supervisado (SFT) de alta calidad. Notablemente, incluso sin SFT, el modelo LiveCC-7B-Base pre-entrenado únicamente con ASR demuestra un rendimiento competitivo en preguntas y respuestas generales sobre video y exhibe una nueva capacidad en comentarios en tiempo real sobre video. Para evaluar esto, diseñamos cuidadosamente un nuevo benchmark LiveSports-3K, utilizando LLM-como-juez para medir los comentarios de forma libre. Los experimentos muestran que nuestro modelo final LiveCC-7B-Instruct puede superar a modelos avanzados de 72B (Qwen2.5-VL-72B-Instruct, LLaVA-Video-72B) en calidad de comentarios, incluso funcionando en modo tiempo real. Además, logra resultados de vanguardia en la escala de 7B/8B en benchmarks populares de preguntas y respuestas sobre video como VideoMME y OVOBench, demostrando la amplia generalizabilidad de nuestro enfoque. Todos los recursos de este artículo han sido publicados en https://showlab.github.io/livecc.
Los recientes avances en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han permitido la simulación social a través de sistemas multiagente. Los esfuerzos previos se han centrado en sociedades de agentes creadas desde cero, asignando a los agentes nuevas personalidades definidas. Sin embargo, la simulación de mundos y personajes ficticios establecidos sigue siendo en gran medida inexplorada, a pesar de su significativo valor práctico. En este artículo, presentamos BookWorld, un sistema integral para construir y simular sociedades multiagente basadas en libros. El diseño de BookWorld abarca complejidades del mundo real, incluyendo personajes diversos y dinámicos, visiones del mundo ficticias, restricciones y cambios geográficos, etc. BookWorld permite diversas aplicaciones, como la generación de historias, juegos interactivos y simulación social, ofreciendo nuevas formas de extender y explorar obras ficticias queridas. A través de extensos experimentos, demostramos que BookWorld genera historias creativas y de alta calidad mientras mantiene la fidelidad a los libros fuente, superando métodos anteriores con una tasa de victoria del 75,36%. El código de este artículo se puede encontrar en la página del proyecto: https://bookworld2025.github.io/.
Los marcos de evaluación existentes para Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) se centran principalmente en tareas de razonamiento sobre imágenes o comprensión general de videos, pasando por alto en gran medida el papel significativo del contexto de la imagen en la comprensión de videos. Para cerrar esta brecha, proponemos IV-Bench, el primer benchmark integral para evaluar la Percepción y Razonamiento de Videos Basados en Imágenes. IV-Bench consta de 967 videos emparejados con 2,585 consultas de texto-imagen meticulosamente anotadas, abarcando 13 tareas (7 de percepción y 6 de razonamiento) y 5 categorías representativas. Evaluaciones exhaustivas de MLLMs de código abierto de vanguardia (por ejemplo, InternVL2.5, Qwen2.5-VL) y de código cerrado (por ejemplo, GPT-4o, Gemini2-Flash y Gemini2-Pro) demuestran que los modelos actuales tienen un rendimiento sustancialmente inferior en Percepción y Razonamiento de videos basados en imágenes, alcanzando como máximo un 28.9% de precisión. Un análisis más profundo revela factores clave que influyen en el rendimiento de los modelos en IV-Bench, incluyendo el patrón de inferencia, el número de fotogramas y la resolución. Además, mediante un enfoque simple de síntesis de datos, demostramos que los desafíos de IV-Bench van más allá de simplemente alinear el formato de los datos en el proceso de entrenamiento. Estos hallazgos proporcionan colectivamente insights valiosos para futuras investigaciones. Nuestros códigos y datos están disponibles en https://github.com/multimodal-art-projection/IV-Bench.
El éxito de los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) ha despertado interés en diversas aplicaciones agentivas. Una hipótesis clave es que los LLMs, aprovechando el sentido común y el razonamiento en Cadena de Pensamiento (CoT, por sus siglas en inglés), pueden explorar y resolver eficientemente dominios complejos. Sin embargo, se ha observado que los agentes basados en LLMs sufren de una exploración subóptima y la brecha entre saber y hacer, es decir, la incapacidad de actuar de manera efectiva sobre el conocimiento presente en el modelo. En este trabajo, estudiamos sistemáticamente por qué los LLMs tienen un desempeño subóptimo en escenarios de toma de decisiones. En particular, examinamos de cerca tres modos de fallo prevalentes: la avaricia, el sesgo de frecuencia y la brecha entre saber y hacer. Proponemos mitigar estas deficiencias mediante el ajuste fino mediante Aprendizaje por Refuerzo (RL, por sus siglas en inglés) sobre racionales CoT generados automáticamente. Nuestros experimentos en bandidos multi-brazo, bandidos contextuales y el juego del tres en raya demuestran que el ajuste fino con RL mejora las capacidades de toma de decisiones de los LLMs al aumentar la exploración y reducir la brecha entre saber y hacer. Finalmente, estudiamos tanto mecanismos clásicos de exploración, como el enfoque épsilon-avaricioso, como enfoques específicos para LLMs, como la autocorrección y la auto-consistencia, para permitir un ajuste fino más efectivo de los LLMs en la toma de decisiones.
Los avances recientes en los modelos de lenguaje de gran escala han demostrado la efectividad del escalado de longitud durante el post-entrenamiento, aunque su potencial en el pre-entrenamiento sigue siendo poco explorado. Presentamos el Transformer de Decodificación Oculta Paralela (PHD-Transformer), un marco novedoso que permite un escalado de longitud eficiente durante el pre-entrenamiento mientras mantiene la eficiencia en la inferencia. El PHD-Transformer logra esto mediante una estrategia innovadora de gestión de la caché KV que distingue entre tokens originales y tokens de decodificación oculta. Al retener únicamente la caché KV de los tokens originales para dependencias de largo alcance y descartar inmediatamente los tokens de decodificación oculta después de su uso, nuestro enfoque mantiene el mismo tamaño de caché KV que el transformer convencional, permitiendo un escalado de longitud efectivo. Para mejorar aún más el rendimiento, introducimos dos variantes optimizadas: PHD-SWA emplea atención de ventana deslizante para preservar dependencias locales, mientras que PHD-CSWA implementa atención de ventana deslizante por fragmentos para eliminar el crecimiento lineal en el tiempo de pre-llenado. Experimentos exhaustivos demuestran mejoras consistentes en múltiples benchmarks.
¿Podemos construir modelos del mundo precisos a partir de grandes modelos de lenguaje (LLMs)? ¿Cómo pueden los modelos del mundo beneficiar a los agentes basados en LLMs? La brecha entre el conocimiento previo de los LLMs y la dinámica del entorno especificado suele limitar el rendimiento de los LLMs como modelos del mundo. Para cerrar esta brecha, proponemos una "alineación del mundo" sin entrenamiento que aprende conocimiento simbólico del entorno complementario a los LLMs. Este conocimiento simbólico abarca reglas de acción, grafos de conocimiento y grafos de escena, que son extraídos por los LLMs a partir de trayectorias de exploración y codificados en códigos ejecutables para regular las políticas de los agentes basados en LLMs. Además, proponemos un agente sin RL basado en modelos, "WALL-E 2.0", a través del marco de control predictivo de modelos (MPC). A diferencia del MPC clásico, que requiere una optimización costosa en tiempo real, adoptamos un agente LLM como un optimizador eficiente de acciones futuras mediante la interacción con el modelo del mundo neurosimbólico. Mientras que las fuertes heurísticas del agente LLM lo convierten en un planificador eficiente en MPC, la calidad de sus acciones planificadas también está garantizada por las predicciones precisas del modelo del mundo alineado. Juntos, mejoran considerablemente la eficiencia del aprendizaje en un nuevo entorno. En desafíos de mundo abierto como Mars (similar a Minecraft) y ALFWorld (entornos interiores corporizados), WALL-E 2.0 supera significativamente a los métodos existentes, por ejemplo, superando a los baselines en Mars con un 16.1%-51.6% de tasa de éxito y al menos un 61.7% en puntuación. En ALFWorld, alcanza un nuevo récord del 98% de tasa de éxito después de solo 4 iteraciones.
La síntesis de imágenes personalizadas ha surgido como una aplicación fundamental en la generación de imágenes a partir de texto, permitiendo la creación de imágenes que incluyen sujetos específicos en diversos contextos. Si bien los modelos de difusión han dominado este ámbito, los modelos auto-regresivos, con su arquitectura unificada para el modelado de texto e imágenes, siguen siendo poco explorados para la generación de imágenes personalizadas. Este artículo investiga el potencial de optimizar modelos auto-regresivos para la síntesis de imágenes personalizadas, aprovechando sus capacidades multimodales inherentes para realizar esta tarea. Proponemos una estrategia de entrenamiento en dos etapas que combina la optimización de incrustaciones de texto y el ajuste fino de capas de transformadores. Nuestros experimentos con el modelo auto-regresivo demuestran que este método logra una fidelidad al sujeto y seguimiento de indicaciones comparables a los principales métodos de personalización basados en difusión. Los resultados destacan la efectividad de los modelos auto-regresivos en la generación de imágenes personalizadas, ofreciendo una nueva dirección para futuras investigaciones en esta área.
Los seres humanos pueden desarrollar modelos internos del mundo que codifican conocimiento de sentido común, indicándoles cómo funciona el mundo y prediciendo las consecuencias de sus acciones. Este concepto ha surgido como una dirección prometedora para establecer modelos de aprendizaje automático de propósito general en trabajos preliminares recientes, por ejemplo, para el aprendizaje de representaciones visuales. En este artículo, presentamos CheXWorld, el primer esfuerzo hacia un modelo del mundo auto-supervisado para imágenes radiográficas. Específicamente, nuestro trabajo desarrolla un marco unificado que modela simultáneamente tres aspectos del conocimiento médico esenciales para radiólogos calificados, incluyendo 1) estructuras anatómicas locales que describen las características detalladas de los tejidos locales (por ejemplo, arquitecturas, formas y texturas); 2) disposiciones anatómicas globales que describen la organización global del cuerpo humano (por ejemplo, la disposición de órganos y esqueletos); y 3) variaciones de dominio que fomentan que CheXWorld modele las transiciones entre diferentes dominios de apariencia de las radiografías (por ejemplo, variaciones en la claridad, el contraste y la exposición causadas por la recopilación de radiografías en diferentes hospitales, dispositivos o pacientes). Empíricamente, diseñamos análisis cualitativos y cuantitativos personalizados, revelando que CheXWorld captura con éxito estas tres dimensiones del conocimiento médico. Además, los experimentos de transferencia de aprendizaje en ocho puntos de referencia de clasificación y segmentación de imágenes médicas demuestran que CheXWorld supera significativamente a los métodos SSL existentes y a los modelos de base médica a gran escala. El código y los modelos preentrenados están disponibles en https://github.com/LeapLabTHU/CheXWorld.
Los recientes modelos de difusión de texto a imagen logran una calidad visual impresionante mediante la amplia escalabilidad de los datos de entrenamiento y los parámetros del modelo, aunque a menudo tienen dificultades con escenas complejas y detalles finos. Inspirados por las capacidades de autorreflexión emergentes en los grandes modelos de lenguaje, proponemos ReflectionFlow, un marco de inferencia que permite a los modelos de difusión reflexionar y refinar sus salidas de manera iterativa. ReflectionFlow introduce tres ejes de escalabilidad complementarios durante la inferencia: (1) escalabilidad a nivel de ruido para optimizar la inicialización latente; (2) escalabilidad a nivel de prompt para una guía semántica precisa; y, más notablemente, (3) escalabilidad a nivel de reflexión, que proporciona explícitamente reflexiones accionables para evaluar y corregir iterativamente generaciones previas. Para facilitar la escalabilidad a nivel de reflexión, construimos GenRef, un conjunto de datos a gran escala que comprende 1 millón de tripletas, cada una con una reflexión, una imagen defectuosa y una imagen mejorada. Aprovechando este conjunto de datos, realizamos de manera eficiente un ajuste de reflexión en el transformador de difusión de última generación, FLUX.1-dev, modelando conjuntamente entradas multimodales dentro de un marco unificado. Los resultados experimentales muestran que ReflectionFlow supera significativamente los métodos de escalabilidad a nivel de ruido simples, ofreciendo una solución escalable y eficiente en términos de computación para la síntesis de imágenes de mayor calidad en tareas desafiantes.
Los seres humanos comparten información de forma natural con aquellos con quienes están conectados, y el video se ha convertido en uno de los medios dominantes para la comunicación y expresión en Internet. Para apoyar la creación de contenido de video a gran escala y de alta calidad, una pipeline moderna requiere una comprensión integral tanto de los materiales de entrada en bruto (por ejemplo, las imágenes sin editar capturadas por cámaras) como de los componentes de edición (por ejemplo, efectos visuales). En escenarios de edición de video, los modelos deben procesar múltiples modalidades (por ejemplo, visión, audio, texto) con un sólido conocimiento de fondo y manejar longitudes de entrada flexibles (por ejemplo, videos en bruto de una hora de duración), lo que plantea desafíos significativos para los modelos tradicionales. En este informe, presentamos Vidi, una familia de Modelos Multimodales de Gran Escala (LMMs) para una amplia gama de escenarios de comprensión y edición de video. La primera versión se centra en la recuperación temporal, es decir, identificar los rangos de tiempo dentro de los videos de entrada que corresponden a una consulta de texto dada, lo que juega un papel crítico en la edición inteligente. El modelo es capaz de procesar videos de una hora de duración con una fuerte capacidad de comprensión temporal, por ejemplo, recuperar rangos de tiempo para ciertas consultas. Para apoyar una evaluación integral en escenarios del mundo real, también presentamos el benchmark VUE-TR, que introduce cinco avances clave. 1) Duración del video: significativamente más larga que los conjuntos de datos de recuperación temporal existentes, 2) Soporte de audio: incluye consultas basadas en audio, 3) Formato de consulta: longitudes/formatos de consulta diversos, 4) Calidad de anotación: los rangos de tiempo de referencia están anotados manualmente. 5) Métrica de evaluación: una métrica IoU refinada para apoyar la evaluación en múltiples rangos de tiempo. Notablemente, Vidi supera significativamente a los modelos propietarios líderes, por ejemplo, GPT-4o y Gemini, en la tarea de recuperación temporal, lo que indica su superioridad en escenarios de edición de video.
La animación controlable de personajes sigue siendo un problema desafiante, particularmente en el manejo de poses poco comunes, personajes estilizados, interacciones entre personajes y objetos, iluminación compleja y escenas dinámicas. Para abordar estos problemas, trabajos previos se han centrado principalmente en inyectar guías de pose y apariencia a través de redes de derivación elaboradas, pero a menudo luchan por generalizar a escenarios de mundo abierto. En este artículo, proponemos una nueva perspectiva que, siempre que el modelo base sea lo suficientemente potente, modificaciones directas del modelo con estrategias de ajuste fino flexibles pueden abordar en gran medida los desafíos mencionados, dando un paso hacia la animación controlable de personajes en entornos no controlados. Específicamente, presentamos RealisDance-DiT, construido sobre el modelo base de video Wan-2.1. Nuestro análisis exhaustivo revela que el diseño ampliamente adoptado de Reference Net no es óptimo para modelos DiT a gran escala. En cambio, demostramos que modificaciones mínimas en la arquitectura del modelo base producen una línea base sorprendentemente sólida. Además, proponemos las estrategias de calentamiento de bajo ruido y "lotes grandes e iteraciones pequeñas" para acelerar la convergencia del modelo durante el ajuste fino, preservando al máximo los conocimientos previos del modelo base. Adicionalmente, introducimos un nuevo conjunto de datos de prueba que captura diversos desafíos del mundo real, complementando los benchmarks existentes como el conjunto de datos de TikTok y el conjunto de datos de videos de moda de UBC, para evaluar de manera integral el método propuesto. Experimentos extensos muestran que RealisDance-DiT supera ampliamente a los métodos existentes.
Los agentes LLM son una forma emergente de sistemas de IA en los que los modelos de lenguaje grandes (LLMs) actúan como componente central, utilizando un conjunto diverso de herramientas para completar tareas asignadas por el usuario. A pesar de su gran potencial, los agentes LLM presentan riesgos de seguridad significativos. Al interactuar con el mundo externo, pueden encontrarse con comandos maliciosos de atacantes, lo que lleva a la ejecución de acciones peligrosas. Una forma prometedora de abordar esto es aplicando el principio de privilegio mínimo: permitir solo las acciones esenciales para completar la tarea mientras se bloquean las innecesarias. Sin embargo, lograr esto es un desafío, ya que requiere cubrir diversos escenarios de agentes mientras se preserva tanto la seguridad como la utilidad. Presentamos Progent, el primer mecanismo de control de privilegios para agentes LLM. En su núcleo se encuentra un lenguaje específico de dominio para expresar de manera flexible políticas de control de privilegios aplicadas durante la ejecución del agente. Estas políticas proporcionan restricciones detalladas sobre las llamadas a herramientas, decidiendo cuándo son permitidas y especificando alternativas si no lo son. Esto permite a los desarrolladores y usuarios de agentes crear políticas adecuadas para sus casos de uso específicos y aplicarlas de manera determinista para garantizar la seguridad. Gracias a su diseño modular, integrar Progent no altera los componentes internos del agente y requiere solo cambios mínimos en su implementación, mejorando su practicidad y potencial para una adopción generalizada. Para automatizar la escritura de políticas, aprovechamos los LLMs para generar políticas basadas en consultas de usuarios, las cuales se actualizan dinámicamente para mejorar la seguridad y la utilidad. Nuestra evaluación exhaustiva muestra que permite una seguridad sólida mientras mantiene una alta utilidad en tres escenarios o puntos de referencia distintos: AgentDojo, ASB y AgentPoison. Además, realizamos un análisis en profundidad, demostrando la efectividad de sus componentes principales y la resistencia de su generación automática de políticas frente a ataques adaptativos.
Proponemos MR. Video, un marco de comprensión de videos largos basado en agentes que demuestra el principio simple pero efectivo de MapReduce para procesar videos largos: (1) Map: percepción independiente y densa de clips de video cortos, y (2) Reduce: agregación conjunta de información de todos los clips. En comparación con los modelos de visión y lenguaje de secuencia a secuencia (VLMs), MR. Video realiza una percepción detallada de videos cortos sin estar limitado por la longitud del contexto. En comparación con los agentes de video existentes que generalmente dependen de la selección secuencial de segmentos clave, la operación Map permite una percepción paralela de secuencias más simple y escalable de segmentos de video cortos. Su paso Reduce permite una agregación y razonamiento de contexto más completo, superando la recuperación explícita de segmentos clave. Este principio de MapReduce es aplicable tanto a VLMs como a agentes de video, y utilizamos agentes LLM para validar su efectividad. En la práctica, MR. Video emplea dos etapas de MapReduce: (A) Subtitulado: generación de subtítulos para clips de video cortos (map), seguido de la estandarización de personajes y objetos repetidos en nombres compartidos (reduce); (B) Análisis: para cada pregunta del usuario, análisis de información relevante de videos cortos individuales (map), e integración de estos en una respuesta final (reduce). MR. Video logra una mejora de precisión de más del 10% en el desafiante LVBench en comparación con los VLMs y agentes de video más avanzados. El código está disponible en: https://github.com/ziqipang/MR-Video
Reconocer y razonar sobre objetos ocluidos (parcial o totalmente ocultos) es fundamental para comprender escenas visuales, ya que las oclusiones ocurren frecuentemente en entornos del mundo real y actúan como obstáculos para la comprensión espacial. Para evaluar la capacidad de los modelos para razonar sobre múltiples objetos ocluidos, presentamos una nueva tarea: Contar Amodalmente Patrones a través de Regiones No Vistas (CAPTURe, por sus siglas en inglés), que requiere que un modelo cuente objetos dispuestos en un patrón al inferir cómo este continúa detrás de un oclusor (un objeto que bloquea partes de la escena). CAPTURe exige tanto el reconocimiento de patrones visuales como el razonamiento, convirtiéndola en una herramienta útil para evaluar modelos de visión y lenguaje (VLMs) en cuanto a su comprensión de patrones ocluidos y habilidades de entendimiento espacial. Al requerir que los modelos razonen sobre objetos ocluidos, CAPTURe también evalúa la capacidad de los VLMs para formar modelos del mundo que les permitan completar información faltante. CAPTURe consta de dos partes: (1) CAPTURe-real, con imágenes filtradas manualmente de objetos reales en patrones, y (2) CAPTURe-sintético, un diagnóstico controlado con imágenes generadas de patrones. Evaluamos cuatro VLMs robustos (GPT-4o, Intern-VL2, Molmo y Qwen2-VL) en CAPTURe, encontrando que los modelos tienen dificultades para contar tanto en patrones ocluidos como no ocluidos. Es crucial destacar que los modelos tienen un peor desempeño con oclusiones, lo que sugiere que los VLMs también son deficientes en inferir relaciones espaciales no vistas: incluso los VLMs más fuertes, como GPT-4o, fallan al contar con oclusiones. En contraste, encontramos que los humanos cometen muy pocos errores en CAPTURe. También observamos que proporcionar información auxiliar sobre las ubicaciones de los objetos ocluidos mejora el rendimiento, subrayando que el error del modelo proviene tanto de la incapacidad para manejar oclusiones como de la dificultad para contar en imágenes.
La Propiedad Intelectual (PI) es un dominio único que integra conocimientos técnicos y legales, lo que la hace inherentemente compleja y demandante en términos de conocimiento. A medida que los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) continúan avanzando, muestran un gran potencial para procesar tareas relacionadas con la PI, permitiendo un análisis, comprensión y generación de contenido relacionado con la PI más eficiente. Sin embargo, los conjuntos de datos y puntos de referencia existentes se centran de manera limitada en patentes o abarcan aspectos reducidos del campo de la PI, careciendo de alineación con escenarios del mundo real. Para cerrar esta brecha, presentamos la primera taxonomía integral de tareas de PI y un punto de referencia bilingüe, diverso y extenso, IPBench, que cubre 8 mecanismos de PI y 20 tareas. Este punto de referencia está diseñado para evaluar LLMs en aplicaciones de propiedad intelectual del mundo real, abarcando tanto la comprensión como la generación. Evaluamos 16 LLMs, que van desde modelos de propósito general hasta modelos específicos del dominio, y encontramos que incluso el modelo con mejor rendimiento alcanza solo un 75.8% de precisión, revelando un margen sustancial de mejora. Notablemente, los modelos de código abierto orientados a la PI y al derecho se quedan atrás en comparación con los modelos de propósito general de código cerrado. Publicamos todos los datos y el código de IPBench y continuaremos actualizándolo con tareas adicionales relacionadas con la PI para reflejar mejor los desafíos del mundo real en el dominio de la propiedad intelectual.
Este estudio presenta un modelo novedoso e interpretable, DiffVox, para la coincidencia de efectos vocales en la producción musical. DiffVox, abreviatura de "Differentiable Vocal Fx", integra ecualización paramétrica, control de rango dinámico, delay y reverberación con implementaciones diferenciables eficientes para permitir la optimización basada en gradientes para la estimación de parámetros. Los preajustes vocales se recuperan de dos conjuntos de datos, que comprenden 70 pistas de MedleyDB y 365 pistas de una colección privada. El análisis de las correlaciones de parámetros destaca fuertes relaciones entre los efectos y los parámetros, como los filtros de paso alto y estante bajo que a menudo actúan juntos para dar forma a los graves, y el tiempo de delay que se correlaciona con la intensidad de las señales retardadas. El análisis de componentes principales revela conexiones con las dimensiones de timbre de McAdams, donde el componente más crucial modula la percepción de espacialidad, mientras que los componentes secundarios influyen en el brillo espectral. Las pruebas estadísticas confirman la naturaleza no gaussiana de la distribución de parámetros, destacando la complejidad del espacio de efectos vocales. Estos hallazgos iniciales sobre las distribuciones de parámetros sientan las bases para futuras investigaciones en modelado de efectos vocales y mezcla automática. Nuestro código fuente y conjuntos de datos están accesibles en https://github.com/SonyResearch/diffvox.