Artículos de investigación en IA seleccionados diariamente con traducciones
Los avances recientes en los modelos de razonamiento a gran escala (LRMs, por sus siglas en inglés) demuestran que comportamientos sofisticados, como el razonamiento de múltiples pasos y la autorreflexión, pueden surgir mediante el aprendizaje por refuerzo (RL, por sus siglas en inglés) con recompensas basadas en reglas simples. Sin embargo, los enfoques existentes de RL cero son inherentemente "on-policy", lo que limita el aprendizaje a las propias salidas del modelo y no permite adquirir habilidades de razonamiento más allá de sus capacidades iniciales. Presentamos LUFFY (Learning to reason Under oFF-policY guidance), un marco que amplía el RL cero con trazas de razonamiento off-policy. LUFFY equilibra dinámicamente la imitación y la exploración al combinar demostraciones off-policy con rollouts on-policy durante el entrenamiento. Destacamos la propuesta de modelado de políticas mediante muestreo de importancia regularizado para evitar la imitación superficial y rígida durante el entrenamiento de políticas mixtas. Notablemente, LUFFY logra una mejora promedio de más de +7.0 en seis benchmarks matemáticos y una ventaja de más de +6.2 puntos en tareas fuera de distribución. Además, supera sustancialmente el ajuste fino supervisado (SFT, por sus siglas en inglés) basado en imitación, particularmente en generalización. El análisis muestra que LUFFY no solo imita de manera efectiva, sino que también explora más allá de las demostraciones, ofreciendo un camino escalable para entrenar modelos de razonamiento generalizables con guía off-policy.
Presentamos Eagle 2.5, una familia de modelos vision-lenguaje (VLMs) de vanguardia para el aprendizaje multimodal de contexto largo. Nuestro trabajo aborda los desafíos en la comprensión de videos largos y el entendimiento de imágenes de alta resolución, introduciendo un marco generalista para ambas tareas. El marco de entrenamiento propuesto incorpora Muestreo Automático de Degradación y Preservación del Área de la Imagen, dos técnicas que preservan la integridad contextual y los detalles visuales. El marco también incluye numerosas optimizaciones de eficiencia en la pipeline para el entrenamiento con datos de contexto largo. Finalmente, proponemos Eagle-Video-110K, un nuevo conjunto de datos que integra anotaciones tanto a nivel de historia como de clip, facilitando la comprensión de videos largos. Eagle 2.5 demuestra mejoras sustanciales en benchmarks multimodales de contexto largo, ofreciendo una solución robusta a las limitaciones de los VLMs existentes. Cabe destacar que nuestro mejor modelo, Eagle 2.5-8B, alcanza un 72.4% en Video-MME con 512 frames de entrada, igualando los resultados de modelos comerciales de primer nivel como GPT-4o y modelos de código abierto a gran escala como Qwen2.5-VL-72B e InternVL2.5-78B.
Este artículo propone un meta-agente a nivel de consulta llamado FlowReasoner para automatizar el diseño de sistemas multi-agente a nivel de consulta, es decir, un sistema por cada consulta de usuario. Nuestra idea central es incentivar a un meta-agente basado en razonamiento mediante retroalimentación de ejecución externa. Concretamente, al destilar DeepSeek R1, primero dotamos a FlowReasoner de la capacidad básica de razonamiento respecto a la generación de sistemas multi-agente. Luego, lo mejoramos aún más mediante aprendizaje por refuerzo (RL) con retroalimentación de ejecución externa. Se diseña una recompensa multipropósito para guiar el entrenamiento de RL desde aspectos de rendimiento, complejidad y eficiencia. De esta manera, FlowReasoner puede generar un sistema multi-agente personalizado para cada consulta de usuario mediante un razonamiento deliberativo. Los experimentos en benchmarks de código tanto de ingeniería como de competencia demuestran la superioridad de FlowReasoner. Notablemente, supera a o1-mini en un 10.52% de precisión en tres benchmarks. El código está disponible en https://github.com/sail-sg/FlowReasoner.
Los actuales Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) suelen someterse a un ajuste fino supervisado (SFT, por sus siglas en inglés) para adquirir capacidades de uso de herramientas. Sin embargo, el SFT tiene dificultades para generalizar en escenarios de uso de herramientas desconocidos o complejos. Los avances recientes en aprendizaje por refuerzo (RL, por sus siglas en inglés), particularmente con modelos tipo R1, han demostrado habilidades prometedoras de razonamiento y generalización. No obstante, el diseño de recompensas para el uso de herramientas presenta desafíos únicos: múltiples herramientas pueden ser invocadas con parámetros diversos, y las señales de recompensa de grano grueso, como la coincidencia de respuestas, no ofrecen la retroalimentación detallada necesaria para un aprendizaje efectivo. En este trabajo, presentamos el primer estudio exhaustivo sobre el diseño de recompensas para tareas de selección y aplicación de herramientas dentro del paradigma de RL. Exploramos sistemáticamente una amplia gama de estrategias de recompensa, analizando sus tipos, escalas, granularidad y dinámica temporal. Basándonos en estos hallazgos, proponemos un diseño de recompensas fundamentado y adaptado para tareas de uso de herramientas, y lo aplicamos para entrenar LLMs utilizando la Optimización de Política Relativa de Grupo (GRPO, por sus siglas en inglés). Las evaluaciones empíricas en diversos benchmarks demuestran que nuestro enfoque produce un entrenamiento robusto, escalable y estable, logrando una mejora del 17% sobre los modelos base y un 15% sobre los modelos SFT. Estos resultados resaltan el papel crucial de un diseño de recompensas cuidadoso para mejorar las capacidades de uso de herramientas y el rendimiento de generalización de los LLMs. Todo el código se ha liberado para facilitar futuras investigaciones.
El razonamiento integrado con herramientas (TIR, por sus siglas en inglés) amplía las capacidades de los modelos de lenguaje de gran escala (LLMs) al dotarlos de la habilidad de invocar herramientas externas, como motores de búsqueda e intérpretes de código, para resolver tareas que van más allá de las capacidades del razonamiento basado únicamente en lenguaje. Si bien el aprendizaje por refuerzo (RL) ha demostrado ser prometedor para mejorar el TIR al optimizar la corrección de las respuestas finales, los enfoques existentes a menudo pasan por alto la eficiencia y el costo asociados con el uso de herramientas. Esto puede llevar a comportamientos subóptimos, como llamadas excesivas a herramientas que aumentan la sobrecarga computacional y financiera, o un uso insuficiente de herramientas que compromete la calidad de las respuestas. En este trabajo, proponemos la Optimización de Políticas Controladas por Llamadas Óptimas a Herramientas (OTC-PO), un marco basado en RL simple pero efectivo que fomenta que los modelos produzcan respuestas precisas con un mínimo de llamadas a herramientas. Nuestro método introduce una recompensa integrada con herramientas que considera conjuntamente la corrección y la eficiencia en el uso de herramientas, promoviendo una alta productividad de las mismas. Implementamos este marco tanto en la Optimización de Políticas Proximales (PPO) como en la Optimización de Preferencias Relativas de Grupo (GRPO), dando lugar a OTC-PPO y OTC-GRPO. Los experimentos realizados con Qwen-2.5 y Qwen-Math en múltiples benchmarks de preguntas y respuestas muestran que nuestro enfoque reduce las llamadas a herramientas hasta en un 73.1\% y mejora la productividad de las herramientas hasta en un 229.4\%, manteniendo una precisión comparable en las respuestas. Hasta donde sabemos, este es el primer marco basado en RL que optimiza explícitamente la eficiencia en el uso de herramientas en el TIR.
Las interacciones de múltiples turnos con modelos de lenguaje (LM) plantean riesgos críticos de seguridad, ya que las intenciones dañinas pueden distribuirse estratégicamente a lo largo de los intercambios. Sin embargo, la gran mayoría de trabajos previos se ha centrado en la seguridad de un solo turno, mientras que la adaptabilidad y la diversidad siguen siendo desafíos clave en el red-teaming de múltiples turnos. Para abordar estos desafíos, presentamos X-Teaming, un marco escalable que explora sistemáticamente cómo interacciones aparentemente inofensivas escalan hacia resultados dañinos y genera escenarios de ataque correspondientes. X-Teaming emplea agentes colaborativos para la planificación, optimización de ataques y verificación, logrando una efectividad y diversidad de jailbreak de múltiples turnos de última generación, con tasas de éxito de hasta el 98,1% en modelos representativos líderes, tanto de código abierto como cerrados. En particular, X-Teaming alcanza una tasa de éxito de ataque del 96,2% contra el último modelo Claude 3.7 Sonnet, que se consideraba casi inmune a ataques de un solo turno. Basándonos en X-Teaming, introducimos XGuard-Train, un conjunto de datos de entrenamiento de seguridad de múltiples turnos de código abierto que es 20 veces más grande que el mejor recurso anterior, compuesto por 30K jailbreaks interactivos, diseñado para permitir una alineación de seguridad robusta en múltiples turnos para los LM. Nuestro trabajo ofrece herramientas y conocimientos esenciales para mitigar ataques conversacionales sofisticados, avanzando en la seguridad de múltiples turnos de los LM.
Los recientes Agentes de Uso Informático (CUAs, por sus siglas en inglés), impulsados por modelos de lenguaje multimodal de gran escala (LLMs), ofrecen una dirección prometedora para automatizar flujos de trabajo complejos en escritorios mediante lenguaje natural. Sin embargo, la mayoría de los CUAs existentes siguen siendo prototipos conceptuales, limitados por una integración superficial con el sistema operativo, interacciones frágiles basadas en capturas de pantalla y una ejecución disruptiva. Presentamos UFO2, un AgentOS multiagente para escritorios de Windows que eleva los CUAs a un nivel práctico de automatización a nivel de sistema. UFO2 cuenta con un HostAgent centralizado para la descomposición y coordinación de tareas, junto con una colección de AppAgents especializados en aplicaciones, equipados con APIs nativas, conocimiento específico del dominio y una capa unificada de acciones GUI--API. Esta arquitectura permite una ejecución robusta de tareas mientras preserva la modularidad y extensibilidad. Un pipeline híbrido de detección y control fusiona la Automatización de Interfaz de Usuario de Windows (UIA) con análisis basado en visión para soportar diversos estilos de interfaz. La eficiencia en tiempo de ejecución se mejora aún más mediante la planificación especulativa de múltiples acciones, reduciendo la sobrecarga de LLM por paso. Finalmente, una interfaz de Picture-in-Picture (PiP) permite la automatización dentro de un escritorio virtual aislado, permitiendo que los agentes y los usuarios operen simultáneamente sin interferencias. Evaluamos UFO2 en más de 20 aplicaciones reales de Windows, demostrando mejoras sustanciales en robustez y precisión de ejecución en comparación con CUAs anteriores. Nuestros resultados muestran que una integración profunda con el sistema operativo desbloquea un camino escalable hacia la automatización de escritorios confiable y alineada con el usuario.
La creciente demanda de aplicaciones de realidad aumentada (AR) y realidad virtual (VR) ha puesto de manifiesto la necesidad de contenido panorámico de 360 grados de alta calidad. Sin embargo, generar imágenes y videos panorámicos de 360 grados de alta calidad sigue siendo una tarea desafiante debido a las severas distorsiones introducidas por la proyección equirectangular (ERP). Los enfoques existentes ajustan modelos de difusión preentrenados en conjuntos de datos ERP limitados o intentan métodos sin ajuste que aún dependen de representaciones latentes ERP, lo que genera discontinuidades cerca de los polos. En este artículo, presentamos SphereDiff, un enfoque novedoso para la generación de imágenes y videos panorámicos de 360 grados sin costuras utilizando modelos de difusión de última generación sin necesidad de ajustes adicionales. Definimos una representación latente esférica que garantiza una distribución uniforme en todas las perspectivas, mitigando las distorsiones inherentes a la ERP. Extendemos MultiDiffusion al espacio latente esférico y proponemos un método de muestreo latente esférico para permitir el uso directo de modelos de difusión preentrenados. Además, introducimos un promedio ponderado consciente de las distorsiones para mejorar aún más la calidad de la generación en el proceso de proyección. Nuestro método supera a los enfoques existentes en la generación de contenido panorámico de 360 grados mientras mantiene una alta fidelidad, convirtiéndolo en una solución robusta para aplicaciones inmersivas de AR/VR. El código está disponible aquí: https://github.com/pmh9960/SphereDiff.
Los modelos de razonamiento han demostrado un rendimiento impresionante en tareas difíciles en las que los modelos de lenguaje tradicionales tienen dificultades. Sin embargo, muchos de ellos se ven afectados por el problema de sobrepensar, generando grandes cantidades de tokens innecesarios que no mejoran la precisión en una pregunta. Introducimos medidas aproximadas de la dificultad a nivel de problema y demostramos que existe una relación clara entre la dificultad del problema y el gasto óptimo de tokens, evaluando qué tan bien calibrados están una variedad de modelos de razonamiento en términos de asignar eficientemente el conteo óptimo de tokens. Encontramos que, en general, los modelos de razonamiento están mal calibrados, particularmente en problemas fáciles. Para evaluar la calibración en preguntas fáciles, introducimos DUMB500, un conjunto de datos de problemas extremadamente sencillos de matemáticas, razonamiento, código y tareas, y evaluamos conjuntamente los modelos de razonamiento en estos ejemplos simples y en ejemplos extremadamente difíciles de benchmarks de vanguardia existentes en el mismo dominio de tareas. Finalmente, presentamos THOUGHTTERMINATOR, una técnica de decodificación de caja negra sin entrenamiento que mejora significativamente la calibración de los modelos de razonamiento.
El método 3D Gaussian Splatting (3DGS) destaca en la reconstrucción fotorrealista de escenas, pero enfrenta dificultades en escenarios estilizados (por ejemplo, caricaturas, videojuegos) debido a texturas fragmentadas, desalineación semántica y una adaptabilidad limitada a estéticas abstractas. Proponemos StyleMe3D, un marco holístico para la transferencia de estilo en 3D GS que integra condicionamiento de estilo multimodal, alineación semántica multinivel y mejora de la calidad perceptual. Nuestras ideas clave incluyen: (1) optimizar solo los atributos RGB preserva la integridad geométrica durante la estilización; (2) desentrelazar semánticas de bajo, medio y alto nivel es crucial para una transferencia de estilo coherente; (3) la escalabilidad en objetos aislados y escenas complejas es esencial para su implementación práctica. StyleMe3D introduce cuatro componentes novedosos: Distilación Dinámica de Puntuación de Estilo (DSSD), que aprovecha el espacio latente de Stable Diffusion para la alineación semántica; Descriptor de Estilo Contrastivo (CSD) para la transferencia de texturas localizada y consciente del contenido; Escala Optimizada Simultáneamente (SOS) para desacoplar detalles de estilo y coherencia estructural; y Evaluación de Calidad de Gaussianos 3D (3DG-QA), un prior estético diferenciable entrenado con datos calificados por humanos para suprimir artefactos y mejorar la armonía visual. Evaluado en el conjunto de datos sintéticos NeRF (objetos) y tandt db (escenas), StyleMe3D supera a los métodos más avanzados en la preservación de detalles geométricos (por ejemplo, tallados en esculturas) y la consistencia estilística en escenas (por ejemplo, iluminación coherente en paisajes), manteniendo la renderización en tiempo real. Este trabajo conecta el 3D GS fotorrealista con la estilización artística, abriendo aplicaciones en videojuegos, mundos virtuales y arte digital.
La comprensión multi-vista, la capacidad de reconciliar información visual desde diversos puntos de vista para una navegación, manipulación y comprensión de escenas 3D efectivas, representa un desafío fundamental en los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) destinados a ser utilizados como agentes corporizados. Si bien los MLLMs recientes han mostrado avances impresionantes en razonamiento y planificación de alto nivel, a menudo se quedan cortos cuando se enfrentan a la consistencia geométrica multi-vista y la correspondencia entre vistas. Para evaluar de manera integral los desafíos de los MLLMs en el razonamiento de escenas multi-vista, proponemos All-Angles Bench, un benchmark que incluye más de 2,100 pares de preguntas-respuestas multi-vista cuidadosamente anotadas por humanos en 90 escenas del mundo real. Nuestras seis tareas (conteo, identificación de atributos, distancia relativa, dirección relativa, manipulación de objetos y estimación de la pose de la cámara) prueban específicamente la correspondencia geométrica del modelo y su capacidad para alinear información de manera consistente entre vistas. Nuestros extensos experimentos, que evalúan 27 MLLMs representativos, incluyendo Gemini-2.0-Flash, Claude-3.7-Sonnet y GPT-4o, en comparación con evaluadores humanos, revelan una brecha de rendimiento sustancial, indicando que los MLLMs actuales aún están lejos de alcanzar el nivel de competencia humana. A través de un análisis en profundidad, demostramos que los MLLMs tienen un desempeño particularmente deficiente en dos aspectos: (1) la correspondencia entre vistas para vistas parcialmente ocluidas y (2) el establecimiento de poses de cámara aproximadas. Estos hallazgos resaltan la necesidad de refinamientos específicos del dominio o módulos que incorporen una mayor conciencia multi-vista. Creemos que nuestro All-Angles Bench ofrece valiosas perspectivas y contribuye a cerrar la brecha entre los MLLMs y la comprensión multi-vista a nivel humano. El proyecto y el benchmark están disponibles públicamente en https://danielchyeh.github.io/All-Angles-Bench/.
En este artículo, presentamos EasyEdit2, un marco diseñado para permitir la ajustabilidad plug-and-play en el control del comportamiento de los Modelos de Lenguaje de Gran Escala (LLM, por sus siglas en inglés). EasyEdit2 admite una amplia gama de intervenciones en tiempo de prueba, incluyendo seguridad, sentimiento, personalidad, patrones de razonamiento, factualidad y características del lenguaje. A diferencia de su predecesor, EasyEdit2 cuenta con una nueva arquitectura específicamente diseñada para la dirección fluida del modelo. Esta incluye módulos clave como el generador de vectores de dirección y el aplicador de vectores de dirección, que permiten la generación y aplicación automática de vectores de dirección para influir en el comportamiento del modelo sin modificar sus parámetros. Una de las principales ventajas de EasyEdit2 es su facilidad de uso: los usuarios no necesitan conocimientos técnicos extensos. Con solo un ejemplo, pueden guiar y ajustar eficazmente las respuestas del modelo, haciendo que el control preciso sea accesible y eficiente. Empíricamente, reportamos el rendimiento de la dirección del modelo en diferentes LLM, demostrando la efectividad de estas técnicas. Hemos publicado el código fuente en GitHub en https://github.com/zjunlp/EasyEdit junto con un cuaderno de demostración. Además, proporcionamos un video de demostración en https://zjunlp.github.io/project/EasyEdit2/video para una introducción rápida.
El control de la cámara y el movimiento humano ha sido ampliamente estudiado para la generación de videos, pero los enfoques existentes generalmente los abordan por separado, enfrentándose a datos limitados con anotaciones de alta calidad para ambos aspectos. Para superar esto, presentamos Uni3C, un marco unificado mejorado en 3D para el control preciso tanto de la cámara como del movimiento humano en la generación de videos. Uni3C incluye dos contribuciones clave. Primero, proponemos un módulo de control plug-and-play entrenado con un modelo generativo de video congelado, PCDController, que utiliza nubes de puntos no proyectadas a partir de la profundidad monocular para lograr un control preciso de la cámara. Al aprovechar los fuertes conocimientos previos en 3D de las nubes de puntos y las potentes capacidades de los modelos fundamentales de video, PCDController muestra una generalización impresionante, desempeñándose bien independientemente de si el modelo de inferencia está congelado o ajustado. Esta flexibilidad permite que los diferentes módulos de Uni3C se entrenen en dominios específicos, es decir, ya sea en el control de la cámara o en el control del movimiento humano, reduciendo la dependencia de datos anotados conjuntamente. Segundo, proponemos una guía de mundo 3D alineada conjuntamente para la fase de inferencia que integra de manera fluida tanto las nubes de puntos escénicas como los personajes SMPL-X para unificar las señales de control de la cámara y el movimiento humano, respectivamente. Experimentos exhaustivos confirman que PCDController disfruta de una fuerte robustez al dirigir el movimiento de la cámara para modelos ajustados de generación de video. Uni3C supera sustancialmente a los competidores tanto en la capacidad de control de la cámara como en la calidad del movimiento humano. Además, recopilamos conjuntos de validación personalizados que presentan movimientos de cámara desafiantes y acciones humanas para validar la efectividad de nuestro método.
Presentamos LeetCodeDataset, un punto de referencia de alta calidad para evaluar y entrenar modelos de generación de código, abordando dos desafíos clave en la investigación de LLM: la falta de benchmarks de codificación centrados en razonamiento y entornos de entrenamiento autónomos. Al curar problemas de Python de LeetCode con metadatos detallados, amplia cobertura, más de 100 casos de prueba por problema y divisiones temporales (antes/después de julio de 2024), nuestro conjunto de datos permite una evaluación libre de contaminación y un ajuste fino supervisado (SFT) eficiente. Los experimentos muestran que los modelos de razonamiento superan significativamente a sus contrapartes no basadas en razonamiento, mientras que el SFT con solo 2.6K soluciones generadas por el modelo logra un rendimiento comparable al de contrapartes con 110K muestras. El conjunto de datos y el marco de evaluación están disponibles en Hugging Face y Github.
Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han impulsado a los Agentes de Interfaz Gráfica de Usuario (GUI), mostrando potencial para automatizar tareas en dispositivos informáticos. Trabajos recientes han comenzado a explorar el razonamiento en tareas de GUI con resultados alentadores. Sin embargo, muchos enfoques actuales dependen de plantillas de razonamiento diseñadas manualmente, lo que puede resultar en un razonamiento insuficientemente robusto y adaptable para entornos de GUI complejos. Mientras tanto, algunos agentes existentes continúan operando como Actores Reactivos, basándose principalmente en un razonamiento implícito que puede carecer de la profundidad necesaria para tareas de GUI que requieren planificación y recuperación de errores. Argumentamos que avanzar en estos agentes requiere un cambio de la actuación reactiva hacia una actuación basada en un razonamiento deliberado. Para facilitar esta transformación, presentamos InfiGUI-R1, un agente de GUI basado en MLLM desarrollado a través de nuestro marco Actor2Reasoner, un enfoque de entrenamiento en dos etapas centrado en el razonamiento diseñado para evolucionar progresivamente a los agentes de Actores Reactivos a Razonadores Deliberativos. La primera etapa, Inyección de Razonamiento, se centra en establecer un razonador básico. Empleamos la Destilación de Razonamiento Espacial para transferir capacidades de razonamiento espacial multimodal de modelos maestros a MLLMs a través de trayectorias con pasos de razonamiento explícitos, permitiendo que los modelos integren información visual-espacial de GUI con razonamiento lógico antes de la generación de acciones. La segunda etapa, Mejora de la Deliberación, refina el razonador básico en uno deliberativo utilizando Aprendizaje por Refuerzo. Esta etapa introduce dos enfoques: Guía de Sub-objetivos, que recompensa a los modelos por generar sub-objetivos intermedios precisos, y Construcción de Escenarios de Recuperación de Errores, que crea escenarios de entrenamiento de fallos y recuperación a partir de pasos identificados como propensos a errores. Los resultados experimentales muestran que InfiGUI-R1 logra un rendimiento sólido en tareas de anclaje de GUI y trayectorias. Recursos disponibles en https://github.com/Reallm-Labs/InfiGUI-R1.
Los agentes de GUI móviles muestran potencial para automatizar tareas, pero enfrentan desafíos de generalización en diversos escenarios del mundo real. Los enfoques tradicionales que utilizan preentrenamiento o ajuste fino con grandes conjuntos de datos luchan con la diversidad de aplicaciones móviles y tareas específicas del usuario. Proponemos mejorar las capacidades de los agentes de GUI móviles a través de demostraciones humanas, centrándonos en mejorar el rendimiento en escenarios no vistos en lugar de perseguir una generalización universal mediante conjuntos de datos más grandes. Para materializar este paradigma, presentamos LearnGUI, el primer conjunto de datos integral diseñado específicamente para estudiar el aprendizaje basado en demostraciones en agentes de GUI móviles, que comprende 2,252 tareas offline y 101 tareas online con demostraciones humanas de alta calidad. Además, desarrollamos LearnAct, un sofisticado marco de trabajo multiagente que extrae automáticamente conocimiento de las demostraciones para mejorar la finalización de tareas. Este marco integra tres agentes especializados: DemoParser para la extracción de conocimiento, KnowSeeker para la recuperación de conocimiento relevante y ActExecutor para la ejecución de tareas mejoradas con demostraciones. Nuestros resultados experimentales muestran mejoras significativas en el rendimiento tanto en evaluaciones offline como online. En las evaluaciones offline, una sola demostración mejora el rendimiento del modelo, aumentando la precisión de Gemini-1.5-Pro del 19.3% al 51.7%. En las evaluaciones online, nuestro marco mejora la tasa de éxito de tareas de UI-TARS-7B-SFT del 18.1% al 32.8%. El marco LearnAct y el benchmark LearnGUI establecen el aprendizaje basado en demostraciones como una dirección prometedora para agentes de GUI móviles más adaptables, personalizados y desplegables.
Presentamos Distributional RewArds for Generative OptimizatioN (DRAGON), un marco versátil para el ajuste fino de modelos de generación de medios hacia un resultado deseado. En comparación con el aprendizaje por refuerzo tradicional con retroalimentación humana (RLHF) o enfoques de preferencias por pares como la optimización directa de preferencias (DPO), DRAGON es más flexible. Puede optimizar funciones de recompensa que evalúan tanto ejemplos individuales como distribuciones de ellos, lo que lo hace compatible con un amplio espectro de recompensas a nivel de instancia, de instancia a distribución y de distribución a distribución. Aprovechando esta versatilidad, construimos funciones de recompensa novedosas seleccionando un codificador y un conjunto de ejemplos de referencia para crear una distribución ejemplar. Cuando se utilizan codificadores de modalidad cruzada como CLAP, los ejemplos de referencia pueden ser de una modalidad diferente (por ejemplo, texto versus audio). Luego, DRAGON recopila generaciones en línea y en política, las puntúa para construir un conjunto de demostraciones positivas y un conjunto negativo, y aprovecha el contraste entre ambos para maximizar la recompensa. Para la evaluación, ajustamos finamente un modelo de difusión de texto a música en el dominio de audio con 20 funciones de recompensa diferentes, incluyendo un modelo personalizado de estética musical, puntuación CLAP, diversidad Vendi y distancia de Frechet en audio (FAD). Además, comparamos configuraciones de FAD a nivel de instancia (por canción) y de conjunto completo de datos, mientras realizamos ablaciones de múltiples codificadores y conjuntos de referencia de FAD. En todas las 20 recompensas objetivo, DRAGON logra una tasa promedio de éxito del 81.45%. Además, las funciones de recompensa basadas en conjuntos ejemplares mejoran efectivamente las generaciones y son comparables a las recompensas basadas en modelos. Con un conjunto ejemplar adecuado, DRAGON alcanza una tasa de éxito en calidad musical votada por humanos del 60.95% sin entrenamiento en anotaciones de preferencias humanas. De esta manera, DRAGON exhibe un nuevo enfoque para diseñar y optimizar funciones de recompensa para mejorar la calidad percibida por los humanos. Ejemplos de sonido en https://ml-dragon.github.io/web.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado capacidades de razonamiento sólidas, especialmente cuando se mejoran mediante Aprendizaje por Refuerzo (RL). Si bien trabajos previos han aplicado con éxito RL al razonamiento matemático —donde las reglas y la corrección están bien definidas—, generalizar estos métodos a dominios de razonamiento más amplios sigue siendo un desafío debido a la limitación de datos, la falta de estructuras de recompensa verificables y los diversos requisitos de las tareas. En este trabajo, proponemos NEMOTRON-CROSSTHINK, un marco que incorpora sistemáticamente corpus de múltiples dominios, incluyendo pares de preguntas y respuestas tanto sintéticas como del mundo real, en el entrenamiento de RL para mejorar la generalización en diversas tareas de razonamiento. NEMOTRON-CROSSTHINK aborda desafíos clave mediante (1) la incorporación de datos de diversas fuentes que abarcan STEM, humanidades, ciencias sociales, etc.; (2) la aplicación de plantillas estructuradas (por ejemplo, opción múltiple y preguntas abiertas) para controlar la complejidad del espacio de respuestas; (3) el filtrado de respuestas verificables; y (4) la optimización de estrategias de mezcla de datos que utilizan eficazmente información de múltiples fuentes. Nuestro enfoque permite un modelado de recompensas escalable y verificable más allá de las matemáticas y demuestra mejoras en precisión tanto en benchmarks de razonamiento matemático (MATH-500: +30.1%, AMC23: +27.5%) como no matemáticos (MMLU-PRO: +12.8%, GPQA-DIAMOND: +11.3%, AGIEVAL: +15.1%, SUPERGPQA: +3.8%). Además, NEMOTRON-CROSSTHINK exhibe una eficiencia de respuesta significativamente mejorada —utilizando un 28% menos de tokens para respuestas correctas—, destacando un razonamiento más enfocado y efectivo. A través de NEMOTRON-CROSSTHINK, demostramos que la integración de datos de múltiples dominios y formatos en RL conduce a LLMs más precisos, eficientes y generalizables.
Los Modelos Multimodales Grandes (LMMs) perciben de manera uniforme los fotogramas de video, lo que genera ineficiencia computacional para videos con densidad de información temporal inherentemente variable. Este artículo presenta Quicksviewer, un LMM con un nuevo paradigma de percepción que divide un video de densidad no uniforme en cubos variables utilizando Gumbel Softmax, seguido de un remuestreo unificado para cada cubo, logrando una comprensión eficiente del video. Este enfoque simple e intuitivo comprime dinámicamente el video en línea según su densidad temporal, reduciendo significativamente la redundancia espacio-temporal (tasa de compresión general de 45 veces), mientras permite un entrenamiento eficiente con un campo receptivo grande. Entrenamos el modelo desde un backbone de lenguaje a través de tres etapas progresivas, cada una incorporando videos extensos con un promedio de 420s/1fps gracias a la eficiencia de percepción. Con solo 0.8M de muestras video-texto para el entrenamiento, nuestro modelo supera al baseline directo que emplea una estrategia de partición fija en un máximo de 8.72 en precisión, demostrando la efectividad en el rendimiento. En Video-MME, Quicksviewer alcanza el estado del arte (SOTA) bajo longitudes de secuencia modestas utilizando solo hasta el 5\% de los tokens por fotograma requeridos por los baselines. Con este paradigma, escalar el número de fotogramas de entrada revela una clara ley de potencia de las capacidades del modelo. También se verifica empíricamente que los segmentos generados por la red de cubificación pueden ayudar a analizar eventos continuos en videos.
Presentamos TAPIP3D, un enfoque novedoso para el seguimiento a largo plazo de puntos 3D en videos monoculares RGB y RGB-D. TAPIP3D representa los videos como nubes de características espacio-temporales estabilizadas respecto a la cámara, aprovechando la información de profundidad y movimiento de la cámara para elevar las características 2D del video a un espacio 3D donde el movimiento de la cámara se cancela efectivamente. TAPIP3D refina iterativamente las estimaciones de movimiento 3D multiframe dentro de esta representación estabilizada, permitiendo un seguimiento robusto durante períodos prolongados. Para manejar las irregularidades inherentes de las distribuciones de puntos 3D, proponemos un mecanismo de Atención de Pares Locales. Esta estrategia de contextualización 3D explota eficazmente las relaciones espaciales en 3D, formando vecindarios de características informativos para una estimación precisa de trayectorias 3D. Nuestro enfoque centrado en 3D supera significativamente los métodos existentes de seguimiento de puntos 3D e incluso mejora la precisión del seguimiento 2D en comparación con los rastreadores de píxeles 2D convencionales cuando se dispone de una profundidad precisa. Admite inferencia tanto en coordenadas de cámara (es decir, no estabilizadas) como en coordenadas del mundo, y nuestros resultados demuestran que compensar el movimiento de la cámara mejora el rendimiento del seguimiento. Nuestro enfoque reemplaza los vecindarios de correlación cuadrada 2D convencionales utilizados en rastreadores 2D y 3D anteriores, lo que lleva a resultados más robustos y precisos en varios puntos de referencia de seguimiento de puntos 3D. Página del proyecto: https://tapip3d.github.io
La anamorfosis se refiere a una categoría de imágenes que están intencionalmente distorsionadas, haciéndolas irreconocibles cuando se ven directamente. Su verdadera forma solo se revela cuando se observan desde un punto de vista específico, lo que puede lograrse mediante algún dispositivo catadióptrico como un espejo o una lente. Aunque la construcción de estos dispositivos matemáticos se remonta al siglo XVII, solo son interpretables cuando se ven desde una perspectiva particular y tienden a perder su significado cuando se observan de manera normal. En este artículo, revisitamos estas famosas ilusiones ópticas con un enfoque generativo. Con la ayuda de modelos de flujo rectificado latente, proponemos un método para crear imágenes anamórficas que aún conservan una interpretación válida cuando se ven directamente. Para ello, introducimos Laplacian Pyramid Warping, una técnica de deformación de imágenes consciente de la frecuencia, clave para generar visuales de alta calidad. Nuestro trabajo extiende Visual Anagrams (arXiv:2311.17919) a modelos de espacio latente y a una gama más amplia de transformaciones espaciales, permitiendo la creación de nuevas ilusiones perceptivas generativas.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) exhiben capacidades notables, pero son susceptibles a indicaciones adversarias que explotan vulnerabilidades para producir resultados inseguros o sesgados. Los métodos existentes de red-teaming a menudo enfrentan desafíos de escalabilidad, requisitos intensivos en recursos o una diversidad limitada en las estrategias de ataque. Proponemos RainbowPlus, un novedoso marco de red-teaming basado en la computación evolutiva, que mejora la generación de indicaciones adversarias mediante una búsqueda de calidad-diversidad (QD, por sus siglas en inglés) adaptativa, extendiendo algoritmos evolutivos clásicos como MAP-Elites con innovaciones diseñadas específicamente para modelos de lenguaje. Al emplear un archivo de múltiples elementos para almacenar indicaciones diversas y de alta calidad, y una función de aptitud integral para evaluar múltiples indicaciones simultáneamente, RainbowPlus supera las limitaciones de los archivos de una sola indicación y las comparaciones por pares en métodos QD anteriores como Rainbow Teaming. Los experimentos que comparan RainbowPlus con métodos QD en seis conjuntos de datos de referencia y cuatro LLMs de código abierto demuestran una tasa de éxito de ataque (ASR, por sus siglas en inglés) superior y una diversidad (Diverse-Score aprox. 0.84) mayor, generando hasta 100 veces más indicaciones únicas (por ejemplo, 10,418 frente a 100 para Ministral-8B-Instruct-2410). Frente a nueve métodos de última generación en el conjunto de datos HarmBench con doce LLMs (diez de código abierto, dos de código cerrado), RainbowPlus logra un ASR promedio del 81.1%, superando a AutoDAN-Turbo en un 3.9%, y es 9 veces más rápido (1.45 frente a 13.50 horas). Nuestra implementación de código abierto fomenta avances adicionales en la seguridad de los LLMs, ofreciendo una herramienta escalable para la evaluación de vulnerabilidades. El código y los recursos están disponibles públicamente en https://github.com/knoveleng/rainbowplus, apoyando la reproducibilidad y futuras investigaciones en red-teaming de LLMs.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se están implementando cada vez más en pipelines de procesamiento de datos especializados en diversos dominios, como finanzas, marketing y comercio electrónico. Sin embargo, al ejecutarlos en producción con muchas entradas, a menudo no siguen las instrucciones o no cumplen con las expectativas de los desarrolladores. Para mejorar la confiabilidad en estas aplicaciones, es esencial crear aserciones o barreras de protección para las salidas de los LLMs que se ejecuten junto con los pipelines. No obstante, determinar el conjunto correcto de aserciones que capturen los requisitos de los desarrolladores para una tarea es un desafío. En este artículo, presentamos PROMPTEVALS, un conjunto de datos de 2087 prompts de pipelines de LLMs con 12623 criterios de aserción correspondientes, obtenidos de desarrolladores que utilizan nuestras herramientas de código abierto para pipelines de LLMs. Este conjunto de datos es 5 veces más grande que colecciones anteriores. Utilizando una división de prueba reservada de PROMPTEVALS como punto de referencia, evaluamos modelos cerrados y de código abierto en la generación de aserciones relevantes. Notablemente, nuestros modelos ajustados de Mistral y Llama 3 superan a GPT-4o en un 20.93% en promedio, ofreciendo tanto una latencia reducida como un rendimiento mejorado. Creemos que nuestro conjunto de datos puede impulsar más investigaciones en confiabilidad, alineación e ingeniería de prompts para LLMs.
Este estudio realiza una comparación detallada entre el modelo base de detección de objetos RF-DETR y las configuraciones del modelo de detección de objetos YOLOv12 para la detección de frutos verdes en un entorno complejo de huertos caracterizado por ambigüedad en las etiquetas, oclusiones y mezcla con el fondo. Se desarrolló un conjunto de datos personalizado que incluye anotaciones de una sola clase (fruto verde) y múltiples clases (frutos verdes ocluidos y no ocluidos) para evaluar el rendimiento de los modelos en condiciones dinámicas del mundo real. El modelo de detección de objetos RF-DETR, que utiliza una arquitectura DINOv2 y atención deformable, destacó en el modelado de contexto global, identificando eficazmente frutos verdes parcialmente ocluidos o ambiguos. En contraste, YOLOv12 aprovechó la atención basada en CNN para una mejor extracción de características locales, optimizándolo para la eficiencia computacional y el despliegue en dispositivos de borde. RF-DETR logró el mayor valor de Precisión Media Promedio (mAP50) de 0.9464 en la detección de una sola clase, demostrando su capacidad superior para localizar frutos verdes en escenarios desordenados. Aunque YOLOv12N registró el mayor mAP@50:95 de 0.7620, RF-DETR superó consistentemente en escenarios espaciales complejos. Para la detección de múltiples clases, RF-DETR lideró con un mAP@50 de 0.8298, mostrando su capacidad para diferenciar entre frutos ocluidos y no ocluidos, mientras que YOLOv12L obtuvo el mayor mAP@50:95 con 0.6622, indicando una mejor clasificación en contextos de oclusión detallada. El análisis de la dinámica de entrenamiento destacó la rápida convergencia de RF-DETR, particularmente en configuraciones de una sola clase, donde alcanzó una meseta en menos de 10 épocas, demostrando la eficiencia de las arquitecturas basadas en transformadores para adaptarse a datos visuales dinámicos. Estos hallazgos validan la efectividad de RF-DETR para aplicaciones agrícolas de precisión, mientras que YOLOv12 es adecuado para escenarios que requieren respuestas rápidas. >Términos clave: RF-DETR, detección de objetos, YOLOv12, YOLOv13, YOLOv14, YOLOv15, YOLOE, YOLO World, YOLO, You Only Look Once, Roboflow, Transformers de Detección, CNN.
Los modelos fundamentales de visión (VFMs, por sus siglas en inglés) como DINOv2 y CLIP han logrado resultados impresionantes en diversas tareas posteriores, pero su limitada resolución de características dificulta su rendimiento en aplicaciones que requieren una comprensión a nivel de píxeles. El aumento de resolución de características ofrece una dirección prometedora para abordar este desafío. En este trabajo, identificamos dos factores críticos para mejorar el aumento de resolución de características: la arquitectura del aumentador y el objetivo de entrenamiento. Para la arquitectura del aumentador, introducimos un transformador de atención cruzada basado en coordenadas que integra las imágenes de alta resolución con coordenadas y características de VFM de baja resolución para generar características nítidas y de alta calidad. Para el objetivo de entrenamiento, proponemos construir características pseudo-verdad terreno de alta resolución aprovechando máscaras independientes de la clase y la auto-distilación. Nuestro enfoque captura eficazmente detalles finos y se adapta flexiblemente a diversas resoluciones de entrada y características. A través de experimentos, demostramos que nuestro enfoque supera significativamente las técnicas existentes de aumento de resolución de características en diversas tareas posteriores. Nuestro código está disponible en https://github.com/andrehuang/loftup.
Presentamos un enfoque para detectar y rastrear poses 3D detalladas de múltiples personas a partir de un único flujo de cámara monocular. Nuestro sistema mantiene predicciones temporalmente coherentes en escenas concurridas con poses complejas y oclusiones. Nuestro modelo realiza tanto una detección robusta por fotograma como una actualización aprendida de la pose para rastrear a las personas de un fotograma a otro. En lugar de emparejar detecciones a lo largo del tiempo, las poses se actualizan directamente a partir de una nueva imagen de entrada, lo que permite el rastreo en línea a través de oclusiones. Entrenamos con numerosos conjuntos de datos de imágenes y videos, aprovechando anotaciones pseudoetiquetadas, para producir un modelo que iguala la precisión de los sistemas más avanzados en estimación de poses 3D, siendo más rápido y preciso en el rastreo de múltiples personas a lo largo del tiempo. El código y los pesos están disponibles en https://github.com/apple/ml-comotion.
Diseñamos un conjunto de tareas algorítmicas mínimas que representan una abstracción aproximada de tareas del mundo real de naturaleza abierta. Esto nos permite cuantificar de manera clara y controlable los límites creativos de los modelos de lenguaje actuales. Al igual que las tareas del mundo real que requieren un salto de pensamiento creativo y visionario, nuestras tareas implican un paso de planificación estocástica implícita y abierta que (a) descubre nuevas conexiones en un grafo de conocimiento abstracto (como en juegos de palabras, analogías o investigación) o (b) construye nuevos patrones (como en el diseño de problemas matemáticos o nuevas proteínas). En estas tareas, argumentamos empírica y conceptualmente cómo el aprendizaje basado en el siguiente token es miope y tiende a memorizar en exceso; en comparación, los enfoques de múltiples tokens, como el entrenamiento sin supervisión y los modelos de difusión, sobresalen en la producción de resultados diversos y originales. En segundo lugar, en nuestras tareas, encontramos que para elicitar aleatoriedad del Transformer sin comprometer la coherencia, es mejor inyectar ruido directamente en la capa de entrada (mediante un método que denominamos condicionamiento por hash) en lugar de recurrir al muestreo por temperatura en la capa de salida. Así, nuestro trabajo ofrece un banco de pruebas mínimo y fundamentado para analizar habilidades creativas de naturaleza abierta, y presenta nuevos argumentos para ir más allá del aprendizaje basado en el siguiente token y el muestreo basado en softmax. Parte del código está disponible en https://github.com/chenwu98/algorithmic-creativity.
Los Modelos de Lenguaje Visual Médico han demostrado un gran potencial en diversas aplicaciones sanitarias, incluyendo la generación de descripciones de imágenes médicas y la asistencia diagnóstica. Sin embargo, la mayoría de los modelos existentes dependen de instrucciones basadas en texto, lo que limita su usabilidad en entornos clínicos del mundo real, especialmente en escenarios como cirugías, donde la interacción basada en texto suele ser poco práctica para los médicos. Además, los modelos actuales de análisis de imágenes médicas generalmente carecen de un razonamiento exhaustivo detrás de sus predicciones, lo que reduce su fiabilidad para la toma de decisiones clínicas. Dado que los errores en el diagnóstico médico pueden tener consecuencias que cambian la vida, existe una necesidad crítica de asistencia médica interpretable y racional. Para abordar estos desafíos, presentamos SilVar-Med, un modelo de lenguaje visual médico impulsado por voz de extremo a extremo, un asistente de imágenes médicas multimodal que integra la interacción por voz con modelos de lenguaje visual, pionero en la tarea de comunicación basada en voz para el análisis de imágenes médicas. Además, nos centramos en la interpretación del razonamiento detrás de cada predicción de anomalías médicas con un conjunto de datos de razonamiento propuesto. A través de experimentos exhaustivos, demostramos un estudio de prueba de concepto para la interpretación de imágenes médicas basada en razonamiento con interacción por voz de extremo a extremo. Creemos que este trabajo avanzará el campo de la IA médica al fomentar sistemas de apoyo al diagnóstico más transparentes, interactivos y clínicamente viables. Nuestro código y conjunto de datos están disponibles públicamente en SilVar-Med.