Artículos de investigación en IA seleccionados diariamente con traducciones
Proponemos FlowRL: igualar la distribución completa de recompensas mediante el equilibrio de flujos en lugar de maximizar las recompensas en el aprendizaje por refuerzo (RL) de modelos de lenguaje grandes (LLM). Los modelos avanzados de razonamiento recientes adoptan métodos de maximización de recompensas (por ejemplo, PPO y GRPO), que tienden a sobreoptimizar las señales de recompensa dominantes mientras descuidan rutas de razonamiento menos frecuentes pero válidas, reduciendo así la diversidad. En contraste, transformamos las recompensas escalares en una distribución objetivo normalizada utilizando una función de partición aprendible, y luego minimizamos la divergencia KL inversa entre la política y la distribución objetivo. Implementamos esta idea como un método de optimización equilibrado por flujos que promueve una exploración diversa y trayectorias de razonamiento generalizables. Realizamos experimentos en tareas de razonamiento matemático y de código: FlowRL logra una mejora promedio significativa del 10.0% sobre GRPO y del 5.1% sobre PPO en benchmarks matemáticos, y se desempeña consistentemente mejor en tareas de razonamiento de código. Estos resultados destacan la igualación de la distribución de recompensas como un paso clave hacia una exploración eficiente y un razonamiento diverso en el aprendizaje por refuerzo de LLM.
Los Modelos de Visión-Lenguaje (VLMs) han permitido el desarrollo de agentes de uso informático (CUAs) que operan interfaces gráficas de usuario (GUIs) de manera autónoma, mostrando un gran potencial, aunque el progreso se ve limitado por la falta de datos de uso informático a gran escala y de modelos base de código abierto. En este trabajo, presentamos ScaleCUA, un paso hacia la escalabilidad de CUAs de código abierto. Ofrece un conjunto de datos a gran escala que abarca 6 sistemas operativos y 3 dominios de tareas, construido mediante una pipeline de ciclo cerrado que combina agentes automatizados con expertos humanos. Entrenado con estos datos ampliados, ScaleCUA puede operar sin problemas en múltiples plataformas. Específicamente, logra mejoras significativas sobre los baselines (+26.6 en WebArena-Lite-v2, +10.7 en ScreenSpot-Pro) y establece nuevos resultados de vanguardia (94.4% en MMBench-GUI L1-Hard, 60.6% en OSWorld-G, 47.4% en WebArena-Lite-v2). Estos hallazgos subrayan el poder del escalado basado en datos para agentes de uso informático de propósito general. Publicaremos los datos, modelos y código para impulsar futuras investigaciones: https://github.com/OpenGVLab/ScaleCUA.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se están aplicando cada vez más en diversos escenarios del mundo real, cada uno regido por especificaciones de comportamiento y seguridad (spec) personalizadas por usuarios u organizaciones. Estas especificaciones, categorizadas en safety-spec y behavioral-spec, varían según los escenarios y evolucionan con preferencias y requisitos cambiantes. Formalizamos este desafío como alineación de especificaciones, centrándonos en la capacidad de los LLMs para seguir especificaciones dinámicas y específicas del escenario desde perspectivas tanto de comportamiento como de seguridad. Para abordar este desafío, proponemos Align3, un método ligero que emplea Deliberación en Tiempo de Prueba (TTD, por sus siglas en inglés) con reflexión y revisión jerárquica para razonar sobre los límites de las especificaciones. Además, presentamos SpecBench, un benchmark unificado para medir la alineación de especificaciones, que cubre 5 escenarios, 103 especificaciones y 1,500 prompts. Los experimentos con 15 modelos de razonamiento y 18 modelos de instrucción, utilizando varios métodos TTD, incluyendo Self-Refine, TPO y MoreThink, arrojan tres hallazgos clave: (i) la deliberación en tiempo de prueba mejora la alineación de especificaciones; (ii) Align3 avanza en la frontera de equilibrio entre seguridad y utilidad con un mínimo sobrecosto; (iii) SpecBench revela efectivamente las brechas de alineación. Estos resultados destacan el potencial de la deliberación en tiempo de prueba como una estrategia efectiva para razonar sobre los límites de las especificaciones en el mundo real.
Presentamos AToken, el primer tokenizador visual unificado que logra tanto una reconstrucción de alta fidelidad como una comprensión semántica en imágenes, videos y activos 3D. A diferencia de los tokenizadores existentes que se especializan en reconstrucción o comprensión para modalidades individuales, AToken codifica estas entradas visuales diversas en un espacio latente 4D compartido, unificando ambas tareas y modalidades en un solo marco. Específicamente, introducimos una arquitectura de transformador puro con incrustaciones de posición rotatoria 4D para procesar entradas visuales de resoluciones y duraciones temporales arbitrarias. Para garantizar un entrenamiento estable, introducimos un objetivo de entrenamiento libre de adversarios que combina pérdidas perceptuales y de matriz de Gram, logrando una calidad de reconstrucción de vanguardia. Al emplear un currículo de entrenamiento progresivo, AToken se expande gradualmente desde imágenes individuales, videos y 3D, y admite tokens latentes tanto continuos como discretos. AToken alcanza un rFID de 0.21 con un 82.2% de precisión en ImageNet para imágenes, un rFVD de 3.01 con un 32.6% de recuperación en MSRVTT para videos, y un PSNR de 28.19 con un 90.9% de precisión en clasificación para 3D. En aplicaciones posteriores, AToken habilita tanto tareas de generación visual (por ejemplo, generación de imágenes con tokens continuos y discretos, generación de texto a video, síntesis de imagen a 3D) como tareas de comprensión (por ejemplo, LLMs multimodales), logrando un rendimiento competitivo en todos los puntos de referencia. Estos resultados arrojan luz sobre los sistemas de IA multimodal de próxima generación construidos sobre una tokenización visual unificada.
Los modelos de lenguaje de gran escala (LLMs) se entrenan cada vez más con aprendizaje por refuerzo a partir de recompensas verificables (RLVR), pero el despliegue en el mundo real exige modelos que puedan automejorarse sin etiquetas o jueces externos. Los métodos existentes sin etiquetas, como la minimización de confianza, la autoconsistencia o los objetivos de mayoría, estabilizan el aprendizaje pero reducen gradualmente la exploración, causando un colapso de entropía: las generaciones se vuelven más cortas, menos diversas y frágiles. A diferencia de enfoques previos como el Aprendizaje por Refuerzo en Tiempo de Prueba (TTRL), que principalmente adapta los modelos al conjunto de datos no etiquetado inmediato, nuestro objetivo es más amplio: permitir mejoras generales sin sacrificar la capacidad inherente de exploración y generalización del modelo, es decir, evolucionar. Formalizamos este problema y proponemos Aprendizaje por Refuerzo Orientado a la Evolución y sin Etiquetas (EVOL-RL), una regla simple que combina estabilidad con variación en un entorno sin etiquetas. EVOL-RL mantiene la respuesta votada por mayoría como un ancla estable (selección) mientras añade una recompensa consciente de la novedad que favorece respuestas cuyo razonamiento difiere de lo ya producido (variación), medido en el espacio semántico. Implementado con GRPO, EVOL-RL también utiliza recorte asimétrico para preservar señales fuertes y un regularizador de entropía para mantener la búsqueda. Este diseño de mayoría-para-selección + novedad-para-variación previene el colapso, mantiene cadenas de pensamiento más largas e informativas, y mejora tanto pass@1 como pass@n. EVOL-RL supera consistentemente la línea base TTRL de solo mayoría; por ejemplo, entrenar en AIME24 sin etiquetas eleva el pass@1 de Qwen3-4B-Base en AIME25 del 4.6% de TTRL al 16.4%, y el pass@16 del 18.5% al 37.9%. EVOL-RL no solo previene el colapso de diversidad sino que también desbloquea una mayor generalización entre dominios (por ejemplo, GPQA). Además, demostramos que EVOL-RL también mejora el rendimiento en el entorno RLVR, destacando su amplia aplicabilidad.
Los recientes modelos de difusión de video demuestran un gran potencial en tareas de inteligencia espacial debido a sus ricos conocimientos previos sobre el mundo latente. Sin embargo, este potencial se ve limitado por su escasa controlabilidad e inconsistencia geométrica, lo que crea una brecha entre sus fuertes conocimientos previos y su uso práctico en tareas 3D/4D. Como resultado, los enfoques actuales suelen depender de reentrenamientos o ajustes finos, lo que conlleva el riesgo de degradar el conocimiento preentrenado y genera altos costos computacionales. Para abordar esto, proponemos WorldForge, un marco de trabajo en tiempo de inferencia que no requiere entrenamiento y está compuesto por tres módulos estrechamente acoplados. El Refinamiento Recursivo Intra-Paso introduce un mecanismo de refinamiento recursivo durante la inferencia, que optimiza repetidamente las predicciones de la red dentro de cada paso de eliminación de ruido para permitir la inyección precisa de trayectorias. La Fusión Latente Controlada por Flujo aprovecha la similitud del flujo óptico para desacoplar el movimiento de la apariencia en el espacio latente e inyectar selectivamente la guía de trayectoria en los canales relacionados con el movimiento. La Guía Autocorrectiva de Doble Camino compara las rutas de eliminación de ruido guiadas y no guiadas para corregir de manera adaptativa la deriva de trayectoria causada por señales estructurales ruidosas o desalineadas. Juntos, estos componentes inyectan una guía detallada y alineada con la trayectoria sin necesidad de entrenamiento, logrando tanto un control preciso del movimiento como una generación de contenido fotorrealista. Experimentos exhaustivos en diversos benchmarks validan la superioridad de nuestro método en realismo, consistencia de trayectoria y fidelidad visual. Este trabajo introduce un nuevo paradigma plug-and-play para la síntesis de video controlable, ofreciendo una nueva perspectiva sobre el aprovechamiento de conocimientos previos generativos para la inteligencia espacial.
La búsqueda ha surgido como infraestructura central para agentes basados en LLM y es ampliamente considerada como crítica en el camino hacia una inteligencia más general. Las finanzas son un terreno de prueba particularmente exigente: los analistas realizan rutinariamente búsquedas complejas y de múltiples pasos sobre datos específicos del dominio y sensibles al tiempo, lo que las hace ideales para evaluar tanto la competencia en búsqueda como el razonamiento basado en conocimiento. Sin embargo, no existen conjuntos de datos financieros abiertos que evalúen la capacidad de búsqueda de datos de agentes de extremo a extremo, en gran parte porque construir tareas realistas y complicadas requiere un profundo conocimiento financiero y los datos sensibles al tiempo son difíciles de evaluar. Presentamos FinSearchComp, el primer punto de referencia de agentes completamente de código abierto para búsqueda y razonamiento financiero realista y de dominio abierto. FinSearchComp comprende tres tareas —Obtención de Datos Sensibles al Tiempo, Búsqueda Histórica Simple e Investigación Histórica Completa— que reproducen de cerca los flujos de trabajo reales de los analistas financieros. Para garantizar la dificultad y la fiabilidad, involucramos a 70 expertos financieros profesionales para la anotación e implementamos una rigurosa tubería de control de calidad de múltiples etapas. El punto de referencia incluye 635 preguntas que abarcan los mercados globales y del Gran China, y evaluamos 21 modelos (productos) en él. Grok 4 (web) lidera el subconjunto global, acercándose a la precisión de nivel experto. DouBao (web) lidera en el subconjunto del Gran China. Los análisis experimentales muestran que equipar a los agentes con búsqueda web y complementos financieros mejora sustancialmente los resultados en FinSearchComp, y que el origen país de los modelos y herramientas impacta significativamente en el rendimiento. Al alinearse con tareas realistas de analistas y proporcionar una evaluación de extremo a extremo, FinSearchComp ofrece un banco de pruebas profesional y de alta dificultad para la búsqueda y razonamiento financiero complejo.
Estudios recientes han demostrado la importancia de las representaciones visuales de alta calidad en la generación de imágenes y han destacado las limitaciones de los modelos generativos en la comprensión de imágenes. Como un paradigma generativo diseñado originalmente para el lenguaje natural, los modelos autorregresivos enfrentan desafíos similares. En este trabajo, presentamos la primera investigación sistemática sobre los mecanismos de aplicar el paradigma de predicción del siguiente token al dominio visual. Identificamos tres propiedades clave que dificultan el aprendizaje de semánticas visuales de alto nivel: dependencia local y condicional, inconsistencia semántica entre pasos y deficiencia de invariancia espacial. Demostramos que estos problemas pueden abordarse efectivamente mediante la introducción de objetivos de auto-supervisión durante el entrenamiento, lo que conduce a un nuevo marco de entrenamiento, Entrenamiento AutoGuiado para Modelos Autorregresivos (ST-AR, por sus siglas en inglés). Sin depender de modelos de representación preentrenados, ST-AR mejora significativamente la capacidad de comprensión de imágenes de los modelos autorregresivos y conduce a una mejor calidad de generación. Específicamente, ST-AR aporta una mejora aproximada del 42% en FID para LlamaGen-L y del 49% en FID para LlamaGen-XL, manteniendo la misma estrategia de muestreo.
Este artículo presenta RynnVLA-001, un modelo visión-lenguaje-acción (VLA) construido sobre un preentrenamiento generativo a gran escala a partir de demostraciones humanas. Proponemos una metodología novedosa de preentrenamiento en dos etapas. La primera etapa, Preentrenamiento Generativo de Vídeo Egocéntrico, entrena un modelo de Imagen-a-Vídeo en 12 millones de vídeos egocéntricos de manipulación para predecir fotogramas futuros condicionados a un fotograma inicial y una instrucción en lenguaje natural. La segunda etapa, Modelado Consciente de Trayectorias Centrado en Humanos, extiende esto al predecir conjuntamente trayectorias futuras de puntos clave, conectando así de manera efectiva la predicción de fotogramas visuales con la predicción de acciones. Además, para mejorar la representación de las acciones, proponemos ActionVAE, un autoencoder variacional que comprime secuencias de acciones en incrustaciones latentes compactas, reduciendo la complejidad del espacio de salida del modelo VLA. Cuando se ajusta en los mismos conjuntos de datos de robótica, RynnVLA-001 logra un rendimiento superior al de los modelos de referencia más avanzados, demostrando que la estrategia de preentrenamiento propuesta proporciona una inicialización más efectiva para los modelos VLA.
Los métodos actuales de edición de imágenes basados en instrucciones (IBIE, por sus siglas en inglés) enfrentan dificultades en tareas de edición desafiantes, ya que tanto los tipos de edición como el número de muestras en los conjuntos de datos existentes son limitados. Además, la construcción tradicional de conjuntos de datos a menudo incluye pares de imágenes y descripciones ruidosos, lo que puede introducir sesgos y limitar las capacidades del modelo en escenarios de edición complejos. Para abordar estas limitaciones, presentamos MultiEdit, un conjunto de datos integral que incluye más de 107K muestras de edición de imágenes de alta calidad. Este abarca 6 tareas de edición desafiantes a través de una colección diversa de 18 tipos de edición que no son transferencia de estilo y 38 operaciones de transferencia de estilo, cubriendo un espectro que va desde transferencias de estilo sofisticadas hasta operaciones semánticas complejas, como la edición de referencias de personas y la edición de texto dentro de imágenes. Empleamos una novedosa pipeline de construcción de conjuntos de datos que utiliza dos modelos de lenguaje multimodal de gran escala (MLLMs) para generar instrucciones de edición visualmente adaptativas y producir imágenes editadas de alta fidelidad, respectivamente. Experimentos exhaustivos demuestran que el ajuste fino de modelos de código abierto fundamentales con nuestro conjunto MultiEdit-Train mejora sustancialmente el rendimiento de los modelos en tareas de edición sofisticadas en nuestro benchmark propuesto MultiEdit-Test, al mismo tiempo que preserva eficazmente sus capacidades en el benchmark de edición estándar. Creemos que MultiEdit proporciona un recurso valioso para avanzar en la investigación de capacidades IBIE más diversas y desafiantes. Nuestro conjunto de datos está disponible en https://huggingface.co/datasets/inclusionAI/MultiEdit.
La localización espacio-temporal en videos (STVG, por sus siglas en inglés) tiene como objetivo identificar el tubo espacio-temporal de un video, según lo especificado por una consulta de texto de entrada. En este artículo, utilizamos modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) para explorar una solución de cero disparos en STVG. Revelamos dos ideas clave sobre los MLLMs: (1) los MLLMs tienden a asignar dinámicamente tokens especiales, denominados tokens de localización, para anclar la consulta de texto; y (2) los MLLMs a menudo presentan una localización subóptima debido a la incapacidad de integrar completamente las pistas en la consulta de texto (por ejemplo, atributos, acciones) para la inferencia. Basándonos en estas ideas, proponemos un marco de trabajo de cero disparos basado en MLLMs para STVG, que incluye estrategias novedosas de resaltado espacio-temporal descompuesto (DSTH, por sus siglas en inglés) y ensamblaje temporal aumentado (TAS, por sus siglas en inglés) para liberar la capacidad de razonamiento de los MLLMs. La estrategia DSTH primero desacopla la consulta original en subconsultas de atributos y acciones para indagar sobre la existencia del objetivo tanto espacial como temporalmente. Luego, utiliza un módulo de reatención guiada por logits (LRA, por sus siglas en inglés) para aprender variables latentes como indicadores espaciales y temporales, regularizando las predicciones de tokens para cada subconsulta. Estos indicadores resaltan las pistas de atributos y acciones, respectivamente, dirigiendo la atención del modelo a regiones visuales confiables relacionadas con el espacio y el tiempo. Además, dado que la localización espacial por la subconsulta de atributos debe ser temporalmente consistente, introducimos la estrategia TAS para ensamblar las predicciones utilizando los fotogramas originales del video y los fotogramas temporalmente aumentados como entradas, ayudando a mejorar la consistencia temporal. Evaluamos nuestro método en varios MLLMs y demostramos que supera a los métodos de última generación (SOTA, por sus siglas en inglés) en tres puntos de referencia comunes de STVG. El código estará disponible en https://github.com/zaiquanyang/LLaVA_Next_STVG.
La imagen por ultrasonido se ha convertido en la modalidad de imagen preferida para la detección temprana del cáncer debido a sus ventajas de radiación no ionizante, bajo costo y capacidades de imagen en tiempo real. Sin embargo, el diagnóstico convencional por ultrasonido depende en gran medida de la experiencia del médico, lo que presenta desafíos de alta subjetividad y baja eficiencia diagnóstica. Los modelos de visión y lenguaje (VLMs, por sus siglas en inglés) ofrecen soluciones prometedoras para este problema, pero los modelos de propósito general existentes muestran un conocimiento limitado en tareas médicas de ultrasonido, con una generalización deficiente en el reconocimiento de lesiones en múltiples órganos y baja eficiencia en diagnósticos multitarea. Para abordar estas limitaciones, proponemos EchoVLM, un modelo de visión y lenguaje diseñado específicamente para imágenes médicas de ultrasonido. El modelo emplea una arquitectura de Mezcla de Expertos (MoE, por sus siglas en inglés) entrenada con datos que abarcan siete regiones anatómicas. Este diseño permite al modelo realizar múltiples tareas, incluyendo la generación de informes de ultrasonido, diagnóstico y respuesta visual a preguntas (VQA, por sus siglas en inglés). Los resultados experimentales demostraron que EchoVLM logró mejoras significativas de 10.15 y 4.77 puntos en las puntuaciones BLEU-1 y ROUGE-1, respectivamente, en comparación con Qwen2-VL en la tarea de generación de informes de ultrasonido. Estos hallazgos sugieren que EchoVLM tiene un potencial considerable para mejorar la precisión diagnóstica en imágenes de ultrasonido, proporcionando así una solución técnica viable para futuras aplicaciones clínicas. El código fuente y los pesos del modelo están disponibles en https://github.com/Asunatan/EchoVLM.
La detección de cambios a partir de imágenes de teledetección de alta resolución constituye un pilar fundamental en las aplicaciones de observación terrestre, aunque su eficacia se ve frecuentemente comprometida por dos desafíos críticos. En primer lugar, las falsas alarmas son comunes, ya que los modelos malinterpretan las variaciones radiométricas causadas por cambios temporales (por ejemplo, iluminación, estacionalidad) como cambios genuinos. En segundo lugar, una brecha semántica no despreciable entre las características abstractas profundas y las características superficiales ricas en detalles tiende a obstaculizar su fusión efectiva, lo que resulta en límites mal definidos. Para avanzar en la resolución de estos problemas, proponemos la Red de Compuerta Sinérgica Frecuencia-Espacial (FSG-Net), un paradigma novedoso que busca desentrañar sistemáticamente los cambios semánticos de las variaciones no deseadas. Específicamente, FSG-Net opera primero en el dominio de la frecuencia, donde un Módulo de Interacción Wavelet Consciente de Discrepancias (DAWIM) mitiga adaptativamente los pseudo-cambios al procesar de manera discriminada los diferentes componentes de frecuencia. Posteriormente, las características refinadas se mejoran en el dominio espacial mediante un Módulo de Atención Temporal-Espacial Sinérgica (STSAM), que amplifica la prominencia de las regiones de cambio genuino. Finalmente, para cerrar la brecha semántica, una Unidad de Fusión de Compuerta Ligera (LGFU) aprovecha la semántica de alto nivel para seleccionar e integrar de manera selectiva detalles cruciales de las capas superficiales. Experimentos exhaustivos en los benchmarks CDD, GZ-CD y LEVIR-CD validan la superioridad de FSG-Net, estableciendo un nuevo estado del arte con puntuaciones F1 de 94.16%, 89.51% y 91.27%, respectivamente. El código estará disponible en https://github.com/zxXie-Air/FSG-Net tras una posible publicación.