Artículos de investigación en IA seleccionados diariamente con traducciones
La automatización de la transformación de diseños de interfaces de usuario (UI) en código front-end tiene un gran potencial para acelerar el desarrollo de software y democratizar los flujos de trabajo de diseño. Si bien los modelos de lenguaje de gran escala (LLMs) recientes han demostrado avances en la generación de texto a código, muchos enfoques existentes dependen únicamente de indicaciones en lenguaje natural, lo que limita su eficacia para capturar la disposición espacial y la intención del diseño visual. En contraste, el desarrollo de UI en la práctica es inherentemente multimodal, comenzando a menudo con bocetos o maquetas visuales. Para abordar esta brecha, presentamos un marco modular de múltiples agentes que realiza la generación de UI a código en tres etapas interpretables: fundamentación, planificación y generación. El agente de fundamentación utiliza un modelo de visión y lenguaje para detectar y etiquetar componentes de UI, el agente de planificación construye una disposición jerárquica utilizando conocimientos previos de ingeniería front-end, y el agente de generación produce código HTML/CSS mediante síntesis adaptativa basada en indicaciones. Este diseño mejora la robustez, interpretabilidad y fidelidad en comparación con los métodos de caja negra de extremo a extremo. Además, extendemos el marco a un motor de datos escalable que produce automáticamente pares de imagen-código a gran escala. Utilizando estos ejemplos sintéticos, afinamos y reforzamos un modelo de visión y lenguaje de código abierto, obteniendo mejoras notables en la comprensión de UI y la calidad del código. Experimentos extensivos demuestran que nuestro enfoque alcanza un rendimiento de vanguardia en precisión de disposición, coherencia estructural y corrección del código. Nuestro código está disponible públicamente en https://github.com/leigest519/ScreenCoder.
En este informe, presentamos Falcon-H1, una nueva serie de modelos de lenguaje de gran escala (LLMs) que incorpora diseños de arquitectura híbrida optimizados para ofrecer tanto alto rendimiento como eficiencia en diversos casos de uso. A diferencia de los modelos Falcon anteriores, construidos exclusivamente sobre arquitecturas Transformer o Mamba, Falcon-H1 adopta un enfoque híbrido en paralelo que combina la atención basada en Transformer con Modelos de Espacio de Estados (SSMs), conocidos por su memoria de contexto largo y eficiencia computacional superiores. Revisamos sistemáticamente el diseño del modelo, la estrategia de datos y la dinámica de entrenamiento, desafiando prácticas convencionales en el campo. Falcon-H1 se lanza en múltiples configuraciones, incluyendo variantes base y ajustadas por instrucciones con 0.5B, 1.5B, 1.5B-deep, 3B, 7B y 34B parámetros. También están disponibles modelos cuantizados ajustados por instrucciones, sumando más de 30 puntos de control en Hugging Face Hub. Los modelos Falcon-H1 demuestran un rendimiento de vanguardia y una eficiencia excepcional en parámetros y entrenamiento. El modelo insignia, Falcon-H1-34B, iguala o supera a modelos de hasta 70B de escala, como Qwen3-32B, Qwen2.5-72B y Llama3.3-70B, utilizando menos parámetros y datos. Los modelos más pequeños muestran tendencias similares: Falcon-H1-1.5B-Deep rivaliza con los principales modelos actuales de 7B-10B, y Falcon-H1-0.5B se desempeña de manera comparable a los típicos modelos de 7B de 2024. Estos modelos destacan en razonamiento, matemáticas, tareas multilingües, seguimiento de instrucciones y conocimiento científico. Con soporte para hasta 256K tokens de contexto y 18 idiomas, Falcon-H1 es adecuado para una amplia gama de aplicaciones. Todos los modelos se publican bajo una licencia de código abierto permisiva, subrayando nuestro compromiso con una investigación en IA accesible y de impacto.
La creación en 3D siempre ha sido una fortaleza única del ser humano, impulsada por nuestra capacidad para deconstruir y reensamblar objetos utilizando nuestros ojos, mente y manos. Sin embargo, las herramientas actuales de diseño 3D tienen dificultades para replicar este proceso natural, requiriendo un considerable expertise artístico y trabajo manual. Este artículo presenta BANG, un enfoque generativo novedoso que conecta la generación 3D con el razonamiento, permitiendo una descomposición intuitiva y flexible de objetos 3D a nivel de partes. En el núcleo de BANG se encuentra la "Dinámica Generativa Explosionada", que crea una secuencia fluida de estados explosionados para una geometría de entrada, separando progresivamente las partes mientras preserva su coherencia geométrica y semántica. BANG utiliza un modelo de difusión latente a gran escala preentrenado, ajustado para la dinámica explosionada con un adaptador ligero de vistas explosionadas, permitiendo un control preciso sobre el proceso de descomposición. También incorpora un módulo de atención temporal para garantizar transiciones suaves y consistencia a lo largo del tiempo. BANG mejora el control con indicaciones espaciales, como cajas delimitadoras y regiones de superficie, permitiendo a los usuarios especificar qué partes descomponer y cómo. Esta interacción puede extenderse con modelos multimodales como GPT-4, habilitando manipulaciones de 2D a 3D para flujos de trabajo más intuitivos y creativos. Las capacidades de BANG se extienden a la generación de geometrías detalladas a nivel de partes, la asociación de partes con descripciones funcionales, y la facilitación de flujos de trabajo de creación y fabricación 3D conscientes de los componentes. Además, BANG ofrece aplicaciones en la impresión 3D, donde se generan partes separables para facilitar la impresión y el reensamblaje. En esencia, BANG permite una transformación fluida desde conceptos imaginativos hasta activos 3D detallados, ofreciendo una nueva perspectiva sobre la creación que resuena con la intuición humana.
El aprendizaje por refuerzo ha demostrado su eficacia para mejorar las capacidades de razonamiento de los modelos de lenguaje de gran escala. Los esfuerzos de investigación recientes han extendido progresivamente este paradigma a tareas de razonamiento multimodal. Debido a la complejidad y diversidad inherentes de las tareas multimodales, especialmente en el contenido semántico y las formulaciones de problemas, los modelos existentes suelen mostrar un rendimiento inestable en diversos dominios y niveles de dificultad. Para abordar estas limitaciones, proponemos VL-Cogito, un modelo avanzado de razonamiento multimodal entrenado mediante un novedoso marco de Aprendizaje por Refuerzo con Currículo Progresivo (PCuRL, por sus siglas en inglés). PCuRL guía sistemáticamente al modelo a través de tareas de dificultad gradualmente creciente, mejorando sustancialmente sus habilidades de razonamiento en diversos contextos multimodales. El marco introduce dos innovaciones clave: (1) un mecanismo de ponderación suave de dificultad en línea, que ajusta dinámicamente la dificultad del entrenamiento a lo largo de las etapas sucesivas de entrenamiento por refuerzo; y (2) un mecanismo de recompensa de longitud dinámica, que fomenta que el modelo regule adaptativamente la longitud de su trayectoria de razonamiento según la complejidad de la tarea, equilibrando así la eficiencia del razonamiento con la corrección. Las evaluaciones experimentales demuestran que VL-Cogito iguala o supera consistentemente a los modelos orientados al razonamiento existentes en los principales puntos de referencia multimodales que abarcan matemáticas, ciencias, lógica y comprensión general, validando la efectividad de nuestro enfoque.
El Pretrenamiento Contraste Lenguaje-Imagen (CLIP) es un modelo base popular que soporta desde la clasificación de cero disparos, la recuperación hasta los codificadores para modelos de lenguaje multimodal de gran escala (MLLMs). Aunque CLIP se ha entrenado con éxito en pares de imágenes-texto a escala de miles de millones del mundo angloparlante, escalar aún más el entrenamiento de CLIP para aprender de los datos de la web mundial sigue siendo un desafío: (1) no existe un método de curación disponible para manejar puntos de datos del mundo no angloparlante; (2) el rendimiento en inglés de los CLIP multilingües existentes es peor que su contraparte exclusivamente en inglés, es decir, la "maldición de la multilingüidad" que es común en los LLMs. Aquí presentamos MetaCLIP 2, la primera receta para entrenar CLIP desde cero en pares de imágenes-texto a escala de la web mundial. Para generalizar nuestros hallazgos, realizamos ablaciones rigurosas con cambios mínimos necesarios para abordar los desafíos mencionados y presentamos una receta que permite beneficios mutuos de los datos del mundo angloparlante y no angloparlante. En la clasificación de cero disparos en ImageNet, MetaCLIP 2 ViT-H/14 supera a su contraparte exclusivamente en inglés en un 0.8% y a mSigLIP en un 0.7%, y sorprendentemente establece un nuevo estado del arte sin factores de confusión a nivel de sistema (por ejemplo, traducción, cambios de arquitectura personalizados) en benchmarks multilingües, como CVQA con un 57.4%, Babel-ImageNet con un 50.2% y XM3600 con un 64.3% en la recuperación de imagen a texto.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) enfrentan una baja eficiencia de hardware durante la decodificación, especialmente en tareas de razonamiento de contexto largo. Este artículo presenta Step-3, un modelo de lenguaje visual (VLM) de 321 mil millones de parámetros con un co-diseño modelo-sistema optimizado para minimizar los costos de decodificación. Step-3 innova en dos dimensiones clave: (1) Un nuevo mecanismo de Atención de Factorización Multi-Matriz (MFA) que reduce significativamente tanto el tamaño de la caché KV como el cómputo, manteniendo una alta expresividad en la atención, y (2) la Desagregación Atención-FFN (AFD), un sistema de inferencia distribuido que desacopla las capas de atención y la Red Feed-Forward (FFN) en subsistemas especializados. Este co-diseño logra una eficiencia de costos sin precedentes: Step-3 reduce significativamente los costos teóricos de decodificación en comparación con modelos como DeepSeek-V3 y Qwen3 MoE 235B, con ganancias que aumentan en contextos más largos. Step-3 alcanza un bajo costo mientras activa 38 mil millones de parámetros por token (más que DeepSeek-V3 y Qwen3 MoE 235B), demostrando que la intensidad aritmética de atención alineada con el hardware, la dispersión de MoE y la AFD son críticas para la rentabilidad. Realizamos una comparación directa con DeepSeek-V3 en sus escenarios favorables. Nuestra implementación en GPUs Hopper alcanza un rendimiento de decodificación de hasta 4,039 tokens por segundo por GPU bajo un SLA de 50ms TPOT (contexto de 4K, FP8, sin MTP). Esto es superior a los 2,324 de DeepSeek-V3 en la misma configuración y establece una nueva frontera de Pareto para la decodificación de LLMs.
La detección de vehículos en imágenes aéreas es una tarea crítica con aplicaciones en monitoreo de tráfico, planificación urbana e inteligencia de defensa. Los métodos de aprendizaje profundo han proporcionado resultados de vanguardia (SOTA) para esta aplicación. Sin embargo, surge un desafío significativo cuando los modelos entrenados con datos de una región geográfica no logran generalizar eficazmente a otras áreas. La variabilidad en factores como las condiciones ambientales, los diseños urbanos, las redes viales, los tipos de vehículos y los parámetros de adquisición de imágenes (por ejemplo, resolución, iluminación y ángulo) provoca cambios de dominio que degradan el rendimiento del modelo. Este artículo propone un método novedoso que utiliza inteligencia artificial generativa para sintetizar imágenes aéreas de alta calidad y sus etiquetas, mejorando el entrenamiento de detectores mediante la ampliación de datos. Nuestra contribución clave es el desarrollo de un marco de transferencia de conocimiento multimodal y de múltiples etapas que utiliza modelos de difusión latente (LDMs) ajustados para mitigar la brecha de distribución entre los entornos de origen y destino. Experimentos exhaustivos en diversos dominios de imágenes aéreas muestran mejoras consistentes en AP50 sobre el aprendizaje supervisado con datos del dominio de origen, métodos de adaptación débilmente supervisados, métodos de adaptación de dominio no supervisados y detectores de objetos de conjunto abierto en un 4-23%, 6-10%, 7-40% y más del 50%, respectivamente. Además, presentamos dos nuevos conjuntos de datos aéreos anotados de Nueva Zelanda y Utah para apoyar futuras investigaciones en este campo. La página del proyecto está disponible en: https://humansensinglab.github.io/AGenDA
Aunque GRPO mejora sustancialmente los modelos de emparejamiento de flujos en la alineación de preferencias humanas para la generación de imágenes, métodos como FlowGRPO aún presentan ineficiencias debido a la necesidad de muestrear y optimizar sobre todos los pasos de eliminación de ruido especificados por el Proceso de Decisión de Markov (MDP). En este artículo, proponemos MixGRPO, un marco novedoso que aprovecha la flexibilidad de las estrategias de muestreo mixto mediante la integración de ecuaciones diferenciales estocásticas (SDE) y ecuaciones diferenciales ordinarias (ODE). Esto agiliza el proceso de optimización dentro del MDP para mejorar la eficiencia y potenciar el rendimiento. Específicamente, MixGRPO introduce un mecanismo de ventana deslizante, utilizando muestreo SDE y optimización guiada por GRPO solo dentro de la ventana, mientras aplica muestreo ODE fuera de ella. Este diseño confina la aleatoriedad del muestreo a los pasos de tiempo dentro de la ventana, reduciendo así la sobrecarga de optimización y permitiendo actualizaciones de gradiente más enfocadas para acelerar la convergencia. Además, dado que los pasos de tiempo fuera de la ventana deslizante no participan en la optimización, se admiten solucionadores de orden superior para el muestreo. Por ello, presentamos una variante más rápida, denominada MixGRPO-Flash, que mejora aún más la eficiencia del entrenamiento mientras logra un rendimiento comparable. MixGRPO muestra mejoras sustanciales en múltiples dimensiones de la alineación de preferencias humanas, superando a DanceGRPO tanto en efectividad como en eficiencia, con un tiempo de entrenamiento casi un 50% menor. Notablemente, MixGRPO-Flash reduce aún más el tiempo de entrenamiento en un 71%. Los códigos y modelos están disponibles en https://github.com/Tencent-Hunyuan/MixGRPO{MixGRPO}.
La segmentación audiovisual referencial (RAVS, por sus siglas en inglés) ha experimentado avances significativos recientemente, aunque persisten desafíos en la integración de información multimodal y en la comprensión y razonamiento profundo sobre el contenido audiovisual. Para extender los límites de la RAVS y facilitar futuras investigaciones en este campo, proponemos Omnimodal Referring Audio-Visual Segmentation (OmniAVS), un nuevo conjunto de datos que contiene 2,098 videos y 59,458 expresiones referenciales multimodales. OmniAVS se destaca por tres innovaciones clave: (1) 8 tipos de expresiones multimodales que combinan de manera flexible texto, habla, sonido y señales visuales; (2) un énfasis en la comprensión del contenido auditivo más allá de la mera detección de su presencia; y (3) la inclusión de razonamiento complejo y conocimiento del mundo en las expresiones. Además, presentamos Omnimodal Instructed Segmentation Assistant (OISA), para abordar los desafíos del razonamiento multimodal y la comprensión detallada del contenido audiovisual en OmniAVS. OISA utiliza MLLM para comprender señales complejas y realizar segmentación basada en razonamiento. Experimentos exhaustivos demuestran que OISA supera a los métodos existentes en OmniAVS y logra resultados competitivos en otras tareas relacionadas.
APR (Reparación Automatizada de Programas) tiene como objetivo localizar automáticamente defectos en programas, generar parches y validar las reparaciones. Las técnicas existentes para APR a menudo se combinan con LLMs (Modelos de Lenguaje de Gran Escala), que aprovechan el conocimiento relacionado con el código de los LLMs para mejorar la efectividad de la reparación. Los métodos actuales de APR basados en LLM suelen utilizar casos de prueba únicamente durante la etapa de inferencia, adoptando un enfoque iterativo que realiza primero la reparación y luego la valida mediante la ejecución de pruebas. Este paradigma convencional pasa por alto dos aspectos importantes: la contribución potencial de los casos de prueba en la fase de entrenamiento y la posibilidad de aprovechar las pruebas antes de la reparación. Para abordar esto, proponemos Repair-R1, que introduce casos de prueba en la fase de entrenamiento del modelo y traslada la generación de pruebas para que preceda a la reparación. El modelo debe primero generar casos de prueba discriminativos que puedan distinguir comportamientos defectuosos y luego realizar la reparación basándose en estas pruebas. Esto permite que el modelo localice mejor los defectos y comprenda las causas subyacentes de los mismos, mejorando así la efectividad de la reparación. Implementamos Repair-R1 con tres modelos base diferentes, utilizando RL (aprendizaje por refuerzo) para co-optimizar la generación de pruebas y la reparación de errores. Los resultados experimentales en cuatro puntos de referencia ampliamente adoptados demuestran la superioridad de Repair-R1. Específicamente, en comparación con los modelos convencionales, Repair-R1 mejora la tasa de éxito de reparación en un 2.68\% a 48.29\%, la tasa de éxito de generación de pruebas en un 16.38\% a 53.28\% y la cobertura de pruebas en un 0.78\% a 53.96\%. Publicamos el código y los pesos en https://github.com/Tomsawyerhu/APR-RL y https://huggingface.co/tomhu/Qwen3-4B-RL-5000-step.
La tensión entre la privacidad de los datos y la utilidad del modelo se ha convertido en el cuello de botella definitorio para la implementación práctica de modelos de lenguaje grandes (LLMs, por sus siglas en inglés) entrenados en corpus sensibles, incluidos los de atención médica. El descenso de gradiente estocástico con privacidad diferencial (DP-SGD, por sus siglas en inglés) garantiza privacidad formal, pero lo hace a un costo pronunciado: los gradientes se recortan forzosamente y se perturban con ruido, lo que degrada la eficiencia de las muestras y la precisión final. Se han propuesto numerosas variantes para suavizar esta compensación, pero todas comparten una limitación: sus controles están codificados de manera rígida, son globales y no tienen en cuenta el panorama de optimización en evolución. En consecuencia, los profesionales se ven obligados a gastar en exceso el presupuesto de privacidad en busca de utilidad o a aceptar modelos mediocres para mantenerse dentro de las restricciones de privacidad. Presentamos RLDP, el primer marco que convierte la optimización de privacidad diferencial (DP) en un problema de control de bucle cerrado susceptible al aprendizaje por refuerzo profundo (RL, por sus siglas en inglés) moderno. RLDP detecta continuamente estadísticas detalladas de la dinámica de aprendizaje y actúa seleccionando umbrales de recorte de gradiente específicos por parámetro, así como la magnitud del ruido gaussiano inyectado. Un hiper-política de actor-crítico suave (SAC, por sus siglas en inglés) se entrena en línea durante el ajuste fino del modelo de lenguaje; aprende, desde cero, cómo asignar el presupuesto de privacidad donde y cuando es importante. A través de más de 1,600 experimentos de ablación en GPT2-small, Llama-1B, Llama-3B y Mistral-7B, RLDP logra reducciones de perplejidad del 1.3-30.5% (media del 5.4%) y una ganancia promedio de utilidad descendente del 5.6%. RLDP alcanza la utilidad final de cada línea base después de solo el 13-43% del presupuesto de actualización de gradiente (aceleración media del 71%), todo ello respetando el mismo contrato de privacidad diferencial (epsilon, delta)-DP y mostrando una susceptibilidad igual o menor a los ataques de inferencia de membresía y extracción de canarios.
La generación de escenas 3D a partir de lenguaje natural tiene un gran potencial para aplicaciones en juegos, cine y diseño. Sin embargo, los métodos existentes enfrentan desafíos en cuanto a automatización, consistencia 3D y control detallado. Presentamos DreamScene, un marco integral para la generación de escenas 3D de alta calidad y editables a partir de texto o diálogo. DreamScene comienza con un módulo de planificación de escenas, donde un agente GPT-4 infiere semántica de objetos y restricciones espaciales para construir un gráfico híbrido. Un algoritmo de colocación basado en gráficos produce luego un diseño estructurado y libre de colisiones. Basándose en este diseño, el Muestreo de Patrones de Formación (FPS) genera geometría de objetos utilizando muestreo multi-paso y optimización reconstructiva, permitiendo una síntesis rápida y realista. Para garantizar consistencia global, DreamScene emplea una estrategia de muestreo progresivo de cámaras adaptada tanto a entornos interiores como exteriores. Finalmente, el sistema permite la edición detallada de escenas, incluyendo movimiento de objetos, cambios de apariencia y movimiento dinámico 4D. Los experimentos demuestran que DreamScene supera a métodos anteriores en calidad, consistencia y flexibilidad, ofreciendo una solución práctica para la creación de contenido 3D en dominios abiertos. El código y demostraciones están disponibles en https://jahnsonblack.github.io/DreamScene-Full/.