Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos de lenguaje de difusión prometen una generación paralela rápida, mientras que los modelos autorregresivos (AR) suelen destacar en calidad debido a que su estructura causal se alinea naturalmente con el modelado del lenguaje. Esto plantea una pregunta fundamental: ¿podemos lograr una sinergia con alto rendimiento, mayor utilización de GPU y calidad a nivel AR? Los métodos existentes no logran equilibrar eficazmente estos dos aspectos: o priorizan AR usando un modelo más débil para borradores secuenciales (decodificación especulativa), lo que conduce a una menor eficiencia de draftado, o utilizan alguna forma de lógica de decodificación izquierda-derecha (similar a AR) para difusión, lo que aún sufre degradación de calidad y sacrifica su potencial paralelización. Presentamos TiDAR, una arquitectura híbrida a nivel de secuencia que genera borradores de tokens (Thinking) en Difusión y muestrea salidas finales (Talking) de forma Autorregresiva, todo dentro de un único pase forward usando máscaras de atención estructuradas especialmente diseñadas. Este diseño aprovecha la densidad de cómputo libre de la GPU, logrando un equilibrio sólido entre la capacidad de draftado y verificación. Además, TiDAR está diseñado para ser apto para despliegue (baja sobrecarga) como modelo independiente. Evaluamos exhaustivamente TiDAR frente a modelos AR, decodificación especulativa y variantes de difusión en tareas generativas y de verosimilitud en escalas de 1.5B y 8B. Gracias al draftado y muestreo paralelos, así como al soporte exacto de caché KV, TiDAR supera a la decodificación especulativa en rendimiento medido y supera a modelos de difusión como Dream y Llada tanto en eficiencia como en calidad. Más notablemente, TiDAR es la primera arquitectura en cerrar la brecha de calidad con los modelos AR mientras ofrece entre 4.71x y 5.91x más tokens por segundo.
Presentamos Lumine, la primera receta abierta para desarrollar agentes generalistas capaces de completar misiones complejas de varias horas en tiempo real dentro de entornos 3D de mundo abierto desafiantes. Lumine adopta un paradigma de interacción similar al humano que unifica percepción, razonamiento y acción de manera integral, impulsado por un modelo de visión-lenguaje. Procesa píxeles en bruto a 5 Hz para producir acciones precisas de teclado y ratón a 30 Hz e invoca el razonamiento de manera adaptativa solo cuando es necesario. Entrenado en Genshin Impact, Lumine completa con éxito toda la trama principal de cinco horas de Mondstadt con una eficiencia comparable a la humana y sigue instrucciones en lenguaje natural para realizar una amplia gama de tareas tanto en exploración de mundo abierto 3D como en manipulación de interfaces gráficas 2D, incluyendo recolección, combate, resolución de acertijos e interacción con NPC. Además de su rendimiento en el dominio específico, Lumine demuestra una fuerte generalización cero-shot entre juegos. Sin ningún ajuste fino, completa misiones de 100 minutos en Wuthering Waves y el primer capítulo completo de cinco horas de Honkai: Star Rail. Estos resultados prometedores destacan la eficacia de Lumine en distintos mundos y dinámicas de interacción, marcando un paso concreto hacia agentes generalistas en entornos abiertos.
La identificación de compuestos activos (hits) es un desafío central en las primeras etapas del descubrimiento de fármacos, que tradicionalmente requiere recursos experimentales sustanciales. Los avances recientes en inteligencia artificial, particularmente en modelos de lenguaje de gran escala (LLMs), han permitido el desarrollo de métodos de cribado virtual que reducen costos y mejoran la eficiencia. Sin embargo, la creciente complejidad de estas herramientas ha limitado su accesibilidad para los investigadores de laboratorio experimental. Los sistemas multiagente ofrecen una solución prometedora al combinar la interpretabilidad de los LLMs con la precisión de modelos y herramientas especializadas. En este trabajo, presentamos MADD, un sistema multiagente que construye y ejecuta pipelines personalizados para la identificación de hits a partir de consultas en lenguaje natural. MADD emplea cuatro agentes coordinados para manejar subtareas clave en la generación de novo de compuestos y su cribado. Evaluamos MADD en siete casos de descubrimiento de fármacos y demostramos su rendimiento superior en comparación con las soluciones existentes basadas en LLMs. Utilizando MADD, somos pioneros en la aplicación del diseño de fármacos con enfoque en IA para cinco dianas biológicas y publicamos las moléculas hit identificadas. Finalmente, presentamos un nuevo benchmark de pares consulta-molécula y puntuaciones de acoplamiento para más de tres millones de compuestos, con el objetivo de contribuir al futuro agentivo del diseño de fármacos.
La generación de vídeos basada en difusión puede crear vídeos realistas, sin embargo, las técnicas de condicionamiento existentes basadas en imágenes y texto no ofrecen un control preciso del movimiento. Los métodos anteriores para la síntesis condicionada por movimiento suelen requerir un ajuste específico para cada modelo, lo que resulta computacionalmente costoso y restrictivo. Presentamos Time-to-Move (TTM), un marco de trabajo plug-and-play que no requiere entrenamiento, para la generación de vídeos controlada por movimiento y apariencia con modelos de difusión de imagen a vídeo (I2V). Nuestra idea clave es utilizar animaciones de referencia rudimentarias obtenidas mediante manipulaciones sencillas como cortar-y-arrastrar o reproyección basada en profundidad. Motivados por el uso de SDEdit de pistas de diseño básicas para la edición de imágenes, tratamos las animaciones rudimentarias como pistas de movimiento gruesas y adaptamos el mecanismo al dominio del vídeo. Preservamos la apariencia con condicionamiento por imagen e introducimos la eliminación de ruido de doble reloj, una estrategia dependiente de la región que impone una fuerte alineación en las áreas especificadas para el movimiento mientras permite flexibilidad en otras, equilibrando la fidelidad a la intención del usuario con la dinámica natural. Esta modificación ligera del proceso de muestreo no conlleva costes adicionales de entrenamiento o tiempo de ejecución y es compatible con cualquier modelo base. Experimentos exhaustivos en benchmarks de movimiento de objetos y de cámara muestran que TTM iguala o supera a las líneas base existentes que requieren entrenamiento, tanto en realismo como en control del movimiento. Más allá de esto, TTM introduce una capacidad única: el control preciso de la apariencia mediante condicionamiento a nivel de píxel, superando los límites de los prompts basados únicamente en texto. Visite nuestra página del proyecto para ver ejemplos de vídeo y el código: https://time-to-move.github.io/.
Presentamos Motif-2-12.7B, un nuevo modelo base de pesos abiertos que amplía la frontera de eficiencia de los modelos de lenguaje grande mediante la combinación de innovación arquitectónica con optimización a nivel de sistema. Diseñado para una comprensión del lenguaje escalable y una generalización robusta de instrucciones bajo presupuestos computacionales limitados, Motif-2-12.7B se basa en Motif-2.6B con la integración de la Atención Diferencial Agrupada (GDA), que mejora la eficiencia representacional al separar las vías de atención de control de señal y ruido. El modelo fue pre-entrenado con 5.5 billones de tokens que abarcan diversos dominios lingüísticos, matemáticos, científicos y de programación, utilizando un planificador de datos basado en currículo que modifica gradualmente la proporción de composición de los datos. El sistema de entrenamiento aprovecha el optimizador MuonClip junto con *kernels* de alto rendimiento personalizados, que incluyen activaciones PolyNorm fusionadas y el algoritmo Muon Paralelo, lo que genera ganancias significativas en rendimiento y eficiencia de memoria en entornos distribuidos a gran escala. El post-entrenamiento emplea un *pipeline* de ajuste fino supervisado de tres etapas que mejora sucesivamente la adherencia general a instrucciones, la comprensión composicional y la precisión lingüística. Motif-2-12.7B demuestra un rendimiento competitivo en diversos puntos de referencia, mostrando que un escalado arquitectónico cuidadoso y un diseño de entrenamiento optimizado pueden rivalizar con las capacidades de modelos mucho más grandes.
El aumento de los Modelos de Lenguaje a Gran Escala (LLMs) con herramientas externas les permite ejecutar tareas complejas y multi-etapa. Sin embargo, el aprendizaje de herramientas se ve obstaculizado por las canalizaciones de datos sintéticos estáticas, donde la generación de datos y el entrenamiento del modelo se ejecutan como dos procesos separados y no interactivos. Este enfoque no logra centrarse de forma adaptativa en las debilidades específicas del modelo y permite que persistan etiquetas ruidosas, degradando la eficiencia del entrenamiento. Presentamos LoopTool, un marco de evolución de datos completamente automatizado y consciente del modelo que cierra este bucle integrando estrechamente la síntesis de datos y el entrenamiento del modelo. LoopTool refina iterativamente tanto los datos como el modelo a través de tres módulos sinérgicos: (1) la Exploración Codiciosa de Capacidades (GCP) diagnostica las capacidades dominadas y fallidas del modelo; (2) la Verificación de Etiquetas Guiada por Juicio (JGLV) utiliza un modelo juez de código abierto para encontrar y corregir errores de anotación, purificando progresivamente el conjunto de datos; y (3) la Expansión de Datos Basada en Errores (EDDE) genera nuevas muestras desafiantes basadas en los fallos identificados. Este proceso de bucle cerrado opera dentro de un ecosistema económico y de código abierto, eliminando la dependencia de costosas APIs de código cerrado. Los experimentos muestran que nuestro modelo de 8B entrenado con LoopTool supera significativamente a su generador de datos de 32B y logra nuevos resultados de vanguardia en los benchmarks BFCL-v3 y ACEBench para su escala. Nuestro trabajo demuestra que las canalizaciones de datos de auto-refinamiento en bucle cerrado pueden mejorar drásticamente las capacidades de uso de herramientas de los LLMs.
Los modelos Visión-Lenguaje-Acción (VLA) han demostrado un gran potencial para la manipulación robótica de propósito general, pero su dependencia de demostraciones expertas limita su capacidad para aprender de los fallos y realizar autocorrecciones. El aprendizaje por refuerzo (RL) aborda estos problemas mediante interacciones de auto-mejora con el entorno físico, pero sufre de una alta complejidad muestral en robots reales. Presentamos World-Model-based Policy Optimization (WMPO), un marco teórico para RL VLA *on-policy* sin interacción con el entorno real. A diferencia de los modelos del mundo latentes ampliamente utilizados, WMPO se centra en predicciones basadas en píxeles que alinean las trayectorias "imaginadas" con las características VLA preentrenadas con imágenes a escala web. Crucialmente, WMPO permite a la política realizar GRPO *on-policy*, que ofrece un rendimiento superior al de los métodos *off-policy* utilizados a menudo. Experimentos exhaustivos en entornos tanto de simulación como de robot real demuestran que WMPO (i) mejora sustancialmente la eficiencia muestral, (ii) logra un rendimiento general superior, (iii) exhibe comportamientos emergentes como la autocorrección y (iv) demuestra capacidades robustas de generalización y aprendizaje continuo.
El desarrollo de interfaces de usuario (UI) requiere traducir maquetas de diseño a código funcional, un proceso que sigue siendo repetitivo e intensivo en mano de obra. Si bien los Modelos de Visión y Lenguaje (VLMs) recientes automatizan la generación de UI-a-Código, solo generan diseños estáticos en HTML/CSS/JavaScript carentes de interactividad. Para abordar este problema, proponemos WebVIA, el primer marco agencial para la generación y validación interactiva de UI-a-Código. El marco consta de tres componentes: 1) un agente de exploración para capturar capturas de pantalla de la UI en múltiples estados; 2) un modelo UI2Code que genera código interactivo ejecutable; 3) un módulo de validación que verifica la interactividad. Los experimentos demuestran que WebVIA-Agent logra una exploración de la UI más estable y precisa que los agentes de propósito general (por ejemplo, Gemini-2.5-Pro). Además, nuestros modelos WebVIA-UI2Code ajustados finamente exhiben mejoras sustanciales en la generación de código HTML/CSS/JavaScript ejecutable e interactivo, superando a sus contrapartes base en puntos de referencia tanto interactivos como estáticos de UI2Code. Nuestro código y modelos están disponibles en https://zheny2751-dotcom.github.io/webvia.github.io/{https://webvia.github.io}.
Los modelos lingüísticos multimodales de gran escala (MLLMs) han demostrado capacidades notables en tareas de respuesta visión-lenguaje. A pesar de sus fortalezas, estos modelos a menudo encuentran dificultades para lograr tareas de razonamiento complejo como la resolución de problemas matemáticos. Trabajos previos se han centrado en el ajuste fino en conjuntos de datos matemáticos especializados. Sin embargo, estos conjuntos de datos suelen ser destilados directamente de modelos docentes, que capturan únicamente patrones de razonamiento estáticos, dejando brechas sustanciales en comparación con los modelos estudiantiles. Esta dependencia de conjuntos de datos fijos derivados de docentes no solo restringe la capacidad del modelo para adaptarse a preguntas novedosas o más intrincadas que se extienden más allá de los límites de los datos de entrenamiento, sino que también carece de la profundidad iterativa necesaria para una generalización robusta. Para superar estas limitaciones, proponemos \method, un marco de Auto-Evolución Matemática para MLLMs. A diferencia de los paradigmas tradicionales de ajuste fino de una sola vez, \method refina iterativamente el modelo mediante ciclos de inferencia, reflexión y retroalimentación basada en recompensas. Específicamente, aprovechamos el ajuste fino iterativo incorporando trayectorias de razonamiento correctas derivadas de inferencias en etapas previas e integrando reflexiones de un Modelo de Recompensa de Resultados (ORM) especializado. Para verificar la efectividad de \method, lo evaluamos en un conjunto de benchmarks desafiantes, demostrando ganancias significativas de rendimiento sobre los modelos base. Notablemente, nuestros resultados experimentales en MathVL-test superan al principal modelo de razonamiento matemático multimodal de código abierto QVQ. Nuestro código y modelos están disponibles en https://zheny2751\allowbreak-dotcom.github.io/\allowbreak MathSE.github.io/.
Los agentes web tienen dificultades para adaptarse a nuevos sitios web debido a la escasez de tareas y demostraciones específicas del entorno. Trabajos recientes han explorado la generación de datos sintéticos para abordar este desafío; sin embargo, adolecen de problemas de calidad de datos, donde las tareas sintetizadas contienen alucinaciones que no pueden ejecutarse, y las trayectorias recopiladas son ruidosas con acciones redundantes o desalineadas. En este artículo, proponemos SynthAgent, un marco de supervisión totalmente sintético que busca mejorar la calidad de los datos sintéticos mediante un refinamiento dual de tareas y trayectorias. Nuestro enfoque comienza sintetizando tareas diversas mediante una exploración categorizada de elementos web, garantizando una cobertura eficiente del entorno objetivo. Durante la recolección de trayectorias, refinamos las tareas cuando se detectan conflictos con las observaciones reales, mitigando las alucinaciones mientras se mantiene la consistencia de la tarea. Tras la recolección, realizamos un refinamiento de trayectorias con un contexto global para mitigar posibles ruidos o desalineaciones. Finalmente, ajustamos mediante fine-tuning agentes web de código abierto con los datos sintéticos refinados para adaptarlos al entorno objetivo. Los resultados experimentales demuestran que SynthAgent supera a los métodos existentes de datos sintéticos, validando la importancia de una supervisión sintética de alta calidad. El código estará disponible públicamente en https://github.com/aiming-lab/SynthAgent.
Los modelos de difusión han demostrado un fuerte rendimiento generativo al utilizar métodos de guiado como el guiado libre de clasificador (CFG), que mejoran la calidad de la salida modificando la trayectoria de muestreo. Estos métodos suelen mejorar una salida objetivo degradando intencionadamente otra, frecuentemente la salida incondicional, mediante funciones de perturbación heurísticas como la mezcla de identidad o condiciones difuminadas. Sin embargo, estos enfoques carecen de una base fundamentada y dependen de distorsiones diseñadas manualmente. En este trabajo, proponemos la Guía de Atención Adversarial de Sinkhorn (ASAG), un método novedoso que reinterpreta las puntuaciones de atención en los modelos de difusión mediante la lente del transporte óptimo y altera intencionadamente el coste de transporte mediante el algoritmo de Sinkhorn. En lugar de corromper trivialmente el mecanismo de atención, ASAG inyecta un coste adversarial dentro de las capas de auto-atención para reducir la similitud a nivel de píxel entre consultas y claves. Esta degradación deliberada debilita las alineaciones de atención engañosas y conduce a una mejora en la calidad de las muestras condicionales e incondicionales. ASAG muestra mejoras consistentes en la difusión texto-imagen, y aumenta la controlabilidad y fidelidad en aplicaciones posteriores como IP-Adapter y ControlNet. El método es ligero, plug-and-play, y mejora la fiabilidad sin requerir ningún reentrenamiento del modelo.
Las herramientas de codificación agentes, como OpenAI Codex, Claude Code y Cursor, están transformando el panorama de la ingeniería de software. Estos sistemas impulsados por IA funcionan como compañeros de equipo autónomos capaces de planificar y ejecutar tareas de desarrollo complejas. Los agentes se han convertido en participantes activos en la refactorización, un pilar fundamental del desarrollo de software sostenible destinado a mejorar la calidad interna del código sin alterar el comportamiento observable. A pesar de su creciente adopción, existe una falta crítica de comprensión empírica sobre cómo se utiliza la refactorización agente en la práctica, cómo se compara con la refactorización impulsada por humanos y qué impacto tiene en la calidad del código. Para abordar esta brecha empírica, presentamos un estudio a gran escala de refactorizaciones generadas por agentes de IA en proyectos Java de código abierto del mundo real, analizando 15.451 instancias de refactorización en 12.256 solicitudes de extracción (*pull requests*) y 14.988 *commits* derivados del conjunto de datos AIDev. Nuestro análisis empírico muestra que la refactorización es una actividad común e intencionada en este paradigma de desarrollo, ya que los agentes se dirigen explícitamente a la refactorización en el 26.1% de los *commits*. El análisis de los tipos de refactorización revela que los esfuerzos de los agentes están dominados por ediciones de bajo nivel orientadas a la coherencia, como Cambiar Tipo de Variable (11.8%), Renombrar Parámetro (10.4%) y Renombrar Variable (8.5%), lo que refleja una preferencia por mejoras localizadas sobre los cambios de diseño de alto nivel comunes en la refactorización humana. Además, las motivaciones detrás de la refactorización agente se centran abrumadoramente en preocupaciones de calidad interna, siendo la mantenibilidad (52.5%) y la legibilidad (28.1%) las principales. Asimismo, la evaluación cuantitativa de las métricas de calidad del código muestra que la refactorización agente produce mejoras pequeñas pero estadísticamente significativas en las métricas estructurales, particularmente para cambios de nivel medio, reduciendo el tamaño y la complejidad de las clases (por ejemplo, mediana Δ de LOC de Clase = -15.25).
Los modelos de lenguaje exhiben capacidades notables de generación de lenguaje natural, pero siguen siendo propensos a las alucinaciones, generando información fácticamente incorrecta a pesar de producir respuestas sintácticamente coherentes. Este estudio presenta el Oráculo de Licencias, una solución arquitectónica diseñada para frenar las alucinaciones en los modelos de lenguaje mediante la imposición de restricciones de veracidad a través de una validación formal frente a grafos de conocimiento estructurados. A diferencia de los enfoques estadísticos que dependen del escalado de datos o del ajuste fino, el Oráculo de Licencias incorpora un paso de validación determinista en el proceso generativo del modelo, garantizando que solo se emitan afirmaciones fácticamente precisas. Evaluamos la efectividad del Oráculo de Licencias mediante experimentos que lo compararon con varios métodos de vanguardia, incluyendo la generación básica de modelos de lenguaje, el ajuste fino para el recuerdo factual, el ajuste fino para el comportamiento de abstención y la generación aumentada por recuperación (RAG). Nuestros resultados demuestran que, aunque RAG y el ajuste fino mejoran el rendimiento, no logran eliminar las alucinaciones. En contraste, el Oráculo de Licencias logró una precisión de abstención perfecta (AP = 1.0) y cero respuestas falsas (FAR-NE = 0.0), asegurando que solo se generaran afirmaciones válidas con un 89.1% de precisión en las respuestas fácticas. Este trabajo muestra que las innovaciones arquitectónicas, como el Oráculo de Licencias, ofrecen una solución necesaria y suficiente para las alucinaciones en dominios con representaciones de conocimiento estructurado, ofreciendo garantías que los métodos estadísticos no pueden igualar. Aunque el Oráculo de Licencias está específicamente diseñado para abordar las alucinaciones en dominios basados en hechos, su marco sienta las bases para una generación con restricciones de veracidad en futuros sistemas de IA, proporcionando un nuevo camino hacia modelos confiables y con bases epistémicas sólidas.