Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos GLM-4.5, un modelo de lenguaje grande (LLM) de código abierto basado en una arquitectura Mixture-of-Experts (MoE) con 355 mil millones de parámetros totales y 32 mil millones de parámetros activados, que incorpora un método de razonamiento híbrido compatible con modos de pensamiento y respuesta directa. Mediante un entrenamiento multietapa en 23 billones de tokens y un posentrenamiento exhaustivo que incluye iteración con modelos expertos y aprendizaje por refuerzo, GLM-4.5 logra un rendimiento sólido en tareas de agentes, razonamiento y codificación (ARC), obteniendo puntuaciones del 70.1% en TAU-Bench, 91.0% en AIME 24 y 64.2% en SWE-bench Verified. Con muchos menos parámetros que varios competidores, GLM-4.5 ocupa el 3er lugar general entre todos los modelos evaluados y el 2do en benchmarks de agentes. Publicamos tanto GLM-4.5 (355 mil millones de parámetros) como una versión compacta, GLM-4.5-Air (106 mil millones de parámetros), para impulsar la investigación en sistemas de razonamiento e IA agentiva. El código, los modelos y más información están disponibles en https://github.com/zai-org/GLM-4.5.
La prueba virtual de prendas tiene como objetivo sintetizar una imagen realista de una persona vistiendo una prenda objetivo, pero modelar con precisión la correspondencia entre la prenda y el cuerpo sigue siendo un desafío persistente, especialmente bajo variaciones de pose y apariencia. En este artículo, proponemos Voost: un marco unificado y escalable que aprende conjuntamente la prueba virtual de prendas y su retirada mediante un único transformador de difusión. Al modelar ambas tareas de manera conjunta, Voost permite que cada par prenda-persona supervise ambas direcciones y admite un condicionamiento flexible sobre la dirección de generación y la categoría de la prenda, mejorando el razonamiento relacional entre la prenda y el cuerpo sin necesidad de redes específicas para cada tarea, pérdidas auxiliares o etiquetas adicionales. Además, introducimos dos técnicas en tiempo de inferencia: el escalado de temperatura de atención para robustez frente a variaciones de resolución o máscara, y el muestreo autocorrectivo que aprovecha la consistencia bidireccional entre tareas. Experimentos exhaustivos demuestran que Voost logra resultados de vanguardia en los puntos de referencia tanto para la prueba como para la retirada de prendas, superando consistentemente a las líneas base fuertes en precisión de alineación, fidelidad visual y generalización.
Los agentes basados en Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) destacan en una amplia variedad de tareas, pero adolecen de una memoria procedimental frágil que es diseñada manualmente o está entrelazada en parámetros estáticos. En este trabajo, investigamos estrategias para dotar a los agentes de una memoria procedimental aprendible, actualizable y de por vida. Proponemos Memp, que destila trayectorias pasadas del agente en instrucciones detalladas, paso a paso, y abstracciones de nivel superior, similares a guiones, y exploramos el impacto de diferentes estrategias para la Construcción, Recuperación y Actualización de la memoria procedimental. Junto con un régimen dinámico que actualiza, corrige y deprecia continuamente su contenido, este repositorio evoluciona en sincronía con nuevas experiencias. La evaluación empírica en TravelPlanner y ALFWorld muestra que, a medida que se refina el repositorio de memoria, los agentes logran tasas de éxito cada vez más altas y una mayor eficiencia en tareas análogas. Además, la memoria procedimental construida a partir de un modelo más fuerte conserva su valor: migrar la memoria procedimental a un modelo más débil produce ganancias sustanciales en el rendimiento.
El surgimiento de los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) ha impulsado el desarrollo de agentes autónomos que operan en Interfaces Gráficas de Usuario (GUIs) utilizando únicamente entradas visuales. Un desafío fundamental es anclar de manera robusta las instrucciones en lenguaje natural. Esto requiere una alineación espacial precisa, que localiza con exactitud las coordenadas de cada elemento, y, más críticamente, una alineación semántica correcta, que empareja las instrucciones con el elemento de la interfaz funcionalmente apropiado. Aunque el Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) ha demostrado ser efectivo para mejorar la alineación espacial en estos MLLMs, encontramos que una exploración ineficiente limita la alineación semántica, lo que impide que los modelos aprendan asociaciones semánticas complejas. Para abordar este problema de exploración, presentamos la Optimización de Políticas de Exploración Adaptativa (AEPO, por sus siglas en inglés), un nuevo marco de optimización de políticas. AEPO emplea una estrategia de generación de múltiples respuestas para fomentar una exploración más amplia, la cual es guiada por una función de Recompensa de Exploración Adaptativa (AER) teóricamente fundamentada, derivada de los principios de eficiencia eta=U/C. Nuestros modelos entrenados con AEPO, InfiGUI-G1-3B e InfiGUI-G1-7B, establecen nuevos resultados de vanguardia en múltiples puntos de referencia desafiantes para la anclaje en GUIs, logrando mejoras relativas significativas de hasta un 9.0% frente a la línea base RLVR en puntos de referencia diseñados para probar la generalización y la comprensión semántica. Los recursos están disponibles en https://github.com/InfiXAI/InfiGUI-G1.
Recientemente, los Modelos de Razonamiento a Gran Escala (LRMs, por sus siglas en inglés) han demostrado capacidades notables en el razonamiento de código al escalar la longitud de la Cadena de Pensamiento (CoT, por sus siglas en inglés). Sin embargo, trazas de razonamiento excesivamente largas introducen desafíos sustanciales en términos de coste de entrenamiento, latencia de inferencia y viabilidad de implementación. Si bien han surgido diversos enfoques de compresión de CoT para abordar este desafío, enfrentan compensaciones inherentes: los métodos a nivel de token a menudo interrumpen la coherencia sintáctica y lógica, mientras que los métodos a nivel de paso basados en perplejidad no logran capturar de manera confiable los pasos de razonamiento críticos desde el punto de vista lógico. En este artículo, proponemos ASAP (Poda Guiada por Anclas y Basada en Sorpresa), un marco novedoso de compresión de CoT de grueso a fino. ASAP primero realiza una poda guiada por anclas para preservar la estructura central del razonamiento, lo que reduce eficientemente el espacio de búsqueda para el procesamiento posterior. Luego, habilita una poda consciente de la lógica al seleccionar pasos de razonamiento esenciales basados en una nueva métrica de sorpresa del primer token. Finalmente, ASAP enseña a los modelos a generar y aprovechar de manera autónoma estas CoTs concisas durante la inferencia, permitiendo un razonamiento eficiente en tareas de codificación. Los experimentos muestran que ASAP logra una precisión de vanguardia en múltiples benchmarks de generación de código, al tiempo que reduce sustancialmente los costes de entrenamiento e inferencia. En el desafiante benchmark LiveCodeBench v4_v5, nuestro enfoque reduce la generación de tokens en un 23.5% y la latencia de inferencia en un 43.5% en comparación con el baseline más fuerte, mientras alcanza una precisión competitiva del 36.19% en Pass@1. Nuestros resultados destacan una dirección prometedora para construir LRMs potentes y eficientes.
Las activaciones masivas son valores escalares en los estados ocultos de los transformadores que alcanzan valores órdenes de magnitud mayores que las activaciones típicas y se ha demostrado que son críticas para la funcionalidad del modelo. Si bien trabajos previos han caracterizado estos fenómenos en modelos completamente entrenados, la dinámica temporal de su aparición durante el entrenamiento sigue siendo poco comprendida. Presentamos el primer análisis exhaustivo del desarrollo de activaciones masivas a lo largo del entrenamiento de transformadores, utilizando la familia de modelos Pythia como plataforma de prueba. Mediante un análisis sistemático de varios tamaños de modelos en múltiples puntos de control del entrenamiento, demostramos que la aparición de activaciones masivas sigue patrones matemáticos predecibles que pueden modelarse con precisión utilizando una función logarítmica modulada exponencialmente con cinco parámetros clave. Desarrollamos un marco de aprendizaje automático para predecir estos parámetros matemáticos únicamente a partir de especificaciones arquitectónicas, logrando una alta precisión para el comportamiento en estado estable y una precisión moderada para el momento y la magnitud de la aparición. Estos hallazgos permiten a los arquitectos predecir y potencialmente controlar aspectos clave de la aparición de activaciones masivas a través de decisiones de diseño, con implicaciones significativas para la estabilidad del modelo, la duración del ciclo de entrenamiento, la interpretabilidad y la optimización. Nuestros hallazgos demuestran que la aparición de activaciones masivas está gobernada por el diseño del modelo y puede anticiparse, y potencialmente controlarse, antes de que comience el entrenamiento.
Los Campos de Radiancia Neural (NeRF) y el Gaussian Splatting (GS) han transformado recientemente la representación y renderizado de escenas 3D. NeRF logra una síntesis de nuevas vistas de alta fidelidad al aprender representaciones volumétricas mediante redes neuronales, pero su codificación implícita dificulta la edición y la interacción física. En contraste, GS representa las escenas como colecciones explícitas de primitivas gaussianas, permitiendo renderizado en tiempo real, entrenamiento más rápido y manipulación más intuitiva. Esta estructura explícita ha hecho que GS sea particularmente adecuado para la edición interactiva y la integración con simulaciones basadas en física. En este artículo, presentamos GENIE (Gaussian Encoding for Neural Radiance Fields Interactive Editing), un modelo híbrido que combina la calidad de renderizado fotorrealista de NeRF con la representación editable y estructurada de GS. En lugar de usar armónicos esféricos para el modelado de apariencia, asignamos a cada gaussiana un embedding de características entrenable. Estos embeddings se utilizan para condicionar una red NeRF basada en las k gaussianas más cercanas a cada punto de consulta. Para hacer este condicionamiento eficiente, introducimos la Búsqueda de Proximidad Gaussiana con Trazado de Rayos (RT-GPS), una búsqueda rápida de gaussianas más cercanas basada en una tubería de trazado de rayos modificada. También integramos una cuadrícula de hash multi-resolución para inicializar y actualizar las características gaussianas. Juntos, estos componentes permiten la edición en tiempo real y consciente de la localidad: a medida que las primitivas gaussianas se reposicionan o modifican, su influencia interpolada se refleja inmediatamente en la salida renderizada. Al combinar las fortalezas de las representaciones implícitas y explícitas, GENIE soporta manipulación intuitiva de escenas, interacción dinámica y compatibilidad con simulación física, cerrando la brecha entre la edición basada en geometría y el renderizado neural. El código se puede encontrar en (https://github.com/MikolajZielinski/genie).
Los Modelos de Visión-Lenguaje (VLMs, por sus siglas en inglés) han demostrado capacidades de generalización notables en una amplia gama de tareas. Sin embargo, su rendimiento suele ser subóptimo cuando se aplican directamente a escenarios específicos sin una adaptación específica para la tarea. Para mejorar su utilidad manteniendo la eficiencia de datos, investigaciones recientes se han centrado cada vez más en métodos de adaptación no supervisados que no dependen de datos etiquetados. A pesar del creciente interés en esta área, aún falta una encuesta unificada y orientada a tareas dedicada a la adaptación no supervisada de VLMs. Para cerrar esta brecha, presentamos una visión general estructurada y exhaustiva del campo. Proponemos una taxonomía basada en la disponibilidad y naturaleza de los datos visuales no etiquetados, categorizando los enfoques existentes en cuatro paradigmas clave: Transferencia sin Datos (sin datos), Transferencia de Dominio no Supervisada (datos abundantes), Adaptación en Tiempo de Prueba Episódica (datos por lotes) y Adaptación en Tiempo de Prueba en Línea (datos en flujo). Dentro de este marco, analizamos las metodologías principales y las estrategias de adaptación asociadas con cada paradigma, con el objetivo de establecer una comprensión sistemática del campo. Además, revisamos benchmarks representativos en diversas aplicaciones y destacamos desafíos abiertos y direcciones prometedoras para futuras investigaciones. Un repositorio activamente mantenido de literatura relevante está disponible en https://github.com/tim-learn/Awesome-LabelFree-VLMs.
El sueño de crear asistentes de IA tan capaces y versátiles como el ficticio J.A.R.V.I.S. de Iron Man ha cautivado durante mucho tiempo la imaginación. Con la evolución de los modelos de lenguaje grandes (multimodales) ((M)LLMs), este sueño está más cerca de la realidad, ya que los agentes basados en (M)LLMs que utilizan dispositivos informáticos (por ejemplo, computadoras y teléfonos móviles) operando dentro de los entornos e interfaces (por ejemplo, Interfaz Gráfica de Usuario (GUI)) proporcionados por los sistemas operativos (SO) para automatizar tareas han avanzado significativamente. Este artículo presenta una revisión exhaustiva de estos agentes avanzados, denominados Agentes de SO. Comenzamos elucidando los fundamentos de los Agentes de SO, explorando sus componentes clave, incluyendo el entorno, el espacio de observación y el espacio de acción, y delineando capacidades esenciales como la comprensión, la planificación y la fundamentación. Luego examinamos metodologías para construir Agentes de SO, centrándonos en modelos de base específicos del dominio y marcos de agentes. Una revisión detallada de los protocolos de evaluación y los puntos de referencia destaca cómo se evalúan los Agentes de SO en diversas tareas. Finalmente, discutimos los desafíos actuales e identificamos direcciones prometedoras para futuras investigaciones, incluyendo la seguridad y privacidad, la personalización y la auto-evolución. Esta revisión tiene como objetivo consolidar el estado de la investigación sobre Agentes de SO, proporcionando ideas para guiar tanto la investigación académica como el desarrollo industrial. Se mantiene un repositorio de GitHub de código abierto como un recurso dinámico para fomentar una mayor innovación en este campo. Presentamos una versión de 9 páginas de nuestro trabajo, aceptada por ACL 2025, para ofrecer una visión concisa del dominio.
Presentamos MeshLLM, un marco novedoso que aprovecha los modelos de lenguaje de gran escala (LLMs) para comprender y generar mallas 3D serializadas en texto. Nuestro enfoque aborda limitaciones clave en los métodos existentes, incluyendo la escala reducida de los conjuntos de datos al adaptarse a la longitud de tokens de los LLMs y la pérdida de información estructural 3D durante la serialización de mallas. Introducimos una estrategia de descomposición Primitive-Mesh, que divide las mallas 3D en subunidades estructuralmente significativas. Esto permite la creación de un conjunto de datos a gran escala con más de 1500k muestras, casi 50 veces mayor que los métodos anteriores, lo que se alinea mejor con los principios de la ley de escalamiento de los LLMs. Además, proponemos inferir la conectividad de caras a partir de vértices y estrategias de entrenamiento de ensamblaje local de mallas, mejorando significativamente la capacidad de los LLMs para capturar la topología de mallas y las estructuras espaciales. Los experimentos muestran que MeshLLM supera al estado del arte LLaMA-Mesh tanto en la calidad de generación de mallas como en la comprensión de formas, destacando su gran potencial en el procesamiento de mallas 3D serializadas en texto.
Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han demostrado un rendimiento notable en idiomas con abundantes recursos. Sin embargo, su efectividad disminuye significativamente en contextos de idiomas con recursos limitados. Los métodos actuales de mejora multilingüe a menudo se limitan a la modalidad de texto o dependen exclusivamente de la traducción automática. Si bien estos enfoques ayudan a los modelos a adquirir capacidades lingüísticas básicas y producir "descripciones superficiales", descuidan la importancia de la informatividad multimodal y el arraigo cultural, ambos cruciales para servir eficazmente a los usuarios de idiomas con recursos limitados. Para cerrar esta brecha, en este estudio identificamos dos objetivos significativos para un MLLM verdaderamente efectivo en entornos de idiomas con recursos limitados, a saber: 1) capacidad lingüística y 2) arraigo cultural, con especial énfasis en la conciencia cultural. Para lograr estos objetivos duales, proponemos una estrategia de doble fuente que guía la recopilación de datos adaptados a cada meta, obteniendo texto alternativo nativo de la web para la cultura y subtítulos generados por MLLM para la lingüística. Como una implementación concreta, presentamos MELLA, un conjunto de datos multimodal y multilingüe. Los resultados de los experimentos muestran que, después del ajuste fino en MELLA, se observa una mejora general en el rendimiento para los ocho idiomas en varios modelos base de MLLM, con modelos que producen "descripciones profundas". Verificamos que las mejoras en el rendimiento provienen tanto del enriquecimiento del conocimiento cultural como de la mejora de la capacidad lingüística. Nuestro conjunto de datos se puede encontrar en https://opendatalab.com/applyMultilingualCorpus.
Los modelos de lenguaje visual (VLMs, por sus siglas en inglés) han demostrado capacidades notables para integrar el razonamiento lingüístico y visual, pero siguen siendo fundamentalmente limitados en la comprensión de interacciones espacio-temporales dinámicas. Los seres humanos rastrean y razonan sin esfuerzo sobre los movimientos, rotaciones y cambios de perspectiva de los objetos, habilidades esenciales para una comprensión robusta del mundo real dinámico, pero notablemente ausentes en los VLMs actuales. En este artículo, presentamos VLM4D, el primer punto de referencia diseñado específicamente para evaluar las capacidades de razonamiento espacio-temporal de los VLMs. Nuestro punto de referencia incluye diversos videos del mundo real y sintéticos, acompañados de pares de preguntas y respuestas cuidadosamente seleccionados que enfatizan movimientos traslacionales y rotacionales, conciencia de perspectiva y continuidad del movimiento. A través de evaluaciones exhaustivas de los VLMs de última generación, tanto de código abierto como cerrado, identificamos brechas significativas en el rendimiento en comparación con los puntos de referencia humanos, destacando deficiencias fundamentales en los modelos existentes. Un análisis extenso revela que los VLMs tienen dificultades particularmente para integrar múltiples señales visuales y mantener la coherencia temporal. Además, exploramos direcciones prometedoras, como el aprovechamiento de la reconstrucción de campos de características 4D y el ajuste fino supervisado espacio-temporal específico, demostrando su efectividad para mejorar la comprensión espacio-temporal. Nuestro trabajo tiene como objetivo fomentar una exploración más profunda para mejorar la fundamentación espacial y temporal de los VLMs, allanando el camino hacia una inteligencia visual más capaz y confiable para entornos dinámicos.
El surgimiento de los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) ha impulsado avances significativos en las capacidades de los agentes de Interfaz Gráfica de Usuario (GUI). Sin embargo, las técnicas existentes de entrenamiento e inferencia para agentes GUI aún enfrentan dilemas en los diseños de razonamiento, recompensas ineficaces y ruido visual. Para abordar estos problemas, presentamos UI-AGILE, un marco integral que mejora los agentes GUI tanto en las etapas de entrenamiento como de inferencia. Para el entrenamiento, proponemos una serie de mejoras al proceso de Ajuste Fino Supervisado (SFT): 1) una función de Recompensa Continua para incentivar una base de alta precisión; 2) una recompensa de "Pensamiento Simple" para equilibrar la planificación con la velocidad y la precisión de la base; y 3) una estrategia de Remuestreo basada en Recorte para mitigar el problema de recompensas dispersas y mejorar el aprendizaje en tareas complejas. Para la inferencia, presentamos Base Descompuesta con Selección, un método novedoso que mejora drásticamente la precisión de la base en pantallas de alta resolución al dividir la imagen en partes más pequeñas y manejables. Los experimentos muestran que UI-AGILE alcanza un rendimiento de vanguardia en dos puntos de referencia: ScreenSpot-Pro y ScreenSpot-v2. Por ejemplo, el uso de nuestros métodos propuestos de mejora en el entrenamiento y la inferencia proporciona una mejora del 23% en la precisión de la base sobre la mejor línea de base en ScreenSpot-Pro.
Los enfoques recientes para la reiluminación 3D han mostrado avances prometedores al integrar prior generativos de reiluminación de imágenes 2D para alterar la apariencia de una representación 3D mientras se preserva la estructura subyacente. Sin embargo, los prior generativos utilizados para la reiluminación 2D que iluminan directamente a partir de una imagen de entrada no aprovechan las propiedades intrínsecas del sujeto que podrían inferirse ni pueden considerar datos multivista a gran escala, lo que resulta en una reiluminación subóptima. En este artículo, proponemos LightSwitch, un novedoso marco de difusión de reiluminación de materiales ajustado finamente que reilumina eficientemente un número arbitrario de imágenes de entrada a una condición de iluminación objetivo, incorporando señales de propiedades intrínsecas inferidas. Al utilizar señales de información multivista y de materiales junto con un esquema escalable de eliminación de ruido, nuestro método reilumina de manera consistente y eficiente datos multivista densos de objetos con composiciones materiales diversas. Demostramos que la calidad de nuestra predicción de reiluminación 2D supera a los prior de reiluminación de última generación que iluminan directamente a partir de imágenes. Además, mostramos que LightSwitch iguala o supera a los métodos de última generación de representación inversa basados en difusión en la reiluminación de objetos sintéticos y reales en tan solo 2 minutos.