Artículos de investigación en IA seleccionados diariamente con traducciones
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) se han convertido en una infraestructura esencial para la Inteligencia General Artificial (AGI, por sus siglas en inglés), aunque la falta de sistemas de gestión de memoria bien definidos dificulta el desarrollo del razonamiento de contexto prolongado, la personalización continua y la consistencia del conocimiento. Los modelos existentes dependen principalmente de parámetros estáticos y estados contextuales de corta duración, lo que limita su capacidad para rastrear las preferencias de los usuarios o actualizar el conocimiento durante períodos prolongados. Si bien la Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) introduce conocimiento externo en texto plano, sigue siendo una solución sin estado, sin control del ciclo de vida ni integración con representaciones persistentes. Trabajos recientes han modelado el costo de entrenamiento e inferencia de los LLMs desde una perspectiva jerárquica de memoria, demostrando que la introducción de una capa de memoria explícita entre la memoria de parámetros y la recuperación externa puede reducir sustancialmente estos costos al externalizar conocimiento específico. Más allá de la eficiencia computacional, los LLMs enfrentan desafíos más amplios derivados de cómo se distribuye la información en el tiempo y el contexto, lo que requiere sistemas capaces de gestionar conocimiento heterogéneo que abarca diferentes escalas temporales y fuentes. Para abordar este desafío, proponemos MemOS, un sistema operativo de memoria que trata la memoria como un recurso del sistema gestionable. Unifica la representación, programación y evolución de memorias en texto plano, basadas en activación y a nivel de parámetros, permitiendo un almacenamiento y recuperación eficiente en términos de costos. Como unidad básica, un MemCube encapsula tanto el contenido de la memoria como metadatos como la procedencia y el versionado. Los MemCubes pueden componerse, migrarse y fusionarse con el tiempo, permitiendo transiciones flexibles entre tipos de memoria y conectando la recuperación con el aprendizaje basado en parámetros. MemOS establece un marco de sistema centrado en la memoria que aporta controlabilidad, plasticidad y capacidad de evolución a los LLMs, sentando las bases para el aprendizaje continuo y el modelado personalizado.
La reconstrucción de escenas de movimiento rápido a partir de vídeos multicámara es crucial para el análisis de movimientos de alta velocidad y la reconstrucción realista en 4D. Sin embargo, la mayoría de los sistemas de captura 4D están limitados a tasas de fotogramas inferiores a 30 FPS (fotogramas por segundo), y una reconstrucción 4D directa de movimientos de alta velocidad a partir de entradas de baja FPS puede generar resultados no deseados. En este trabajo, proponemos un sistema de captura 4D de alta velocidad que utiliza únicamente cámaras de baja FPS, mediante módulos novedosos de captura y procesamiento. En el lado de la captura, proponemos un esquema de captura asíncrona que aumenta la tasa de fotogramas efectiva al escalonar los tiempos de inicio de las cámaras. Al agrupar cámaras y aprovechar una tasa de fotogramas base de 25 FPS, nuestro método alcanza una tasa de fotogramas equivalente de 100-200 FPS sin necesidad de cámaras especializadas de alta velocidad. En el lado del procesamiento, también proponemos un modelo generativo novedoso para corregir artefactos causados por la reconstrucción 4D de vistas escasas, ya que la asincronía reduce el número de puntos de vista en cada instante de tiempo. Específicamente, proponemos entrenar un modelo de corrección de artefactos basado en difusión de vídeo para la reconstrucción 4D de vistas escasas, que refina los detalles faltantes, mantiene la consistencia temporal y mejora la calidad general de la reconstrucción. Los resultados experimentales demuestran que nuestro método mejora significativamente la reconstrucción 4D de alta velocidad en comparación con la captura síncrona.
Aprender representaciones de texto de alta calidad es fundamental para una amplia gama de tareas de Procesamiento del Lenguaje Natural (PLN). Si bien el preentrenamiento de codificadores tradicionalmente ha dependido del Modelado de Lenguaje Enmascarado (MLM), evidencia reciente sugiere que los modelos decodificadores preentrenados con Modelado de Lenguaje Causal (CLM) pueden reutilizarse efectivamente como codificadores, superando a menudo a los codificadores tradicionales en benchmarks de representación de texto. Sin embargo, no está claro si estas mejoras reflejan una ventaja inherente del objetivo CLM o surgen de factores confusos como la escala del modelo y los datos. En este artículo, abordamos esta pregunta a través de una serie de ablaciones de preentrenamiento a gran escala y cuidadosamente controladas, entrenando un total de 30 modelos que van desde 210 millones hasta 1 billón de parámetros, y realizando más de 15,000 ejecuciones de ajuste fino y evaluación. Encontramos que, aunque el entrenamiento con MLM generalmente produce un mejor rendimiento en tareas de representación de texto, los modelos entrenados con CLM son más eficientes en términos de datos y demuestran una mayor estabilidad en el ajuste fino. Basándonos en estos hallazgos, mostramos experimentalmente que una estrategia de entrenamiento bifásica que aplica secuencialmente CLM y luego MLM, logra un rendimiento óptimo bajo un presupuesto computacional de entrenamiento fijo. Además, demostramos que esta estrategia se vuelve más atractiva cuando se inicializa a partir de modelos CLM preentrenados fácilmente disponibles (del ecosistema existente de LLM), reduciendo la carga computacional necesaria para entrenar modelos codificadores de clase superior. Publicamos todos los artefactos del proyecto en https://hf.co/MLMvsCLM para fomentar más investigaciones.
Los recientes avances en los modelos visión-lenguaje-acción (VLA, por sus siglas en inglés) han mostrado un gran potencial al integrar la generación de imágenes con la predicción de acciones para mejorar la generalización y el razonamiento en la manipulación robótica. Sin embargo, los métodos existentes se limitan a la predicción basada en imágenes, la cual presenta información redundante y carece de un conocimiento del mundo integral y crítico, incluyendo información dinámica, espacial y semántica. Para abordar estas limitaciones, proponemos DreamVLA, un novedoso marco VLA que integra la predicción de conocimiento del mundo integral para permitir el modelado de dinámica inversa, estableciendo así un bucle percepción-predicción-acción para tareas de manipulación. Específicamente, DreamVLA introduce una predicción de conocimiento del mundo guiada por regiones dinámicas, integrada con pistas espaciales y semánticas, que proporcionan representaciones compactas pero integrales para la planificación de acciones. Este diseño se alinea con la forma en que los humanos interactúan con el mundo, formando primero cadenas de razonamiento multimodal abstractas antes de actuar. Para mitigar la interferencia entre la información dinámica, espacial y semántica durante el entrenamiento, adoptamos un mecanismo de atención estructurada por bloques que enmascara su atención mutua, evitando la fuga de información y manteniendo cada representación limpia y desenredada. Además, para modelar la distribución condicional sobre acciones futuras, empleamos un transformador basado en difusión que desenreda las representaciones de acciones de las características latentes compartidas. Experimentos extensos en entornos tanto del mundo real como de simulación demuestran que DreamVLA alcanza una tasa de éxito del 76.7% en tareas de robots reales y una longitud promedio de 4.44 en los benchmarks CALVIN ABC-D.
Ofrecemos una perspectiva novedosa sobre el modelado de recompensas al formularlo como un discriminador de políticas, que cuantifica la diferencia entre dos políticas para generar una señal de recompensa, guiando la política de entrenamiento hacia una política objetivo con comportamientos deseados. Basándonos en esta idea conceptual, proponemos un método escalable de pre-entrenamiento denominado Aprendizaje Discriminativo de Políticas (POLAR), que entrena un modelo de recompensas (RM) para discernir políticas idénticas y discriminar aquellas diferentes. A diferencia de los métodos tradicionales de modelado de recompensas que dependen de preferencias absolutas, POLAR captura la diferencia relativa entre una política y una política objetivo arbitraria, lo que constituye un objetivo de optimización de alto nivel y escalable, adecuado para modelar relaciones genéricas de clasificación. Aprovechando el paradigma de pre-entrenamiento POLAR, presentamos una serie de RMs con escalas de parámetros que van desde 1.8B hasta 7B. Los resultados empíricos muestran que POLAR supera sustancialmente a los métodos tradicionales no pre-entrenados, mejorando significativamente el rendimiento de los RM. Por ejemplo, POLAR-7B podría mejorar la precisión de preferencias del 54.8% al 81.0% en tareas STEM y del 57.9% al 85.5% en tareas de escritura creativa en comparación con los baselines SOTA. POLAR también muestra capacidades robustas de generalización en RLHF utilizando Ajuste Fino por Refuerzo (RFT), proporcionando señales de recompensa confiables y mejorando notablemente el rendimiento de las políticas—mejorando LLaMa3.1-8B de un promedio del 47.36% al 56.33% y Qwen2.5-32B del 64.49% al 70.47% en 20 benchmarks. Además, los experimentos de escalado revelan una clara relación de ley de potencia entre el cómputo y el rendimiento, respaldada por coeficientes de correlación lineal que se acercan a 0.99. El impresionante rendimiento, la fuerte generalización y las propiedades de escalado sugieren que POLAR es una dirección prometedora para el desarrollo de modelos de recompensas generales y potentes.
En este artículo presentamos BMMR, un conjunto de datos bilingüe, multimodal y multidisciplinario a gran escala para el desarrollo y evaluación de modelos multimodales grandes (LMMs). BMMR consta de 110k preguntas de nivel universitario que abarcan 300 materias definidas por la UNESCO, con diversos formatos: opción múltiple, completar espacios en blanco y preguntas abiertas, obtenidas tanto de medios impresos como digitales, como libros, exámenes y cuestionarios. Todos los datos son curados y filtrados mediante un marco escalable con intervención humana, y cada instancia está acompañada de una ruta de razonamiento de alta calidad. El conjunto de datos se organiza en dos partes: BMMR-Eval, que incluye 20,458 instancias de alta calidad para evaluar de manera integral el conocimiento y el razonamiento de los LMMs en múltiples disciplinas tanto en chino como en inglés; y BMMR-Train, que contiene 88,991 instancias para apoyar investigaciones y desarrollos futuros, ampliando el enfoque actual en el razonamiento matemático a diversas disciplinas y dominios. Además, proponemos el verificador multidisciplinario basado en procesos (es decir, BMMR-Verifier) para una evaluación precisa y detallada de las rutas de razonamiento. Experimentos extensos en 24 modelos revelan que (i) incluso los modelos de última generación (por ejemplo, o3 y Gemini-2.5-Pro) dejan un margen significativo de mejora en BMMR-Eval; (ii) los modelos de razonamiento muestran sesgos disciplinarios y superan a los LMMs solo en materias específicas; (iii) los modelos de código abierto aún están por detrás de sus contrapartes propietarias; y (iv) el ajuste fino en BMMR-Train reduce esta brecha. Adicionalmente, realizamos análisis de cadenas de razonamiento utilizando BMMR-Verifier y otros estudios en profundidad, descubriendo los desafíos que los LMMs enfrentan actualmente en el razonamiento multidisciplinario. Publicaremos los datos y esperamos que nuestro trabajo pueda ofrecer perspectivas y contribuciones a la comunidad.
Presentamos RoboBrain 2.0, nuestra última generación de modelos fundamentales de visión-lenguaje encarnados, diseñados para unificar la percepción, el razonamiento y la planificación de tareas complejas en entornos físicos. Está disponible en dos variantes: un modelo ligero de 7B y un modelo completo de 32B, que cuenta con una arquitectura heterogénea que incluye un codificador de visión y un modelo de lenguaje. A pesar de su tamaño compacto, RoboBrain 2.0 logra un rendimiento sólido en una amplia gama de tareas de razonamiento encarnado. En los puntos de referencia tanto espaciales como temporales, la variante de 32B obtiene resultados líderes, superando a modelos anteriores de código abierto y propietarios. En particular, admite capacidades clave de IA encarnada en el mundo real, como la comprensión espacial (por ejemplo, predicción de affordances, referencia espacial, pronóstico de trayectorias) y la toma de decisiones temporales (por ejemplo, interacción en bucle cerrado, planificación a largo plazo multiagente y actualización de grafos de escena). Este informe detalla la arquitectura del modelo, la construcción de datos, las estrategias de entrenamiento en múltiples etapas, la infraestructura y las aplicaciones prácticas. Esperamos que RoboBrain 2.0 impulse la investigación en IA encarnada y sirva como un paso práctico hacia la construcción de agentes encarnados generalistas. El código, el punto de control y los puntos de referencia están disponibles en https://superrobobrain.github.io.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado un rendimiento impresionante en tareas de propósito general, pero adaptarlos a dominios específicos sigue siendo un desafío debido a la escasez de datos de alta calidad en dichos dominios. Las herramientas existentes para la síntesis de datos a menudo tienen dificultades para extraer datos de ajuste fino de manera efectiva a partir de documentos heterogéneos. Para abordar esta limitación, proponemos Easy Dataset, un marco unificado para sintetizar datos de ajuste fino a partir de documentos no estructurados mediante una interfaz gráfica de usuario (GUI) intuitiva. En concreto, Easy Dataset permite a los usuarios configurar fácilmente modelos de extracción de texto y estrategias de fragmentación para transformar documentos sin procesar en fragmentos de texto coherentes. Luego, aprovecha un enfoque de generación basado en personajes para crear diversos pares de preguntas y respuestas utilizando LLMs de acceso público. A lo largo del proceso, una interfaz visual con participación humana facilita la revisión y refinamiento de los resultados intermedios para garantizar la calidad de los datos. Los experimentos en una tarea de respuesta a preguntas financieras muestran que el ajuste fino de LLMs en el conjunto de datos sintetizado mejora significativamente el rendimiento específico del dominio mientras se preserva el conocimiento general. El código fuente y el paquete instalable están disponibles en https://github.com/ConardLi/easy-dataset y han obtenido más de 9,000 estrellas en GitHub.
Las capacidades fundamentales de los modelos de lenguaje de gran escala (LLMs) están profundamente influenciadas por la calidad de sus corpus de preentrenamiento. Sin embargo, mejorar la calidad de los datos a gran escala sigue siendo un desafío significativo, principalmente debido al equilibrio entre la efectividad del refinamiento y la eficiencia del procesamiento. Si bien el filtrado basado en reglas sigue siendo el paradigma dominante, este generalmente opera a nivel de documento y carece de la granularidad necesaria para refinar contenido específico dentro de los documentos. Inspirados por trabajos emergentes como ProX, proponemos RefineX, un marco novedoso para el refinamiento quirúrgico a gran escala de datos de preentrenamiento mediante tareas de edición programática. RefineX permite un refinamiento de datos eficiente y de grano fino, preservando de manera confiable la diversidad y naturalidad del texto crudo. La fortaleza central de RefineX radica en destilar resultados de refinamiento de extremo a extremo de alta calidad, guiados por expertos, en programas mínimos de eliminación basados en ediciones. Esta canalización de destilación de alta precisión se utiliza para entrenar un modelo de refinamiento eficiente y confiable que puede mejorar sistemáticamente cada instancia en el corpus a gran escala. Evaluamos RefineX en preentrenamientos desde cero en múltiples escalas de modelos y encontramos que supera consistentemente a los modelos entrenados con datos crudos, filtrados o refinados alternativamente en diversas tareas posteriores. En el modelo de 750M, RefineX produce ganancias promedio del 2.6% al 7.2% en tareas de lighteval, y logra un rendimiento comparable utilizando significativamente menos tokens de entrenamiento. Un análisis adicional muestra que RefineX mejora de manera confiable la calidad del texto con alta eficiencia y precisión, superando enfoques previos como la generación de extremo a extremo y Prox-C. Estos resultados posicionan a RefineX como una solución escalable, efectiva y confiable para optimizar los datos de preentrenamiento en las canalizaciones modernas de LLMs.
Los documentos históricos representan un patrimonio cultural invaluable, pero han sufrido una degradación significativa a lo largo del tiempo debido a desgarros, erosión por agua y oxidación. Los métodos existentes de Restauración de Documentos Históricos (HDR, por sus siglas en inglés) se centran principalmente en la restauración de una sola modalidad o de tamaño limitado, lo que no satisface las necesidades prácticas. Para abordar esta brecha, presentamos un conjunto de datos de HDR de página completa (FPHDR) y una solución automatizada novedosa de HDR (AutoHDR). Específicamente, FPHDR comprende 1,633 imágenes reales y 6,543 imágenes sintéticas con ubicaciones a nivel de carácter y de línea, así como anotaciones de caracteres en diferentes grados de daño. AutoHDR imita los flujos de trabajo de restauración de los historiadores mediante un enfoque de tres etapas: localización de daños asistida por OCR, predicción de texto contextual mediante visión y lenguaje, y restauración autoregresiva de apariencia por parches. La arquitectura modular de AutoHDR permite una colaboración fluida entre humanos y máquinas, facilitando la intervención y optimización flexible en cada etapa de restauración. Los experimentos demuestran el rendimiento notable de AutoHDR en HDR. Al procesar documentos gravemente dañados, nuestro método mejora la precisión del OCR del 46.83\% al 84.05\%, con una mejora adicional al 94.25\% mediante la colaboración humano-máquina. Creemos que este trabajo representa un avance significativo en la restauración automatizada de documentos históricos y contribuye sustancialmente a la preservación del patrimonio cultural. El modelo y el conjunto de datos están disponibles en https://github.com/SCUT-DLVCLab/AutoHDR.
Recientemente, se han logrado grandes avances en la generación de texto a video (T2V) mediante la escalada de modelos de difusión basados en transformadores a miles de millones de parámetros, lo que permite generar videos de alta calidad. Sin embargo, los modelos existentes suelen producir únicamente clips cortos de manera offline, lo que limita su uso en aplicaciones interactivas y en tiempo real. Este artículo aborda estos desafíos proponiendo StreamDiT, un modelo de generación de video en streaming. El entrenamiento de StreamDiT se basa en el emparejamiento de flujos mediante la adición de un búfer móvil. Diseñamos un entrenamiento mixto con diferentes esquemas de partición de fotogramas en el búfer para mejorar tanto la consistencia del contenido como la calidad visual. La modelización de StreamDiT se basa en adaLN DiT con incrustaciones de tiempo variables y atención por ventanas. Para poner en práctica el método propuesto, entrenamos un modelo StreamDiT con 4 mil millones de parámetros. Además, proponemos un método de destilación multietapa adaptado para StreamDiT. La destilación de muestreo se realiza en cada segmento de un esquema de partición seleccionado. Tras la destilación, el número total de evaluaciones de funciones (NFEs) se reduce al número de fragmentos en el búfer. Finalmente, nuestro modelo destilado alcanza un rendimiento en tiempo real a 16 FPS en una GPU, capaz de generar flujos de video con resolución 512p. Evaluamos nuestro método mediante métricas cuantitativas y evaluación humana. Nuestro modelo habilita aplicaciones en tiempo real, como generación en streaming, generación interactiva y video a video. Proporcionamos resultados de video y más ejemplos en nuestro sitio web del proyecto: <a href="https://cumulo-autumn.github.io/StreamDiT/">este enlace</a>.
Las capacidades generativas de los Modelos de Lenguaje de Gran Escala (LLMs) están expandiéndose rápidamente desde código estático hacia artefactos visuales dinámicos e interactivos. Este progreso se ve limitado por una brecha crítica en la evaluación: los benchmarks establecidos se centran en la corrección algorítmica y pasan por alto la fidelidad visual y la integridad interactiva que definen las experiencias de usuario modernas. Para cerrar esta brecha, presentamos ArtifactsBench, un nuevo benchmark y paradigma para la evaluación automatizada y multimodal de la generación de código visual. Nuestro framework renderiza programáticamente cada artefacto generado y captura su comportamiento dinámico mediante capturas de pantalla temporales. Esta evidencia visual, junto con el código fuente, es evaluada por un Modelo de Lenguaje Multimodal (MLLM)-como-Juez, guiado rigurosamente por una lista de verificación detallada y específica por tarea para garantizar una puntuación holística y reproducible. Construimos un nuevo benchmark con 1,825 tareas diversas y evaluamos más de 30 LLMs líderes. Nuestra evaluación automatizada alcanza un notable 94.4% de consistencia en el ranking con WebDev Arena, el estándar de oro para las preferencias humanas en desarrollo web, y más del 90% de concordancia por pares con expertos humanos. Esto establece a ArtifactsBench como el primer framework en automatizar de manera confiable la evaluación de la calidad percibida por humanos a gran escala. Nuestro análisis proporciona un mapa de alta resolución del estado del arte actual, revelando que los modelos generalistas a menudo superan a los específicos de dominio. Hemos liberado ArtifactsBench como código abierto, incluyendo el benchmark, el sistema de evaluación y los resultados de referencia en https://artifactsbenchmark.github.io/, para proporcionar a la comunidad una herramienta escalable y precisa que acelere el desarrollo de modelos generativos centrados en el usuario.
Los modelos de incrustación multimodal han sido cruciales para habilitar diversas tareas posteriores, como la similitud semántica, la recuperación de información y la agrupación en diferentes modalidades. Sin embargo, las incrustaciones multimodales existentes, como VLM2Vec, E5-V y GME, se centran predominantemente en imágenes naturales, con un soporte limitado para otras formas visuales, como videos y documentos visuales. Esto restringe su aplicabilidad en escenarios del mundo real, incluyendo agentes de IA, búsqueda y recomendación multimodal, y generación aumentada por recuperación (RAG). Para cerrar esta brecha, proponemos VLM2Vec-V2, un marco unificado para el aprendizaje de incrustaciones en diversas formas visuales. Primero, presentamos MMEB-V2, un punto de referencia integral que extiende MMEB con cinco nuevos tipos de tareas: recuperación de documentos visuales, recuperación de videos, localización temporal, clasificación de videos y respuesta a preguntas de video, abarcando entradas de texto, imagen, video y documentos visuales. A continuación, entrenamos VLM2Vec-V2, un modelo de incrustación de propósito general que admite entradas de texto, imagen, video y documentos visuales. Experimentos extensos muestran que VLM2Vec-V2 logra un rendimiento sólido no solo en las tareas de recuperación de videos y documentos recién introducidas, sino que también mejora los puntos de referencia anteriores en los benchmarks originales de imágenes. A través de una evaluación exhaustiva, nuestro estudio ofrece perspectivas sobre la generalizabilidad de varios modelos de incrustación multimodal y destaca estrategias efectivas para el aprendizaje unificado de incrustaciones, sentando las bases para un aprendizaje de representación más escalable y adaptable tanto en investigación como en entornos del mundo real.
Este artículo presenta VLAI, un modelo basado en transformadores que predice los niveles de gravedad de vulnerabilidades de software directamente a partir de descripciones textuales. Construido sobre RoBERTa, VLAI se ajusta finamente en más de 600,000 vulnerabilidades del mundo real y alcanza una precisión superior al 82% en la predicción de categorías de gravedad, permitiendo una clasificación más rápida y consistente antes de la puntuación manual CVSS. El modelo y el conjunto de datos son de código abierto y están integrados en el servicio Vulnerability-Lookup.
Presentamos PresentAgent, un agente multimodal que transforma documentos extensos en videos de presentaciones narradas. Mientras que los enfoques existentes se limitan a generar diapositivas estáticas o resúmenes de texto, nuestro método avanza más allá de estas limitaciones al producir contenido visual y hablado completamente sincronizado que imita de cerca las presentaciones de estilo humano. Para lograr esta integración, PresentAgent emplea una canalización modular que segmenta sistemáticamente el documento de entrada, planifica y renderiza marcos visuales en estilo de diapositivas, genera narración hablada contextualizada con modelos de lenguaje grande y modelos de Texto a Voz, y compone de manera fluida el video final con una alineación precisa de audio y video. Dada la complejidad de evaluar tales salidas multimodales, introducimos PresentEval, un marco de evaluación unificado impulsado por Modelos de Visión-Lenguaje que califica de manera integral los videos en tres dimensiones críticas: fidelidad del contenido, claridad visual y comprensión de la audiencia a través de una evaluación basada en indicaciones. Nuestra validación experimental en un conjunto de datos curado de 30 pares de documento-presentación demuestra que PresentAgent se acerca a la calidad de nivel humano en todas las métricas de evaluación. Estos resultados resaltan el potencial significativo de los agentes multimodales controlables para transformar materiales textuales estáticos en formatos de presentación dinámicos, efectivos y accesibles. El código estará disponible en https://github.com/AIGeeksGroup/PresentAgent.
Los métodos recientes de edición de imágenes basados en difusión han avanzado significativamente en tareas guiadas por texto, pero a menudo tienen dificultades para interpretar instrucciones complejas e indirectas. Además, los modelos actuales frecuentemente presentan problemas de preservación de identidad, ediciones no deseadas o dependen en gran medida de máscaras manuales. Para abordar estos desafíos, presentamos X-Planner, un sistema de planificación basado en un Modelo de Lenguaje Multimodal de Gran Escala (MLLM) que efectivamente conecta la intención del usuario con las capacidades del modelo de edición. X-Planner emplea razonamiento en cadena de pensamiento para descomponer sistemáticamente instrucciones complejas en sub-instrucciones más simples y claras. Para cada sub-instrucción, X-Planner genera automáticamente tipos de edición precisos y máscaras de segmentación, eliminando la intervención manual y asegurando ediciones localizadas que preservan la identidad. Adicionalmente, proponemos una nueva pipeline automatizada para generar datos a gran escala que entrenan a X-Planner, logrando resultados de vanguardia tanto en benchmarks existentes como en nuestro nuevo benchmark de edición compleja.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado capacidades notables en diversas tareas, pero su habilidad para predecir eventos futuros sigue siendo poco estudiada. Hace un año, estos modelos luchaban por acercarse a la precisión de una multitud humana. Evalúo modelos de lenguaje de última generación en 464 preguntas de predicción de Metaculus, comparando su rendimiento con el de superpronosticadores humanos. Los modelos más avanzados logran puntajes de Brier que aparentemente superan a la multitud humana, pero aún así tienen un desempeño significativamente inferior al de un grupo de superpronosticadores.
A medida que los sistemas de Inteligencia Artificial evolucionan desde modelos monolíticos hacia ecosistemas de agentes especializados, la necesidad de protocolos de comunicación estandarizados se vuelve cada vez más crítica. Este artículo presenta MOD-X (Modular Open Decentralized eXchange), una propuesta novedosa de marco arquitectónico para la interoperabilidad de agentes que aborda limitaciones clave de los protocolos existentes. A diferencia de los enfoques actuales, MOD-X propone una arquitectura en capas con un Bus de Mensajes Universal, gestión exhaustiva del estado, capacidades de traducción y mecanismos de seguridad basados en blockchain. Presentamos la arquitectura de MOD-X, la comparamos con protocolos existentes y demostramos su aplicación mediante un ejemplo práctico que muestra cómo facilita la integración entre agentes especializados heterogéneos (agentes con diferentes arquitecturas, proveedores, capacidades y representaciones de conocimiento—incluyendo sistemas basados en reglas, redes neuronales, motores de razonamiento simbólico y software heredado con envoltorios de agentes). Las innovaciones clave de MOD-X incluyen un modelo de comunicación de publicación-suscripción, descubrimiento semántico de capacidades y orquestación dinámica de flujos de trabajo—proporcionando un marco que une el formalismo teórico con la implementación práctica. Esta arquitectura aborda la creciente necesidad de ecosistemas de agentes verdaderamente descentralizados e interoperables que puedan escalar de manera efectiva sin necesidad de coordinación central.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) son cada vez más utilizados para invocar APIs empresariales, aunque a menudo fallan cuando herramientas casi idénticas compiten por la misma intención del usuario o cuando los argumentos requeridos están insuficientemente especificados. Presentamos DiaFORGE (Marco de Diálogo para la Generación y Evaluación de Respuestas Orgánicas), una canalización de tres etapas centrada en la desambiguación que (i) sintetiza diálogos de múltiples turnos basados en personajes, en los que el asistente debe distinguir entre herramientas altamente similares, (ii) realiza un ajuste fino supervisado de modelos de código abierto con trazas de razonamiento que abarcan desde 3B hasta 70B parámetros, y (iii) evalúa la preparación para el mundo real mediante un conjunto dinámico que redespiega cada modelo en un bucle agente en vivo y reporta la finalización de objetivos de extremo a extremo junto con métricas estáticas convencionales. En nuestro punto de referencia dinámico DiaBENCH, los modelos entrenados con DiaFORGE aumentan el éxito en la invocación de herramientas en 27 puntos porcentuales (pp) sobre GPT-4o y en 49 pp sobre Claude-3.5-Sonnet, ambos bajo indicaciones optimizadas. Para fomentar más investigación, publicamos un corpus abierto de 5000 especificaciones de APIs empresariales de grado de producción, emparejadas con diálogos rigurosamente validados y enfocados en la desambiguación, ofreciendo un plan práctico para construir agentes confiables y listos para entornos empresariales que invocan herramientas.
El entrenamiento de modelos generativos nativos de texturas 3D sigue siendo un problema fundamental pero desafiante, principalmente debido a la disponibilidad limitada de conjuntos de datos de texturas 3D a gran escala y de alta calidad. Esta escasez dificulta la generalización a escenarios del mundo real. Para abordar esto, la mayoría de los métodos existentes ajustan modelos generativos de imágenes base para aprovechar sus conocimientos visuales previamente aprendidos. Sin embargo, estos enfoques generalmente generan solo imágenes de múltiples vistas y dependen de un procesamiento posterior para producir mapas de texturas UV, una representación esencial en las tuberías gráficas modernas. Estas tuberías de dos etapas a menudo sufren de acumulación de errores e inconsistencias espaciales en la superficie 3D. En este artículo, presentamos SeqTex, un marco novedoso de extremo a extremo que aprovecha el conocimiento visual codificado en modelos base de video preentrenados para generar directamente mapas de texturas UV completos. A diferencia de los métodos anteriores que modelan la distribución de texturas UV de forma aislada, SeqTex reformula la tarea como un problema de generación de secuencias, permitiendo que el modelo aprenda la distribución conjunta de renderizaciones de múltiples vistas y texturas UV. Este diseño transfiere efectivamente los conocimientos consistentes del espacio de imagen de los modelos base de video al dominio UV. Para mejorar aún más el rendimiento, proponemos varias innovaciones arquitectónicas: un diseño de ramas desacopladas para múltiples vistas y UV, atención informada por geometría para guiar la alineación de características entre dominios, y resolución de tokens adaptativa para preservar detalles finos de textura mientras se mantiene la eficiencia computacional. Juntos, estos componentes permiten que SeqTex utilice completamente los conocimientos previos de video preentrenados y sintetice mapas de texturas UV de alta fidelidad sin necesidad de procesamiento posterior. Experimentos extensos muestran que SeqTex logra un rendimiento de vanguardia en tareas de generación de texturas 3D condicionadas por imágenes y por texto, con una consistencia 3D superior, alineación textura-geometría y generalización en el mundo real.
La decodificación especulativa generalmente requiere un modelo borrador pequeño y eficiente que esté preentrenado o destilado fuera de línea para una serie de modelos objetivo específica, como los modelos Llama o Qwen. Sin embargo, en entornos de implementación en línea, existen dos desafíos principales: 1) el uso de un modelo objetivo que es incompatible con el modelo borrador; 2) la expectativa de mejoras en la latencia durante el uso y el tiempo. En este trabajo, proponemos OmniDraft, un marco unificado que permite que un único modelo borrador opere con cualquier modelo objetivo y se adapte dinámicamente a los datos del usuario. Introducimos una caché de n-gramas en línea con ajuste fino de destilación híbrida para abordar la incompatibilidad de vocabulario entre los modelos borrador y objetivo; y además mejoramos la velocidad de decodificación mediante técnicas de borrado adaptativo. OmniDraft es particularmente adecuado para aplicaciones de LLM en dispositivos donde el costo del modelo, la eficiencia y la personalización del usuario son los principales puntos de discusión. Esto resalta aún más la necesidad de abordar los desafíos mencionados y motiva el paradigma de "un borrador para todos". Demostramos la eficacia del marco OmniDraft realizando aprendizaje en línea en tareas de razonamiento matemático, codificación y generación de texto. Notablemente, OmniDraft permite que un único modelo Llama-68M se empareje con varios modelos objetivo, incluyendo Vicuna-7B, Qwen2-7B y Llama3-8B, para la decodificación especulativa; y además proporciona una aceleración de hasta 1.5-2x.