Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos de razonamiento a gran escala (LRMs, por sus siglas en inglés) ya poseen una capacidad latente para el razonamiento de cadenas largas de pensamiento. Trabajos previos han demostrado que el aprendizaje por refuerzo (RL) basado en resultados puede elicitar incidentalmente comportamientos de razonamiento avanzado, como la autocorrección, el retroceso y fenómenos de verificación, a menudo denominados el "momento eureka" del modelo. Sin embargo, el momento y la consistencia de estos comportamientos emergentes siguen siendo impredecibles e incontrolables, lo que limita la escalabilidad y la confiabilidad de las capacidades de razonamiento de los LRMs. Para abordar estas limitaciones, vamos más allá de la dependencia de indicaciones y "momentos eureka" coincidentes. En su lugar, alineamos explícitamente los modelos con tres meta-habilidades: deducción, inducción y abducción, utilizando tareas autogeneradas y autoverificables. Nuestro pipeline de tres etapas—alineación individual, fusión en el espacio de parámetros y aprendizaje por refuerzo específico del dominio—mejora el rendimiento en más de un 10% en comparación con líneas base ajustadas por instrucción. Además, el RL específico del dominio a partir del punto de control alineado produce una ganancia promedio adicional del 2% en el techo de rendimiento en benchmarks de matemáticas, programación y ciencias, demostrando que la alineación explícita de meta-habilidades ofrece una base escalable y confiable para el razonamiento. El código está disponible en: https://github.com/zhiyuanhubj/Meta-Ability-Alignment.
Es comúnmente aceptado que escalar modelos de lenguaje debería implicar un costo significativo en espacio o tiempo, ya sea aumentando los parámetros (escalado de parámetros) o los tokens de salida (escalado en tiempo de inferencia). Introducimos el tercer paradigma de escalado, más eficiente en inferencia: aumentar el cómputo paralelo del modelo tanto durante el entrenamiento como en el tiempo de inferencia. Aplicamos P transformaciones diversas y aprendibles a la entrada, ejecutamos pasos hacia adelante del modelo en paralelo y agregamos dinámicamente las P salidas. Este método, denominado escalado paralelo (ParScale), escala el cómputo paralelo reutilizando los parámetros existentes y puede aplicarse a cualquier estructura de modelo, procedimiento de optimización, datos o tarea. Teóricamente, proponemos una nueva ley de escalado y la validamos mediante pre-entrenamiento a gran escala, lo que demuestra que un modelo con P flujos paralelos es similar a escalar los parámetros en O(log P), mostrando una eficiencia de inferencia superior. Por ejemplo, ParScale puede usar hasta 22 veces menos aumento de memoria y 6 veces menos aumento de latencia en comparación con el escalado de parámetros que logra la misma mejora de rendimiento. También puede reciclar un modelo pre-entrenado estándar en uno escalado en paralelo mediante post-entrenamiento con una pequeña cantidad de tokens, reduciendo aún más el presupuesto de entrenamiento. La nueva ley de escalado que descubrimos facilita potencialmente el despliegue de modelos más potentes en escenarios de bajos recursos y ofrece una perspectiva alternativa sobre el papel del cómputo en el aprendizaje automático.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado capacidades notables, siendo la optimización de sus entradas (prompts) un factor clave para maximizar su rendimiento. Sin embargo, aunque los prompts de los LLMs incluyen tanto los prompts del sistema (agnósticos a la tarea) como los prompts del usuario (específicos para cada tarea), el trabajo existente sobre la optimización de prompts se ha centrado principalmente en los prompts del usuario asociados a consultas o tareas individuales, dejando en gran medida de lado el prompt del sistema, que, una vez optimizado, es aplicable a través de diferentes tareas y dominios. Motivados por esto, introducimos el novedoso problema de la optimización de prompts del sistema en dos niveles, cuyo objetivo es diseñar prompts del sistema que sean robustos frente a diversos prompts del usuario y transferibles a tareas no vistas. Para abordar este problema, proponemos un marco de meta-aprendizaje que meta-aprende el prompt del sistema optimizándolo sobre varios prompts del usuario en múltiples conjuntos de datos, mientras actualiza iterativamente los prompts del usuario para garantizar una sinergia entre ambos. Realizamos experimentos en 14 conjuntos de datos no vistos que abarcan 5 dominios diferentes, demostrando que nuestro enfoque produce prompts del sistema que generalizan efectivamente a diversos prompts del usuario. Además, nuestros hallazgos revelan que el prompt del sistema optimizado permite una rápida adaptación incluso a tareas no vistas, requiriendo menos pasos de optimización para los prompts del usuario en tiempo de prueba y logrando un rendimiento mejorado.
Mientras que los humanos pueden aprovechar de manera flexible la cognición visual interactiva para resolver problemas complejos, habilitar a los Modelos de Lenguaje y Visión de Gran Escala (LVLMs, por sus siglas en inglés) para aprender comportamientos adaptativos similares con herramientas visuales sigue siendo un desafío. Un obstáculo significativo es la actual falta de infraestructura estandarizada, lo que dificulta la integración de diversas herramientas, la generación de datos de interacción ricos y el entrenamiento efectivo de agentes robustos. Para abordar estas brechas, presentamos OpenThinkIMG, el primer marco de trabajo integral de código abierto de extremo a extremo para LVLMs aumentados con herramientas. Este marco cuenta con interfaces estandarizadas para herramientas visuales, generación escalable de trayectorias para la inicialización de políticas y un entorno de entrenamiento flexible. Además, considerando que el ajuste fino supervisado (SFT) en demostraciones estáticas ofrece una generalización limitada de políticas para la invocación dinámica de herramientas, proponemos un novedoso marco de aprendizaje por refuerzo (RL) llamado V-ToolRL para entrenar LVLMs en el aprendizaje de políticas adaptativas para invocar herramientas visuales externas. V-ToolRL permite a los LVLMs descubrir de manera autónoma estrategias óptimas de uso de herramientas optimizando directamente el éxito de la tarea utilizando retroalimentación de las interacciones con las herramientas. Validamos empíricamente V-ToolRL en tareas desafiantes de razonamiento con gráficos. Nuestro agente entrenado con RL, basado en un Qwen2-VL-2B, supera significativamente a su contraparte inicializada con SFT (+28.83 puntos) y supera a los baselines establecidos de aprendizaje supervisado de herramientas como Taco y CogCom en un promedio de +12.7 puntos. Notablemente, también supera a modelos de código cerrado prominentes como GPT-4.1 por +8.68 puntos de precisión. Esperamos que OpenThinkIMG pueda servir como un marco fundamental para avanzar en el razonamiento visual dinámico aumentado con herramientas, ayudando a la comunidad a desarrollar agentes de IA que puedan genuinamente "pensar con imágenes".
Motivados por las leyes de escalamiento en el modelado del lenguaje, que demuestran cómo la pérdida en pruebas escala como una ley de potencia con el tamaño del modelo y del conjunto de datos, descubrimos que existen leyes similares en el modelado de preferencias. Proponemos el Modelado de Preferencias Mundiales (WorldPM) para enfatizar este potencial de escalamiento, donde las Preferencias Mundiales representan una unificación de las preferencias humanas. En este artículo, recopilamos datos de preferencias de foros públicos que cubren diversas comunidades de usuarios y realizamos un entrenamiento extensivo utilizando datos a escala de 15M en modelos que van desde 1.5B hasta 72B parámetros. Observamos patrones distintos en diferentes métricas de evaluación: (1) Las métricas adversarias (capacidad para identificar características engañosas) escalan consistentemente con el aumento de datos de entrenamiento y el tamaño del modelo base; (2) Las métricas objetivas (conocimiento objetivo con respuestas bien definidas) muestran comportamientos emergentes en modelos de lenguaje más grandes, destacando el potencial de escalabilidad de WorldPM; (3) Las métricas subjetivas (preferencias subjetivas de un número limitado de humanos o IA) no muestran tendencias de escalamiento. Experimentos adicionales validan la efectividad de WorldPM como base para el ajuste fino de preferencias. A través de evaluaciones en 7 benchmarks con 20 subtareas, encontramos que WorldPM mejora ampliamente el rendimiento de generalización en conjuntos de datos de preferencias humanas de diversos tamaños (7K, 100K y 800K muestras), con ganancias de rendimiento que superan el 5% en muchas subtareas clave. Al integrar WorldPM en nuestra canalización interna de RLHF, observamos mejoras significativas tanto en conjuntos de evaluación internos como públicos, con ganancias notables del 4% al 8% en nuestras evaluaciones internas.
La cadena de pensamiento extensa (CoT, por sus siglas en inglés) es un componente esencial para el uso efectivo de los modelos de lenguaje modernos de gran escala, pero nuestra comprensión de las estrategias de razonamiento subyacentes a estas capacidades sigue siendo limitada. Si bien algunos trabajos previos han intentado categorizar las CoT utilizando tipos de estrategias predefinidos, estos enfoques están limitados por la intuición humana y no logran capturar la diversidad completa de los comportamientos del modelo. En este trabajo, presentamos la Enciclopedia CoT, un marco de análisis y dirección del razonamiento del modelo construido de abajo hacia arriba. Nuestro método extrae automáticamente diversos criterios de razonamiento de las CoT generadas por el modelo, los integra en un espacio semántico, los agrupa en categorías representativas y deriva rúbricas contrastivas para interpretar el comportamiento de razonamiento. Las evaluaciones humanas muestran que este marco produce análisis más interpretables y completos que los métodos existentes. Además, demostramos que esta comprensión permite mejoras en el rendimiento: podemos predecir qué estrategia es probable que utilice un modelo y guiarlo hacia alternativas más efectivas. Finalmente, ofrecemos insights prácticos, como que el formato de los datos de entrenamiento (por ejemplo, de forma libre frente a opción múltiple) tiene un impacto mucho mayor en el comportamiento de razonamiento que el dominio de los datos, subrayando la importancia del diseño de modelos consciente del formato.
El progreso de la IA está limitado por la calidad de la evaluación, y los potentes modelos LLM-como-Juez han demostrado ser una solución fundamental. Una mayor capacidad de juicio se habilita mediante un razonamiento en cadena de pensamiento más robusto, lo que motiva la necesidad de encontrar las mejores recetas para entrenar a dichos modelos a pensar. En este trabajo presentamos J1, un enfoque de aprendizaje por refuerzo para entrenar tales modelos. Nuestro método convierte tanto indicaciones verificables como no verificables en tareas de juicio con recompensas verificables que incentivan el pensamiento y mitigan el sesgo en el juicio. En particular, nuestro enfoque supera a todos los demás modelos existentes de 8B o 70B cuando se entrena en esos tamaños, incluyendo modelos destilados de DeepSeek-R1. J1 también supera a o1-mini, e incluso a R1 en algunos benchmarks, a pesar de entrenar un modelo más pequeño. Proporcionamos análisis y ablaciones comparando modelos Pairwise-J1 frente a Pointwise-J1, recetas de entrenamiento offline frente a online, estrategias de recompensa, indicaciones iniciales y variaciones en la longitud y contenido del pensamiento. Descubrimos que nuestros modelos realizan mejores juicios al aprender a esbozar criterios de evaluación, comparar con respuestas de referencia generadas por ellos mismos y reevaluar la corrección de las respuestas del modelo.
El aprendizaje por imitación robótica ha evolucionado desde la resolución de tareas estáticas hasta abordar escenarios de interacción dinámica, pero las pruebas y evaluaciones siguen siendo costosas y desafiantes debido a la necesidad de interacción en tiempo real con entornos dinámicos. Proponemos EnerVerse-AC (EVAC), un modelo de mundo condicionado por acciones que genera observaciones visuales futuras basadas en las acciones predichas de un agente, permitiendo inferencias robóticas realistas y controlables. Basándose en arquitecturas previas, EVAC introduce un mecanismo de condicionamiento de acciones de múltiples niveles y una codificación de mapas de rayos para la generación dinámica de imágenes multi-vista, mientras expande los datos de entrenamiento con trayectorias de fallos diversas para mejorar la generalización. Como motor de datos y evaluador, EVAC aumenta las trayectorias recolectadas por humanos en conjuntos de datos diversos y genera observaciones de video realistas condicionadas por acciones para pruebas de políticas, eliminando la necesidad de robots físicos o simulaciones complejas. Este enfoque reduce significativamente los costos mientras mantiene una alta fidelidad en la evaluación de la manipulación robótica. Experimentos extensos validan la efectividad de nuestro método. El código, puntos de control y conjuntos de datos se pueden encontrar en <https://annaj2178.github.io/EnerverseAC.github.io>.
La tokenización visual existente aísla la optimización de los tokenizadores visuales del entrenamiento descendente, asumiendo implícitamente que los tokens visuales pueden generalizarse bien en diversas tareas, como la generación de imágenes y la respuesta a preguntas visuales. El tokenizador visual optimizado para la reconstrucción de bajo nivel es agnóstico a las tareas descendentes que requieren representaciones y semánticas variadas. Este paradigma desacoplado introduce un desalineamiento crítico: la pérdida en la tokenización visual puede convertirse en un cuello de botella de representación para las tareas objetivo. Por ejemplo, los errores al tokenizar texto en una imagen dada conducen a resultados deficientes al reconocerlo o generarlo. Para abordar esto, proponemos ETT, un enfoque de ajuste de tokenización visual de extremo a extremo que permite la optimización conjunta entre la tokenización visual y las tareas autorregresivas objetivo. A diferencia de los modelos autorregresivos previos que utilizan únicamente índices discretos de un tokenizador visual congelado, ETT aprovecha los embeddings visuales del codebook del tokenizador y optimiza los tokenizadores visuales de extremo a extremo con objetivos tanto de reconstrucción como de generación de descripciones. ETT puede integrarse sin problemas en las canalizaciones de entrenamiento existentes con modificaciones mínimas en la arquitectura. Nuestro ETT es simple de implementar e integrar, sin necesidad de ajustar los codebooks originales o las arquitecturas de los grandes modelos de lenguaje empleados. Experimentos extensos demuestran que nuestro enfoque de ajuste de tokenización visual de extremo a extremo desbloquea mejoras significativas en el rendimiento, es decir, del 2 al 6% en tareas de comprensión multimodal y generación visual en comparación con líneas base de tokenizadores congelados, mientras se preserva la capacidad de reconstrucción original. Esperamos que este método tan simple y potente pueda potenciar los modelos fundacionales multimodales más allá de la generación y comprensión de imágenes.
Los recientes avances en IA creativa han permitido la síntesis de imágenes y videos de alta fidelidad condicionados por instrucciones en lenguaje natural. Basándose en estos desarrollos, los modelos de difusión de texto a video han evolucionado hacia modelos de mundo encarnado (EWMs, por sus siglas en inglés) capaces de generar escenas físicamente plausibles a partir de comandos de lenguaje, conectando efectivamente la visión y la acción en aplicaciones de IA encarnada. Este trabajo aborda el desafío crítico de evaluar los EWMs más allá de las métricas perceptuales generales, para garantizar la generación de comportamientos físicamente fundamentados y consistentes con la acción. Proponemos el Embodied World Model Benchmark (EWMBench), un marco dedicado diseñado para evaluar los EWMs en tres aspectos clave: consistencia visual de la escena, corrección del movimiento y alineación semántica. Nuestro enfoque aprovecha un conjunto de datos meticulosamente curado que abarca diversas escenas y patrones de movimiento, junto con un kit de evaluación multidimensional integral, para evaluar y comparar modelos candidatos. El benchmark propuesto no solo identifica las limitaciones de los modelos existentes de generación de video para cumplir con los requisitos únicos de las tareas encarnadas, sino que también proporciona insights valiosos para guiar futuros avances en el campo. El conjunto de datos y las herramientas de evaluación están disponibles públicamente en https://github.com/AgibotTech/EWMBench.
Presentamos MLE-Dojo, un framework estilo Gym para el aprendizaje por refuerzo sistemático, evaluación y mejora de agentes autónomos basados en modelos de lenguaje grande (LLM) en flujos de trabajo iterativos de ingeniería de aprendizaje automático (MLE). A diferencia de los benchmarks existentes que dependen principalmente de conjuntos de datos estáticos o evaluaciones de un solo intento, MLE-Dojo proporciona un entorno interactivo que permite a los agentes experimentar, depurar y refinar soluciones de manera iterativa a través de bucles de retroalimentación estructurados. Construido sobre más de 200 desafíos reales de Kaggle, MLE-Dojo abarca diversas tareas abiertas de MLE cuidadosamente seleccionadas para reflejar escenarios de ingeniería realistas, como procesamiento de datos, búsqueda de arquitecturas, ajuste de hiperparámetros y depuración de código. Su entorno completamente ejecutable permite un entrenamiento integral de agentes mediante ajuste fino supervisado y aprendizaje por refuerzo, facilitando la experimentación iterativa, el muestreo realista de datos y la verificación de resultados en tiempo real. Evaluaciones exhaustivas de ocho LLM de vanguardia revelan que, aunque los modelos actuales logran mejoras iterativas significativas, aún presentan limitaciones importantes en la generación autónoma de soluciones a largo plazo y en la resolución eficiente de errores complejos. Además, la arquitectura flexible y extensible de MLE-Dojo integra sin problemas diversas fuentes de datos, herramientas y protocolos de evaluación, permitiendo de manera única el ajuste de agentes basados en modelos y promoviendo la interoperabilidad, escalabilidad y reproducibilidad. Hacemos público nuestro framework y benchmarks para fomentar la innovación impulsada por la comunidad hacia la próxima generación de agentes de MLE.
Este artículo presenta Unilogit, un novedoso método de auto-distilación para el desaprendizaje en modelos de lenguaje de gran escala. Unilogit aborda el desafío de olvidar selectivamente información específica mientras se mantiene la utilidad general del modelo, una tarea crítica para cumplir con regulaciones de privacidad de datos como el GDPR. A diferencia de métodos previos que dependen de hiperparámetros estáticos o salidas iniciales del modelo, Unilogit ajusta dinámicamente los logits objetivo para alcanzar una probabilidad uniforme del token objetivo, aprovechando las salidas actuales del modelo para obtener objetivos de auto-distilación más precisos. Este enfoque no solo elimina la necesidad de hiperparámetros adicionales, sino que también mejora la capacidad del modelo para aproximarse a los objetivos ideales. Experimentos exhaustivos en benchmarks públicos y un conjunto de datos interno de comercio electrónico demuestran el rendimiento superior de Unilogit al equilibrar los objetivos de olvidar y retener, superando a métodos de vanguardia como NPO y UnDIAL. Nuestro análisis revela además la robustez de Unilogit en diversos escenarios, destacando su aplicabilidad práctica y efectividad para lograr un desaprendizaje eficaz en máquinas.
Los gráficos vectoriales escalables (SVG) son altamente valorados por los diseñadores debido a su independencia de resolución y estructura de capas bien organizada. Aunque los métodos existentes de generación de texto a vector (T2V) pueden crear SVG a partir de indicaciones de texto, a menudo pasan por alto una necesidad importante en aplicaciones prácticas: la personalización de estilo, que es crucial para producir una colección de gráficos vectoriales con una apariencia visual consistente y una estética coherente. Extender los métodos T2V existentes para la personalización de estilo presenta ciertos desafíos. Los modelos T2V basados en optimización pueden utilizar los priors de los modelos de texto a imagen (T2I) para la personalización, pero luchan por mantener la regularidad estructural. Por otro lado, los modelos T2V de avance directo pueden garantizar la regularidad estructural, pero encuentran dificultades para separar el contenido y el estilo debido a los datos limitados de entrenamiento de SVG. Para abordar estos desafíos, proponemos una novedosa canalización de personalización de estilo en dos etapas para la generación de SVG, aprovechando las ventajas tanto de los modelos T2V de avance directo como de los priors de imagen T2I. En la primera etapa, entrenamos un modelo de difusión T2V con una representación a nivel de ruta para garantizar la regularidad estructural de los SVG mientras se preservan diversas capacidades expresivas. En la segunda etapa, personalizamos el modelo de difusión T2V a diferentes estilos mediante la destilación de modelos T2I personalizados. Al integrar estas técnicas, nuestra canalización puede generar SVG de alta calidad y diversos en estilos personalizados basados en indicaciones de texto de manera eficiente y de avance directo. La efectividad de nuestro método ha sido validada a través de extensos experimentos. La página del proyecto es https://customsvg.github.io.
Este trabajo presenta Prior Depth Anything, un marco que combina información métrica incompleta pero precisa en la medición de profundidad con estructuras geométricas relativas pero completas en la predicción de profundidad, generando mapas de profundidad métricos precisos, densos y detallados para cualquier escena. Para ello, diseñamos un pipeline de coarse-to-fine que integra progresivamente las dos fuentes complementarias de profundidad. Primero, introducimos una alineación métrica a nivel de píxel y una ponderación basada en la distancia para pre-llenar diversos priores métricos utilizando explícitamente la predicción de profundidad. Esto reduce efectivamente la brecha de dominio entre los patrones previos, mejorando la generalización en diversos escenarios. Segundo, desarrollamos un modelo de estimación monocular de profundidad (MDE) condicionado para refinar el ruido inherente de los priores de profundidad. Al condicionar el modelo con el prior pre-llenado normalizado y la predicción, este fusiona implícitamente las dos fuentes complementarias de profundidad. Nuestro modelo demuestra una impresionante generalización zero-shot en tareas de completado de profundidad, super-resolución e inpainting en 7 conjuntos de datos del mundo real, igualando o incluso superando métodos anteriores específicos para cada tarea. Más importante aún, funciona bien con priores mixtos desafiantes y no vistos, y permite mejoras en tiempo de prueba al cambiar los modelos de predicción, ofreciendo un equilibrio flexible entre precisión y eficiencia mientras evoluciona con los avances en los modelos MDE.
El señalamiento funciona como un mecanismo fundamental e intuitivo para anclar el lenguaje en contextos visuales, con aplicaciones que abarcan la robótica, tecnologías asistivas y sistemas de IA interactivos. Aunque los modelos multimodales recientes han comenzado a incorporar capacidades de señalamiento, los benchmarks existentes suelen centrarse únicamente en tareas de localización referencial de objetos. Presentamos PointArena, una plataforma integral para evaluar el señalamiento multimodal en diversos escenarios de razonamiento. PointArena consta de tres componentes: (1) Point-Bench, un conjunto de datos curado que contiene aproximadamente 1,000 tareas de señalamiento en cinco categorías de razonamiento; (2) Point-Battle, una arena interactiva basada en la web que facilita comparaciones ciegas y por pares de modelos, y que ya ha recopilado más de 4,500 votos anónimos; y (3) Point-Act, un sistema de manipulación robótica en el mundo real que permite a los usuarios evaluar directamente las capacidades de señalamiento de modelos multimodales en entornos prácticos. Realizamos evaluaciones exhaustivas de modelos multimodales tanto de código abierto como propietarios de última generación. Los resultados indican que Molmo-72B supera consistentemente a otros modelos, aunque los modelos propietarios muestran un rendimiento cada vez más comparable. Además, encontramos que el entrenamiento supervisado específicamente dirigido a tareas de señalamiento mejora significativamente el rendimiento del modelo. A lo largo de nuestra pipeline de evaluación en múltiples etapas, también observamos fuertes correlaciones, destacando el papel crítico de las capacidades precisas de señalamiento para permitir que los modelos multimodales conecten efectivamente el razonamiento abstracto con acciones concretas en el mundo real. Página del proyecto: https://pointarena.github.io/
Este estudio distingue críticamente entre Agentes de IA e IA Agéntica, ofreciendo una taxonomía conceptual estructurada, un mapeo de aplicaciones y un análisis de desafíos para clarificar sus filosofías de diseño y capacidades divergentes. Comenzamos delineando la estrategia de búsqueda y las definiciones fundamentales, caracterizando a los Agentes de IA como sistemas modulares impulsados por Modelos de Lenguaje de Gran Escala (LLMs) y Modelos de Imagen de Gran Escala (LIMs) para la automatización específica de tareas. La IA Generativa se posiciona como un precursor, con los Agentes de IA avanzando mediante la integración de herramientas, la ingeniería de prompts y mejoras en el razonamiento. En contraste, los sistemas de IA Agéntica representan un cambio paradigmático marcado por la colaboración multiagente, la descomposición dinámica de tareas, la memoria persistente y la autonomía orquestada. A través de una evaluación secuencial de la evolución arquitectónica, los mecanismos operativos, los estilos de interacción y los niveles de autonomía, presentamos un análisis comparativo entre ambos paradigmas. Los dominios de aplicación como el soporte al cliente, la programación y la síntesis de datos se contrastan con los despliegues de IA Agéntica en la automatización de investigación, la coordinación robótica y el apoyo a la toma de decisiones médicas. Además, examinamos desafíos únicos en cada paradigma, incluyendo la alucinación, la fragilidad, el comportamiento emergente y los fallos de coordinación, y proponemos soluciones específicas como bucles ReAct, RAG, capas de orquestación y modelado causal. Este trabajo tiene como objetivo proporcionar una hoja de ruta definitiva para el desarrollo de sistemas robustos, escalables y explicables impulsados por Agentes de IA e IA Agéntica. >Agentes de IA, Agente-impulsado, Modelos Visión-Lenguaje, Sistema de Apoyo a Decisiones de IA Agéntica, Aplicaciones de IA Agéntica.
Este artículo no describe un método nuevo; en su lugar, ofrece una exploración exhaustiva de un espacio de diseño importante pero poco estudiado relacionado con los avances recientes en la síntesis de texto a imagen —específicamente, la fusión profunda de modelos de lenguaje de gran escala (LLMs) y transformadores de difusión (DiTs) para la generación multimodal. Estudios previos se centraron principalmente en el rendimiento general del sistema en lugar de realizar comparaciones detalladas con métodos alternativos, y los detalles clave de diseño y las recetas de entrenamiento a menudo no se revelaron. Estas brechas generan incertidumbre sobre el verdadero potencial de este enfoque. Para llenar estos vacíos, realizamos un estudio empírico sobre la generación de texto a imagen, llevando a cabo comparaciones controladas con líneas base establecidas, analizando decisiones de diseño importantes y proporcionando una receta clara y reproducible para el entrenamiento a gran escala. Esperamos que este trabajo ofrezca puntos de datos significativos y pautas prácticas para futuras investigaciones en generación multimodal.
Los modelos de lenguaje preentrenados (LLMs, por sus siglas en inglés) suelen estar limitados por sus esquemas de tokenización fijos, lo que genera ineficiencias y limitaciones en el rendimiento, especialmente en aplicaciones multilingües o especializadas. Este bloqueo en el tokenizador presenta desafíos significativos. Los métodos estándar para superarlo a menudo requieren recursos computacionales prohibitivos. Aunque el reemplazo del tokenizador con inicialización heurística busca reducir esta carga, los métodos existentes suelen requerir un ajuste fino residual exhaustivo y aún pueden no preservar completamente los matices semánticos o abordar adecuadamente las ineficiencias subyacentes de compresión. Nuestro marco introduce dos innovaciones: primero, Tokenadapt, un método de trasplante de tokenizador independiente del modelo, y segundo, un aprendizaje de pre-tokenización novedoso para Supertokens de múltiples palabras para mejorar la compresión y reducir la fragmentación. Tokenadapt inicializa nuevos embeddings de tokens únicos mediante una heurística híbrida que combina dos métodos: una estimación local basada en la descomposición de subpalabras utilizando el tokenizador antiguo, y una estimación global que utiliza los k tokens semánticamente más similares del vocabulario original. Esta metodología busca preservar la semántica mientras minimiza significativamente los requisitos de reentrenamiento. Las investigaciones empíricas validan ambas contribuciones: la heurística de trasplante inicializa con éxito tokens únicos, superando notablemente los métodos convencionales y sofisticados, incluyendo Transtokenizer y ReTok, mientras que nuestros Supertokens logran ganancias notables en compresión. Nuestros resultados de perplejidad en cero-shot demuestran que la inicialización híbrida de TokenAdapt produce consistentemente ratios de perplejidad más bajos en comparación con los métodos base ReTok y TransTokenizer, tanto en diferentes modelos base como en nuevos tokenizadores objetivo. TokenAdapt típicamente redujo el ratio de perplejidad general significativamente en comparación con ReTok, logrando al menos una mejora de 2 veces en estos puntajes agregados.
La segmentación de escenas quirúrgicas es fundamental en la cirugía asistida por computadora y es crucial para mejorar la calidad quirúrgica y los resultados de los pacientes. Recientemente, ha surgido la segmentación quirúrgica referencial, dada su ventaja de proporcionar a los cirujanos una experiencia interactiva para segmentar el objeto objetivo. Sin embargo, los métodos existentes están limitados por su baja eficiencia y seguimiento a corto plazo, lo que dificulta su aplicabilidad en escenarios quirúrgicos complejos del mundo real. En este artículo, presentamos ReSurgSAM2, un marco de segmentación referencial quirúrgica en dos etapas que aprovecha el Segment Anything Model 2 para realizar la detección de objetivos referenciados por texto, seguido de un seguimiento con identificación confiable del marco inicial y memoria a largo plazo impulsada por la diversidad. Para la etapa de detección, proponemos un Mamba espacial-temporal multimodal para generar resultados precisos de detección y segmentación. Basándonos en estos resultados, nuestra estrategia de selección de marco inicial confiable identifica el marco confiable para el seguimiento posterior. Una vez seleccionado el marco inicial, nuestro método pasa a la etapa de seguimiento, donde incorpora un mecanismo de memoria impulsado por la diversidad que mantiene un banco de memoria confiable y diverso, asegurando un seguimiento consistente a largo plazo. Experimentos exhaustivos demuestran que ReSurgSAM2 logra mejoras sustanciales en precisión y eficiencia en comparación con los métodos existentes, operando en tiempo real a 61.2 FPS. Nuestro código y conjuntos de datos estarán disponibles en https://github.com/jinlab-imvr/ReSurgSAM2.
A pesar de los avances significativos en el modelado de priors de imágenes mediante modelos de difusión, la edición de imágenes con conciencia 3D sigue siendo un desafío, en parte porque el objeto solo se especifica a través de una única imagen. Para abordar este desafío, proponemos 3D-Fixup, un nuevo marco para la edición de imágenes 2D guiado por priors 3D aprendidos. El marco admite situaciones de edición difíciles, como la traslación de objetos y la rotación en 3D. Para lograrlo, aprovechamos un enfoque basado en entrenamiento que utiliza el poder generativo de los modelos de difusión. Dado que los datos de video codifican naturalmente la dinámica física del mundo real, recurrimos a datos de video para generar pares de datos de entrenamiento, es decir, un fotograma fuente y un fotograma objetivo. En lugar de depender únicamente de un único modelo entrenado para inferir transformaciones entre los fotogramas fuente y objetivo, incorporamos guía 3D de un modelo de Imagen-a-3D, que aborda esta tarea desafiante proyectando explícitamente información 2D en el espacio 3D. Diseñamos una canalización de generación de datos para garantizar una guía 3D de alta calidad durante el entrenamiento. Los resultados muestran que, al integrar estos priors 3D, 3D-Fixup respalda eficazmente ediciones complejas y coherentes con la identidad en 3D, logrando resultados de alta calidad y avanzando en la aplicación de modelos de difusión en la manipulación realista de imágenes. El código se proporciona en https://3dfixup.github.io/.
El surgimiento de modelos híbridos de aprendizaje automático cuántico-clásico (HQML, por sus siglas en inglés) abre nuevos horizontes en la inteligencia computacional, pero su complejidad fundamental frecuentemente conduce a un comportamiento de "caja negra" que socava la transparencia y la confiabilidad en su aplicación. Aunque la IA explicable (XAI) para sistemas cuánticos aún está en sus primeras etapas, existe una brecha de investigación evidente en enfoques robustos de explicabilidad global y local diseñados para arquitecturas HQML que emplean codificación de características cuantizadas seguida de aprendizaje clásico. Esta brecha es el foco de este trabajo, que introduce QuXAI, un marco basado en Q-MEDLEY, un explicador para la importancia de características en estos sistemas híbridos. Nuestro modelo implica la creación de modelos HQML que incorporan mapas de características cuánticas, el uso de Q-MEDLEY, que combina inferencias basadas en características, preserva la etapa de transformación cuántica y visualiza las atribuciones resultantes. Nuestros resultados muestran que Q-MEDLEY delinea aspectos clásicos influyentes en los modelos HQML, así como separa su ruido, y compite favorablemente contra técnicas XAI establecidas en entornos de validación clásica. Los estudios de ablación exponen de manera más significativa las virtudes de la estructura compuesta utilizada en Q-MEDLEY. Las implicaciones de este trabajo son de crucial importancia, ya que proporciona una ruta para mejorar la interpretabilidad y confiabilidad de los modelos HQML, promoviendo así una mayor confianza y permitiendo un uso más seguro y responsable de la tecnología de IA mejorada por la cuántica.
La detección universal de anomalías visuales tiene como objetivo identificar anomalías en dominios visuales nuevos o no vistos sin necesidad de ajustes adicionales, lo cual es crucial en escenarios abiertos. Estudios recientes han demostrado que modelos preentrenados de visión y lenguaje como CLIP exhiben una fuerte generalización con solo cero o unas pocas imágenes normales. Sin embargo, los métodos existentes enfrentan dificultades al diseñar plantillas de prompts, interacciones complejas entre tokens o requieren ajustes adicionales, lo que resulta en una flexibilidad limitada. En este trabajo, presentamos un método simple pero efectivo llamado AdaptCLIP basado en dos ideas clave. Primero, las representaciones visuales y textuales adaptativas deben aprenderse de manera alternada en lugar de conjunta. Segundo, el aprendizaje comparativo entre la consulta y el prompt de la imagen normal debe incorporar tanto características contextuales como características residuales alineadas, en lugar de depender únicamente de las características residuales. AdaptCLIP trata los modelos CLIP como un servicio fundamental, añadiendo solo tres adaptadores simples: un adaptador visual, un adaptador textual y un adaptador de prompt-consulta, en sus entradas o salidas. AdaptCLIP permite la generalización cero-shot/few-shot entre dominios y posee un enfoque libre de entrenamiento en dominios objetivo una vez entrenado en un conjunto de datos base. AdaptCLIP logra un rendimiento de vanguardia en 12 benchmarks de detección de anomalías de dominios industriales y médicos, superando significativamente a los métodos competitivos existentes. Pondremos a disposición el código y el modelo de AdaptCLIP en https://github.com/gaobb/AdaptCLIP.
La escalabilidad del aprendizaje en robótica requiere conjuntos de datos extensos y diversos. Sin embargo, el paradigma predominante de recopilación de datos—la teleoperación humana—sigue siendo costoso y está limitado por el esfuerzo manual y el acceso físico a los robots. Presentamos Real2Render2Real (R2R2R), un enfoque novedoso para generar datos de entrenamiento robótico sin depender de la simulación de dinámicas de objetos o la teleoperación de hardware robótico. La entrada consiste en un escaneo capturado con un teléfono inteligente de uno o más objetos y un único video de una demostración humana. R2R2R genera miles de demostraciones de alta fidelidad visual independientes del robot, reconstruyendo la geometría y apariencia detallada en 3D de los objetos y rastreando su movimiento en 6 grados de libertad (6-DoF). R2R2R utiliza 3D Gaussian Splatting (3DGS) para permitir la generación flexible de activos y la síntesis de trayectorias tanto para objetos rígidos como articulados, convirtiendo estas representaciones en mallas para mantener la compatibilidad con motores de renderizado escalables como IsaacLab, pero sin modelado de colisiones. Los datos de demostración robótica generados por R2R2R se integran directamente con modelos que operan en estados propioceptivos del robot y observaciones de imágenes, como los modelos de visión-lenguaje-acción (VLA) y las políticas de aprendizaje por imitación. Experimentos físicos sugieren que los modelos entrenados con datos de R2R2R a partir de una única demostración humana pueden igualar el rendimiento de los modelos entrenados con 150 demostraciones de teleoperación humana. Página del proyecto: https://real2render2real.com
Las redes de reconstrucción no supervisadas que utilizan transformadores de auto-atención han logrado un rendimiento de vanguardia en la detección de anomalías multiclase (unificada) con un solo modelo. Sin embargo, estos modelos de reconstrucción basados en auto-atención operan principalmente sobre características objetivo, lo que puede resultar en una reconstrucción perfecta tanto para características normales como anómalas debido a su alta consistencia con el contexto, lo que lleva a fallos en la detección de anomalías. Además, estos modelos a menudo producen una segmentación de anomalías imprecisa debido a que realizan la reconstrucción en un espacio latente de baja resolución espacial. Para permitir que los modelos de reconstrucción disfruten de alta eficiencia mientras mejoran su generalización para la detección unificada de anomalías, proponemos un método simple pero efectivo que reconstruye características normales y restaura características anómalas con solo Una Imagen Normal de Referencia (OneNIP). A diferencia de trabajos anteriores, OneNIP permite por primera vez reconstruir o restaurar anomalías con solo una imagen normal de referencia, mejorando significativamente el rendimiento en la detección unificada de anomalías. Además, proponemos un refinador supervisado que regresa errores de reconstrucción utilizando tanto imágenes normales reales como imágenes anómalas sintetizadas, lo que mejora notablemente la segmentación de anomalías a nivel de píxel. OneNIP supera a métodos anteriores en tres benchmarks de detección de anomalías industriales: MVTec, BTAD y VisA. El código y los modelos preentrenados están disponibles en https://github.com/gaobb/OneNIP.
La segmentación visual de anomalías en escenarios de cero y pocos ejemplos se basa en potentes modelos de visión-lenguaje que detectan anomalías no vistas utilizando indicaciones textuales diseñadas manualmente. Sin embargo, las representaciones visuales son inherentemente independientes del lenguaje. En este artículo, exploramos el potencial de un modelo de visión pura como alternativa a los modelos de visión-lenguaje ampliamente utilizados para la segmentación visual universal de anomalías. Presentamos un nuevo paradigma que unifica la segmentación de anomalías en la segmentación de cambios. Este paradigma nos permite aprovechar pares de imágenes sintéticas a gran escala, que presentan cambios a nivel de objeto y en regiones locales, derivados de conjuntos de datos de imágenes existentes, los cuales son independientes de los conjuntos de datos de anomalías objetivo. Proponemos un marco de meta-aprendizaje de una sola indicación para la Segmentación Universal de Anomalías (MetaUAS) que se entrena en este conjunto de datos sintético y luego generaliza bien para segmentar cualquier anomalía visual nueva o no vista en el mundo real. Para manejar las variaciones geométricas entre la imagen de indicación y la imagen de consulta, proponemos un módulo de alineación suave de características que conecta la percepción de cambios en imágenes pareadas con la segmentación semántica de imágenes individuales. Este es el primer trabajo en lograr la segmentación universal de anomalías utilizando un modelo de visión pura sin depender de conjuntos de datos especiales de detección de anomalías ni de modelos preentrenados de visión-lenguaje. Nuestro método segmenta cualquier anomalía de manera efectiva y eficiente con solo una imagen normal como indicación y disfruta de un entrenamiento libre sin guía del lenguaje. Nuestro MetaUAS supera significativamente a los métodos anteriores de segmentación de anomalías de cero ejemplos, pocos ejemplos e incluso de ejemplos completos. El código y los modelos preentrenados están disponibles en https://github.com/gaobb/MetaUAS.
La detección de anomalías es una tarea práctica y desafiante debido a la escasez de muestras anómalas en la inspección industrial. Algunos métodos existentes de detección de anomalías abordan este problema sintetizando anomalías con ruido o datos externos. Sin embargo, siempre existe una gran brecha semántica entre las anomalías sintéticas y las del mundo real, lo que resulta en un rendimiento débil en la detección de anomalías. Para resolver este problema, proponemos un método de Generación Impulsada por Anomalías (AnoGen) con pocas muestras, que guía al modelo de difusión para generar anomalías realistas y diversas con solo unas pocas anomalías reales, beneficiando así el entrenamiento de modelos de detección de anomalías. Específicamente, nuestro trabajo se divide en tres etapas. En la primera etapa, aprendemos la distribución de anomalías basándonos en unas pocas anomalías reales dadas e inyectamos el conocimiento aprendido en un embedding. En la segunda etapa, utilizamos el embedding y las cajas delimitadoras dadas para guiar al modelo de difusión a generar anomalías realistas y diversas en objetos (o texturas) específicos. En la etapa final, proponemos un método de detección de anomalías débilmente supervisado para entrenar un modelo más potente con las anomalías generadas. Nuestro método se basa en DRAEM y DesTSeg como modelo base y realiza experimentos en el conjunto de datos de detección de anomalías industriales comúnmente utilizado, MVTec. Los experimentos demuestran que nuestras anomalías generadas mejoran efectivamente el rendimiento del modelo tanto en tareas de clasificación como de segmentación de anomalías simultáneamente, por ejemplo, DRAEM y DesTSeg lograron una mejora del 5.8% y 1.5% en la métrica AU-PR en la tarea de segmentación, respectivamente. El código y los datos anómalos generados están disponibles en https://github.com/gaobb/AnoGen.
Los videos humanos ofrecen una forma escalable de entrenar políticas de manipulación robótica, pero carecen de las etiquetas de acción necesarias para los algoritmos estándar de aprendizaje por imitación. Los enfoques existentes de cruce de encarnaciones intentan mapear el movimiento humano a acciones robóticas, pero a menudo fallan cuando las encarnaciones difieren significativamente. Proponemos X-Sim, un marco de trabajo de real-a-sim-a-real que utiliza el movimiento de los objetos como una señal densa y transferible para aprender políticas robóticas. X-Sim comienza reconstruyendo una simulación fotorrealista a partir de un video humano RGBD y rastreando trayectorias de objetos para definir recompensas centradas en los objetos. Estas recompensas se utilizan para entrenar una política de aprendizaje por refuerzo (RL) en simulación. La política aprendida se destila luego en una política de difusión condicionada por imágenes utilizando rollouts sintéticos renderizados con diversos puntos de vista e iluminación. Para transferir al mundo real, X-Sim introduce una técnica de adaptación de dominio en línea que alinea las observaciones reales y simuladas durante la implementación. Es importante destacar que X-Sim no requiere ningún dato de teleoperación robótica. Lo evaluamos en 5 tareas de manipulación en 2 entornos y demostramos que: (1) mejora el progreso de la tarea en un 30% en promedio sobre las líneas base de seguimiento manual y de simulación a realidad, (2) iguala el comportamiento de clonación con 10 veces menos tiempo de recopilación de datos, y (3) generaliza a nuevos puntos de vista de cámara y cambios en tiempo de prueba. El código y los videos están disponibles en https://portal-cornell.github.io/X-Sim/.