Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos Visión-Lenguaje-Acción (VLA, por sus siglas en inglés) suelen cerrar la brecha entre los espacios perceptuales y de acción mediante el preentrenamiento de un modelo de Visión-Lenguaje (VLM) a gran escala con datos robóticos. Aunque este enfoque mejora significativamente el rendimiento, también conlleva costos de entrenamiento considerables. En este artículo, investigamos cómo conectar de manera efectiva las representaciones de visión-lenguaje (VL) con la acción (A). Presentamos VLA-Adapter, un paradigma novedoso diseñado para reducir la dependencia de los modelos VLA en VLMs a gran escala y en extensos procesos de preentrenamiento. Para ello, primero analizamos sistemáticamente la efectividad de diversas condiciones VL y presentamos hallazgos clave sobre qué condiciones son esenciales para conectar los espacios perceptuales y de acción. Basándonos en estas conclusiones, proponemos un módulo de Política ligero con Atención de Puente, que inyecta automáticamente la condición óptima en el espacio de acción. De esta manera, nuestro método logra un alto rendimiento utilizando únicamente un backbone de 0.5 mil millones de parámetros, sin necesidad de preentrenamiento con datos robóticos. Experimentos exhaustivos en benchmarks robóticos tanto simulados como del mundo real demuestran que VLA-Adapter no solo alcanza un rendimiento de vanguardia, sino que también ofrece la velocidad de inferencia más rápida reportada hasta la fecha. Además, gracias al paradigma de conexión avanzado propuesto, VLA-Adapter permite entrenar un potente modelo VLA en solo 8 horas utilizando una única GPU de consumo, reduciendo significativamente la barrera para la implementación del modelo VLA. Página del proyecto: https://vla-adapter.github.io/.
Los métodos de Generación de Vídeo Centrado en Humanos (HCVG, por sus siglas en inglés) buscan sintetizar vídeos humanos a partir de entradas multimodales, incluyendo texto, imágenes y audio. Los métodos existentes enfrentan dificultades para coordinar eficazmente estas modalidades heterogéneas debido a dos desafíos principales: la escasez de datos de entrenamiento con condiciones de tripleta emparejadas y la dificultad de colaborar en las subtareas de preservación del sujeto y sincronización audio-visual con entradas multimodales. En este trabajo, presentamos HuMo, un marco unificado de HCVG para el control multimodal colaborativo. Para el primer desafío, construimos un conjunto de datos de alta calidad con texto, imágenes de referencia y audio diversos y emparejados. Para el segundo desafío, proponemos un paradigma de entrenamiento multimodal progresivo en dos etapas con estrategias específicas para cada tarea. Para la tarea de preservación del sujeto, con el fin de mantener la capacidad de seguimiento de instrucciones y generación visual del modelo base, adoptamos una estrategia de inyección de imágenes mínimamente invasiva. Para la tarea de sincronización audio-visual, además de la capa de atención cruzada de audio comúnmente adoptada, proponemos una estrategia de enfoque mediante predicción que guía implícitamente al modelo a asociar el audio con las regiones faciales. Para el aprendizaje conjunto de las capacidades de control en entradas multimodales, basándonos en capacidades previamente adquiridas, incorporamos progresivamente la tarea de sincronización audio-visual. Durante la inferencia, para un control multimodal flexible y de grano fino, diseñamos una estrategia de Guía Libre de Clasificador adaptativa en el tiempo que ajusta dinámicamente los pesos de guía a lo largo de los pasos de eliminación de ruido. Los resultados experimentales extensivos demuestran que HuMo supera a los métodos especializados de vanguardia en las subtareas, estableciendo un marco unificado para la HCVG condicionada multimodalmente de manera colaborativa. Página del proyecto: https://phantom-video.github.io/HuMo.
Los modelos Visión-Lenguaje-Acción (VLA, por sus siglas en inglés) han surgido recientemente como un paradigma poderoso para la manipulación robótica. A pesar del progreso sustancial habilitado por el preentrenamiento a gran escala y el ajuste fino supervisado (SFT), estos modelos enfrentan dos desafíos fundamentales: (i) la escasez y el alto costo de las trayectorias robóticas operadas por humanos a gran escala requeridas para escalar el SFT, y (ii) la limitada generalización a tareas que implican cambios en la distribución. Avances recientes en los Modelos de Razonamiento a Gran Escala (LRMs) demuestran que el aprendizaje por refuerzo (RL) puede mejorar drásticamente las capacidades de razonamiento paso a paso, planteando una pregunta natural: ¿Puede el RL mejorar de manera similar la planificación de acciones paso a paso a largo plazo de los VLA? En este trabajo, presentamos SimpleVLA-RL, un marco de RL eficiente diseñado para modelos VLA. Basándonos en veRL, introducimos muestreo de trayectorias específico para VLA, paralelización escalable, renderizado multi-entorno y cálculo optimizado de pérdidas. Al aplicarlo a OpenVLA-OFT, SimpleVLA-RL logra un rendimiento de vanguardia en LIBERO e incluso supera a pi_0 en RoboTwin 1.0\&2.0 con las estrategias de mejora de exploración que introducimos. SimpleVLA-RL no solo reduce la dependencia de datos a gran escala y permite una generalización robusta, sino que también supera notablemente al SFT en tareas del mundo real. Además, identificamos un fenómeno novedoso llamado "pushcut" durante el entrenamiento de RL, en el que la política descubre patrones previamente no vistos más allá de los observados en el proceso de entrenamiento anterior. Github: https://github.com/PRIME-RL/SimpleVLA-RL
Los modelos de lenguaje grande de voz a voz (SLLMs, por sus siglas en inglés) están atrayendo una atención creciente. Derivados de los modelos de lenguaje grande basados en texto (LLMs), los SLLMs suelen mostrar una degradación en sus capacidades de conocimiento y razonamiento. Nuestra hipótesis es que esta limitación surge porque los paradigmas de entrenamiento actuales para los SLLMs no logran cerrar la brecha acústico-semántica en el espacio de representación de características. Para abordar este problema, proponemos EchoX, que aprovecha las representaciones semánticas y genera dinámicamente objetivos de entrenamiento de voz. Este enfoque integra tanto el aprendizaje acústico como el semántico, permitiendo que EchoX preserve fuertes habilidades de razonamiento como un modelo de lenguaje grande de voz. Los resultados experimentales demuestran que EchoX, con aproximadamente seis mil horas de datos de entrenamiento, logra un rendimiento avanzado en múltiples benchmarks de preguntas y respuestas basadas en conocimiento. El proyecto está disponible en https://github.com/FreedomIntelligence/EchoX.
Los recientes avances en la generación de videos de avatares impulsados por audio han mejorado significativamente el realismo audiovisual. Sin embargo, los métodos existentes tratan el condicionamiento por instrucciones simplemente como un seguimiento de bajo nivel impulsado por señales acústicas o visuales, sin modelar el propósito comunicativo transmitido por las instrucciones. Esta limitación compromete su coherencia narrativa y expresividad de los personajes. Para cerrar esta brecha, presentamos Kling-Avatar, un novedoso marco en cascada que unifica la comprensión multimodal de instrucciones con la generación de retratos fotorrealistas. Nuestro enfoque adopta un pipeline de dos etapas. En la primera etapa, diseñamos un director basado en un modelo de lenguaje multimodal (MLLM) que produce un video de planificación condicionado por diversas señales de instrucción, gobernando así semánticas de alto nivel como el movimiento y las emociones del personaje. En la segunda etapa, guiados por fotogramas clave de la planificación, generamos múltiples subclips en paralelo utilizando una estrategia de primer-último fotograma. Este marco de global a local preserva detalles finos mientras codifica fielmente la intención de alto nivel detrás de las instrucciones multimodales. Nuestra arquitectura paralela también permite una generación rápida y estable de videos de larga duración, haciéndola adecuada para aplicaciones del mundo real como transmisiones en vivo y vlogging con humanos digitales. Para evaluar exhaustivamente nuestro método, construimos un benchmark de 375 muestras curadas que cubren diversas instrucciones y escenarios desafiantes. Experimentos extensivos demuestran que Kling-Avatar es capaz de generar videos vívidos, fluidos y de larga duración con una resolución de hasta 1080p y 48 fps, logrando un rendimiento superior en precisión de sincronización labial, expresividad emocional y dinámica, controlabilidad de instrucciones, preservación de identidad y generalización entre dominios. Estos resultados establecen a Kling-Avatar como un nuevo referente para la síntesis de avatares impulsados por audio con base semántica y alta fidelidad.
En tareas de horizonte largo, los agentes recientes basados en Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) enfrentan un desafío significativo: las recompensas escasas y basadas en resultados dificultan la asignación de crédito a los pasos intermedios. Los métodos anteriores se centran principalmente en crear señales de recompensa densas para guiar el aprendizaje, ya sea mediante técnicas tradicionales de aprendizaje por refuerzo, como el aprendizaje por refuerzo inverso, o utilizando Modelos de Recompensa de Proceso para retroalimentación paso a paso. En este artículo, identificamos un problema fundamental en la dinámica de aprendizaje de los LLMs: la magnitud de los gradientes de política está intrínsecamente acoplada con la entropía, lo que lleva a actualizaciones pequeñas e ineficientes para acciones correctas confiadas y potencialmente desestabiliza actualizaciones grandes para acciones inciertas. Para resolver esto, proponemos Gradientes de Política Modulados por Entropía (EMPG, por sus siglas en inglés), un marco que recalibra la señal de aprendizaje basándose en la incertidumbre paso a paso y el resultado final de la tarea. EMPG amplifica las actualizaciones para acciones correctas confiadas, penaliza los errores confiados y atenúa las actualizaciones de pasos inciertos para estabilizar la exploración. Además, introducimos un término de bonificación para la claridad futura que incentiva a los agentes a encontrar caminos de solución más predecibles. A través de experimentos exhaustivos en tres tareas desafiantes para agentes, WebShop, ALFWorld y Deep Search, demostramos que EMPG logra mejoras sustanciales en el rendimiento y supera significativamente a las líneas base de gradientes de política. La página del proyecto está disponible en https://empgseed-seed.github.io/.
El avance de los modelos de texto a imagen (T2I) de código abierto se ha visto obstaculizado por la ausencia de conjuntos de datos a gran escala centrados en el razonamiento y de puntos de referencia de evaluación integrales, lo que ha resultado en una brecha de rendimiento en comparación con los sistemas líderes de código cerrado. Para abordar este desafío, presentamos FLUX-Reason-6M y PRISM-Bench (Precise and Robust Image Synthesis Measurement Benchmark). FLUX-Reason-6M es un conjunto de datos masivo que consta de 6 millones de imágenes de alta calidad generadas por FLUX y 20 millones de descripciones bilingües (inglés y chino) diseñadas específicamente para enseñar razonamiento complejo. Las imágenes están organizadas según seis características clave: Imaginación, Entidad, Renderización de texto, Estilo, Afecto y Composición, y se ha diseñado una Cadena de Pensamiento de Generación (GCoT) explícita para proporcionar desgloses detallados de los pasos de generación de imágenes. La curaduría completa de los datos tomó 15,000 días de GPU A100, proporcionando a la comunidad un recurso previamente inalcanzable fuera de los grandes laboratorios industriales. PRISM-Bench ofrece un estándar de evaluación novedoso con siete pistas distintas, incluyendo un desafío formidable de Texto Largo utilizando GCoT. A través de indicaciones cuidadosamente diseñadas, utiliza modelos avanzados de visión y lenguaje para una evaluación matizada y alineada con el ser humano de la alineación entre la indicación y la imagen, así como de la estética de la imagen. Nuestra evaluación extensiva de 19 modelos líderes en PRISM-Bench revela brechas críticas de rendimiento y destaca áreas específicas que requieren mejora. Nuestro conjunto de datos, punto de referencia y código de evaluación se han liberado para catalizar la próxima ola de generación T2I orientada al razonamiento. Página del proyecto: https://flux-reason-6m.github.io/.
En este artículo, presentamos un paradigma innovador a través de la lente del Auto-Encoder: la comprensión como el codificador (I2T) que comprime imágenes en texto, y la generación como el decodificador (T2I) que reconstruye imágenes a partir de ese texto. Utilizando la fidelidad de reconstrucción como objetivo de entrenamiento unificado, reforzamos el flujo bidireccional coherente de información entre los procesos de comprensión y generación, obteniendo beneficios mutuos. Para implementar esto, proponemos UAE, un marco novedoso para el aprendizaje multimodal unificado. Comenzamos pre-entrenando el decodificador con descripciones de imágenes de contexto largo a gran escala para capturar relaciones semánticas detalladas y espaciales complejas. Luego, proponemos Unified-GRPO mediante aprendizaje por refuerzo (RL), que abarca tres etapas: (1) Una fase de arranque en frío para inicializar suavemente tanto el codificador como el decodificador con una pérdida de reconstrucción semántica; (2) Generación para Comprensión, donde el codificador se entrena para generar descripciones informativas que maximicen la calidad de reconstrucción del decodificador, mejorando su comprensión visual; (3) Comprensión para Generación, donde el decodificador se refina para reconstruir a partir de estas descripciones, obligándolo a aprovechar cada detalle y mejorando su capacidad para seguir instrucciones de contexto largo y su fidelidad de generación. Para la evaluación, presentamos Unified-Bench, el primer punto de referencia diseñado para evaluar el grado de unificación de los UMMs. Un sorprendente "momento de revelación" surge en el dominio del aprendizaje multimodal: a medida que avanza el RL, el codificador produce de manera autónoma descripciones más detalladas, mientras que el decodificador demuestra simultáneamente una profunda capacidad para comprender estas descripciones intrincadas, lo que resulta en reconstrucciones de una fidelidad impresionante.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) poseen un amplio conocimiento del mundo y una sólida capacidad de razonamiento de propósito general, sin embargo, tienen dificultades para aprender a partir de múltiples ejemplos en contexto en tareas estándar de aprendizaje automático (ML), es decir, para aprovechar demostraciones de muchos ejemplos (many-shot) únicamente mediante aprendizaje en contexto (ICL) sin descenso de gradiente. Presentamos MachineLearningLM, un marco portátil de preentrenamiento continuo que equipa a un LLM de propósito general con una capacidad robusta de ML en contexto, preservando al mismo tiempo su conocimiento general y razonamiento para flujos de trabajo de chat más amplios. Nuestro procedimiento de preentrenamiento sintetiza tareas de ML a partir de millones de modelos causales estructurales (SCMs), abarcando conteos de ejemplos (shots) de hasta 1,024. Comenzamos con un profesor de bosque aleatorio, destilando estrategias de decisión basadas en árboles en el LLM para fortalecer la robustez en el modelado numérico. Todas las tareas se serializan con un prompt eficiente en tokens, permitiendo de 3 a 6 veces más ejemplos por ventana de contexto y ofreciendo hasta 50 veces más rendimiento amortizado mediante inferencia por lotes. A pesar de una configuración modesta (Qwen-2.5-7B-Instruct con rango LoRA 8), MachineLearningLM supera a fuertes líneas base de LLMs (por ejemplo, GPT-5-mini) en un promedio de aproximadamente 15% en clasificación tabular fuera de distribución en dominios como finanzas, física, biología y atención médica. Exhibe una notable ley de escalamiento en muchos ejemplos (many-shot): la precisión aumenta monótonamente a medida que las demostraciones en contexto crecen de 8 a 1,024. Sin ningún entrenamiento específico para la tarea, alcanza una precisión comparable a la de un bosque aleatorio en cientos de ejemplos. Las capacidades generales de chat, incluyendo conocimiento y razonamiento, se mantienen: logra un 75.4% en MMLU.
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR, por sus siglas en inglés) es un paradigma poderoso para mejorar la capacidad de razonamiento de los Modelos de Lenguaje a Gran Escala (LLMs). Sin embargo, los métodos actuales de RLVR suelen explorar de manera deficiente, lo que lleva a una convergencia prematura y al colapso de la entropía. Para abordar este desafío, presentamos la Exploración Guiada por la Curiosidad (CDE, por sus siglas en inglés), un marco que aprovecha el sentido intrínseco de curiosidad del modelo para guiar la exploración. Formalizamos la curiosidad mediante señales tanto del actor como del crítico: para el actor, utilizamos la perplejidad sobre su respuesta generada, y para el crítico, empleamos la varianza de las estimaciones de valor de una arquitectura de múltiples cabezas. Ambas señales sirven como una bonificación de exploración dentro del marco de RLVR para guiar al modelo. Nuestro análisis teórico muestra que la bonificación del actor penaliza inherentemente los errores de sobreconfianza y promueve la diversidad entre las respuestas correctas; además, conectamos la bonificación del crítico con la bien establecida bonificación de exploración basada en conteos en el aprendizaje por refuerzo. Empíricamente, nuestro método logra una mejora aproximada de +3 puntos sobre el RLVR estándar utilizando GRPO/PPO en los benchmarks de AIME. Un análisis adicional identifica un mecanismo de colapso de calibración dentro de RLVR, arrojando luz sobre los modos de falla comunes de los LLMs.
Los Modelos de Lenguaje de Audio a Gran Escala (LALMs, por sus siglas en inglés) están avanzando rápidamente, pero su evaluación sigue siendo un desafío debido a herramientas ineficientes que limitan la comparación justa y la evaluación sistemática. Los marcos actuales presentan tres problemas críticos: procesamiento lento que obstaculiza estudios a gran escala, indicaciones inconsistentes que perjudican la reproducibilidad, y cobertura limitada de tareas que omite capacidades importantes de razonamiento auditivo. Presentamos AU-Harness, un marco de evaluación eficiente y completo para LALMs. Nuestro sistema logra una aceleración de hasta el 127% sobre las herramientas existentes mediante procesamiento por lotes optimizado y ejecución paralela, permitiendo evaluaciones a gran escala que antes eran impracticables. Ofrecemos protocolos de indicación estandarizados y configuraciones flexibles para una comparación justa de modelos en diversos escenarios. Además, introducimos dos nuevas categorías de evaluación: Diarización Adaptativa a LLM para la comprensión temporal de audio y Razonamiento en Lenguaje Hablado para tareas cognitivas complejas basadas en audio. A través de la evaluación en más de 380 tareas, revelamos brechas significativas en los LALMs actuales, particularmente en la comprensión temporal y las tareas complejas de razonamiento en lenguaje hablado. Nuestros hallazgos también destacan una falta de estandarización en la modalidad de instrucción presente en los puntos de referencia de audio, lo que puede generar diferencias de rendimiento de hasta 9.5 puntos absolutos en tareas complejas de seguimiento de instrucciones. AU-Harness proporciona tanto herramientas prácticas de evaluación como insights sobre las limitaciones de los modelos, avanzando el desarrollo sistemático de LALMs.
Se ha logrado un progreso significativo en la inteligencia espacial, abarcando tanto la reconstrucción espacial como la exploración del mundo. Sin embargo, la escalabilidad y la fidelidad en el mundo real de los modelos actuales siguen estando severamente limitadas por la escasez de datos de entrenamiento a gran escala y de alta calidad. Aunque varios conjuntos de datos proporcionan información sobre la pose de la cámara, suelen estar limitados en escala, diversidad y riqueza de anotaciones, especialmente para escenas dinámicas del mundo real con movimiento de cámara de referencia. Con este fin, recopilamos SpatialVID, un conjunto de datos que consiste en un gran corpus de videos en entornos naturales con escenas diversas, movimientos de cámara y anotaciones 3D densas, como poses de cámara por fotograma, profundidad e instrucciones de movimiento. Específicamente, recopilamos más de 21,000 horas de video en bruto y las procesamos en 2.7 millones de clips mediante una canalización de filtrado jerárquico, totalizando 7,089 horas de contenido dinámico. Una canalización de anotación posterior enriquece estos clips con información espacial y semántica detallada, incluyendo poses de cámara, mapas de profundidad, máscaras dinámicas, subtítulos estructurados e instrucciones de movimiento serializadas. El análisis de las estadísticas de datos de SpatialVID revela una riqueza y diversidad que fomentan directamente una mejor generalización y rendimiento de los modelos, estableciéndolo como un recurso clave para la comunidad de investigación en visión 3D y video.
La comprensión de gráficos representa una prueba crítica para las capacidades de razonamiento de los Modelos de Visión-Lenguaje (VLMs). Los enfoques previos enfrentan limitaciones significativas: algunos dependen de herramientas externas, lo que los hace frágiles y restringidos por un conjunto de herramientas predefinido, mientras que otros ajustan modelos especializados que a menudo adoptan una única estrategia de razonamiento, como la cadena de pensamiento (CoT) basada en texto. Los pasos intermedios del razonamiento basado en texto son difíciles de verificar, lo que complica el uso de señales de aprendizaje por refuerzo que premian la precisión factual. Para abordar esto, proponemos un enfoque de Código-como-Pensamiento (CaT) para representar la información visual de un gráfico en un formato simbólico verificable. Nuestra idea clave es que esta estrategia debe ser adaptativa: una implementación fija basada únicamente en código falla consistentemente en gráficos complejos donde la representación simbólica no es adecuada. Este hallazgo nos lleva a introducir la Programabilidad Visual: una propiedad aprendible que determina si un par gráfico-pregunta se resuelve mejor con código o con un análisis visual directo. Implementamos este concepto en un marco adaptativo donde un VLM aprende a elegir entre la vía CaT y una vía de razonamiento visual directo. La política de selección del modelo se entrena con aprendizaje por refuerzo utilizando un novedoso sistema de recompensa dual. Este sistema combina una recompensa de precisión de datos para anclar el modelo en hechos y prevenir alucinaciones numéricas, con una recompensa de decisión que enseña al modelo cuándo usar cada estrategia, evitando que recurra a un único modo de razonamiento. Los experimentos demuestran un rendimiento sólido y robusto en diversos benchmarks de comprensión de gráficos. Nuestro trabajo muestra que los VLMs pueden ser enseñados no solo a razonar, sino también cómo razonar, seleccionando dinámicamente la vía de razonamiento óptima para cada tarea.
Los modelos de lenguaje de solo codificador (encoder-only) se utilizan frecuentemente para una variedad de tareas estándar de aprendizaje automático, incluyendo clasificación y recuperación. Sin embargo, ha habido una falta de investigación reciente sobre modelos de codificador, especialmente en lo que respecta a modelos multilingües. Presentamos mmBERT, un modelo de lenguaje de solo codificador preentrenado con 3 billones de tokens de texto multilingüe en más de 1800 idiomas. Para construir mmBERT, introducimos varios elementos novedosos, incluyendo un programa de relación de enmascaramiento inverso y una relación de muestreo de temperatura inversa. Añadimos más de 1700 idiomas de bajos recursos a la mezcla de datos solo durante la fase de decaimiento, demostrando que esto mejora drásticamente el rendimiento y maximiza las ganancias obtenidas de la cantidad relativamente pequeña de datos de entrenamiento. A pesar de incluir estos idiomas de bajos recursos solo en la breve fase de decaimiento, logramos un rendimiento de clasificación similar a modelos como el o3 de OpenAI y el Gemini 2.5 Pro de Google. En general, demostramos que mmBERT supera significativamente a la generación anterior de modelos en tareas de clasificación y recuperación, tanto en idiomas de altos como de bajos recursos.
La comprensión de las relaciones espaciales en 3D sigue siendo una limitación importante de los modelos actuales de visión y lenguaje (VLMs, por sus siglas en inglés). Trabajos previos han abordado este problema mediante la creación de conjuntos de datos de preguntas y respuestas (QA) espaciales basados en imágenes individuales o videos de interiores. Sin embargo, los agentes de IA integrados en el mundo real, como robots y vehículos autónomos, suelen depender de observaciones egocéntricas y multivista. Con este fin, presentamos Ego3D-Bench, un nuevo punto de referencia diseñado para evaluar las habilidades de razonamiento espacial de los VLMs utilizando datos egocéntricos y multivista de exteriores. Ego3D-Bench comprende más de 8,600 pares de QA, creados con una participación significativa de anotadores humanos para garantizar calidad y diversidad. Evaluamos 16 VLMs de última generación, incluyendo GPT-4o, Gemini1.5-Pro, InternVL3 y Qwen2.5-VL. Nuestros resultados revelan una brecha notable entre los puntajes de nivel humano y el rendimiento de los VLMs, destacando que los VLMs actuales aún no alcanzan el nivel de comprensión espacial humana. Para cerrar esta brecha, proponemos Ego3D-VLM, un marco de posentrenamiento que mejora el razonamiento espacial en 3D de los VLMs. Ego3D-VLM genera un mapa cognitivo basado en coordenadas globales 3D estimadas, lo que resulta en una mejora promedio del 12% en QA de opción múltiple y del 56% en la estimación de distancia absoluta. Ego3D-VLM es modular y puede integrarse con cualquier VLM existente. Juntos, Ego3D-Bench y Ego3D-VLM ofrecen herramientas valiosas para avanzar hacia una comprensión espacial de nivel humano en entornos reales y multivista.
Aunque el preentrenamiento de lenguaje e imagen contrastivo (CLIP) exhibe un rendimiento sólido en diversas tareas de visión, su aplicación al aprendizaje de representaciones de personas enfrenta dos desafíos críticos: (i) la escasez de datos anotados a gran escala de visión y lenguaje centrados en imágenes de personas, y (ii) las limitaciones inherentes del aprendizaje contrastivo global, que lucha por mantener características locales discriminativas cruciales para la coincidencia de grano fino mientras sigue siendo vulnerable a tokens de texto ruidosos. Este trabajo avanza CLIP para el aprendizaje de representaciones de personas mediante mejoras sinérgicas en la curación de datos y la arquitectura del modelo. Primero, desarrollamos una canalización de construcción de datos resistente al ruido que aprovecha las capacidades de aprendizaje en contexto de los MLLM para filtrar y describir automáticamente imágenes obtenidas de la web. Esto produce WebPerson, un conjunto de datos a gran escala de 5 millones de pares de imagen-texto de alta calidad centrados en personas. Segundo, introducimos el marco GA-DMS (Gradient-Attention Guided Dual-Masking Synergetic), que mejora la alineación multimodal al enmascarar adaptativamente tokens textuales ruidosos basados en la puntuación de similitud de atención-gradiente. Además, incorporamos objetivos de predicción de tokens enmascarados que obligan al modelo a predecir tokens de texto informativos, mejorando el aprendizaje de representación semántica de grano fino. Experimentos extensos muestran que GA-DMS alcanza un rendimiento de vanguardia en múltiples benchmarks.
El Gaussian Splatting (GS), una técnica reciente para convertir puntos discretos en representaciones espaciales continuas, ha mostrado resultados prometedores en el modelado de escenas 3D y la superresolución de imágenes 2D. En este artículo, exploramos su potencial no explotado para la restauración de imágenes (inpainting), que requiere tanto la síntesis de píxeles localmente coherente como la restauración semántica globalmente consistente. Proponemos el primer marco de restauración de imágenes basado en Gaussian Splatting 2D, que codifica imágenes incompletas en un campo continuo de coeficientes de splat gaussiano 2D y reconstruye la imagen final mediante un proceso de rasterización diferenciable. El paradigma de renderizado continuo del GS promueve inherentemente la coherencia a nivel de píxel en los resultados restaurados. Para mejorar la eficiencia y escalabilidad, introducimos una estrategia de rasterización por parches que reduce la sobrecarga de memoria y acelera la inferencia. Para la consistencia semántica global, incorporamos características de un modelo DINO preentrenado. Observamos que las características globales de DINO son naturalmente robustas ante pequeñas regiones faltantes y pueden adaptarse eficazmente para guiar la alineación semántica en escenarios con máscaras grandes, asegurando que el contenido restaurado permanezca contextualmente consistente con la escena circundante. Experimentos exhaustivos en benchmarks estándar demuestran que nuestro método logra un rendimiento competitivo tanto en métricas cuantitativas como en calidad perceptual, estableciendo una nueva dirección para la aplicación del Gaussian Splatting en el procesamiento de imágenes 2D.
Los recientes avances en los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) han abierto nuevas oportunidades para la inteligencia encarnada, permitiendo la comprensión multimodal, el razonamiento y la interacción, así como la toma de decisiones espaciales continua. Sin embargo, los sistemas encarnados basados en MLLM actuales enfrentan dos limitaciones críticas. Primero, la Brecha de Adaptabilidad Geométrica: los modelos entrenados únicamente con entradas 2D o con inyección de geometría 3D codificada de manera rígida sufren de información espacial insuficiente o generalización 2D restringida, lo que lleva a una mala adaptabilidad en tareas con diversas demandas espaciales. Segundo, la Brecha de Restricción de Encarnación: trabajos previos a menudo descuidan las limitaciones físicas y capacidades de los robots reales, resultando en planes de tareas que son teóricamente válidos pero prácticamente inviables. Para abordar estas brechas, presentamos OmniEVA, un planificador versátil encarnado que permite un razonamiento avanzado y planificación de tareas a través de dos innovaciones clave: (1) un Mecanismo de Anclaje 3D Adaptativo a la Tarea, que introduce un enrutador con compuerta para realizar una regulación selectiva explícita de la fusión 3D basada en los requisitos contextuales, permitiendo un anclaje 3D consciente del contexto para diversas tareas encarnadas. (2) un Marco de Razonamiento Consciente de la Encarnación que incorpora conjuntamente los objetivos de la tarea y las restricciones de encarnación en el ciclo de razonamiento, resultando en decisiones de planificación que son tanto dirigidas a objetivos como ejecutables. Los resultados experimentales extensivos demuestran que OmniEVA no solo alcanza un rendimiento de razonamiento encarnado general de vanguardia, sino que también exhibe una fuerte capacidad en una amplia gama de escenarios posteriores. Las evaluaciones de un conjunto de puntos de referencia propuestos para tareas encarnadas, incluyendo tanto tareas primitivas como compuestas, confirman sus capacidades de planificación robustas y versátiles. Página del proyecto: https://omnieva.github.io
Los recientes avances en los modelos de visión y lenguaje a gran escala (LVLMs, por sus siglas en inglés) han demostrado un rendimiento sólido en tareas médicas de propósito general. Sin embargo, su efectividad en dominios especializados como la odontología sigue siendo poco explorada. En particular, las radiografías panorámicas, una modalidad de imagen ampliamente utilizada en radiología oral, presentan desafíos interpretativos debido a las estructuras anatómicas densas y las señales patológicas sutiles, que no son capturadas por los puntos de referencia médicos existentes o los conjuntos de datos de instrucción. Con este fin, presentamos MMOral, el primer conjunto de datos y punto de referencia multimodal a gran escala diseñado específicamente para la interpretación de radiografías panorámicas. MMOral consta de 20,563 imágenes anotadas emparejadas con 1.3 millones de instancias de seguimiento de instrucciones en diversos tipos de tareas, incluyendo extracción de atributos, generación de informes, respuesta visual a preguntas y diálogo basado en imágenes. Además, presentamos MMOral-Bench, una suite de evaluación integral que cubre cinco dimensiones diagnósticas clave en odontología. Evaluamos 64 LVLMs en MMOral-Bench y encontramos que incluso el modelo con mejor rendimiento, es decir, GPT-4o, solo alcanza un 41.45% de precisión, revelando limitaciones significativas de los modelos actuales en este dominio. Para promover el progreso en este campo específico, también proponemos OralGPT, que realiza un ajuste fino supervisado (SFT) sobre Qwen2.5-VL-7B utilizando nuestro conjunto de datos de instrucciones MMOral cuidadosamente curado. Notablemente, una sola época de SFT produce mejoras sustanciales en el rendimiento de los LVLMs, por ejemplo, OralGPT demuestra una mejora del 24.73%. Tanto MMOral como OralGPT tienen un potencial significativo como base crítica para la odontología inteligente y permiten sistemas de IA multimodal con mayor impacto clínico en el campo dental. El conjunto de datos, el modelo, el punto de referencia y la suite de evaluación están disponibles en https://github.com/isbrycee/OralGPT.
El surgimiento de modelos de lenguaje de contexto largo, con ventanas de contexto que se extienden a millones de tokens, ha creado nuevas oportunidades para la comprensión sofisticada de código y la evaluación del desarrollo de software. Proponemos LoCoBench, un punto de referencia integral diseñado específicamente para evaluar modelos de lenguaje de contexto largo (LLMs) en escenarios realistas y complejos de desarrollo de software. A diferencia de los puntos de referencia existentes para la evaluación de código, que se centran en la completación de funciones individuales o tareas de contexto corto, LoCoBench aborda la brecha crítica en la evaluación de capacidades de contexto largo que requieren la comprensión de bases de código completas, el razonamiento a través de múltiples archivos y el mantenimiento de la consistencia arquitectónica en sistemas de software a gran escala. Nuestro punto de referencia ofrece 8,000 escenarios de evaluación generados sistemáticamente en 10 lenguajes de programación, con longitudes de contexto que van desde 10K hasta 1M tokens, una variación de 100x que permite una evaluación precisa de la degradación del rendimiento en contextos largos en entornos realistas de desarrollo de software. LoCoBench introduce 8 categorías de tareas que capturan capacidades esenciales de contexto largo: comprensión arquitectónica, refactorización entre archivos, desarrollo multi-sesión, investigación de errores, implementación de características, comprensión de código, pruebas de integración y análisis de seguridad. A través de una canalización de 5 fases, creamos escenarios diversos y de alta calidad que desafían a los LLMs a razonar sobre bases de código complejas a una escala sin precedentes. Introducimos un marco de evaluación integral con 17 métricas en 4 dimensiones, incluyendo 8 nuevas métricas de evaluación, combinadas en una Puntuación LoCoBench (LCBS). Nuestra evaluación de modelos de contexto largo de última generación revela brechas sustanciales en el rendimiento, demostrando que la comprensión de contexto largo en el desarrollo de software complejo representa un desafío significativo sin resolver que requiere más atención. LoCoBench está disponible en: https://github.com/SalesforceAIResearch/LoCoBench.
La navegación visual utilizando únicamente una cámara y un mapa topológico ha recientemente surgido como una alternativa atractiva a los métodos que requieren sensores adicionales y mapas 3D. Esto se logra típicamente mediante un enfoque "relativo a la imagen" para estimar el control a partir de un par dado de observación actual e imagen de subobjetivo. Sin embargo, las representaciones del mundo a nivel de imagen tienen limitaciones, ya que las imágenes están estrictamente vinculadas a la pose y la encarnación del agente. En contraste, los objetos, siendo una propiedad del mapa, ofrecen una representación del mundo invariante a la encarnación y la trayectoria. En este trabajo, presentamos un nuevo paradigma de aprendizaje de control "relativo a objetos" que exhibe varias características deseables: a) se pueden recorrer nuevas rutas sin necesidad estricta de imitar experiencias previas, b) el problema de predicción de control puede desacoplarse de la resolución del problema de emparejamiento de imágenes, y c) se puede lograr una alta invarianza en el despliegue cruzado de encarnaciones para variaciones tanto en los entornos de entrenamiento-prueba como en los de mapeo-ejecución. Proponemos una representación de mapa topométrico en forma de un grafo de escena 3D "relativo", que se utiliza para obtener costos de planificación de rutas globales más informativos a nivel de objetos. Entrenamos un controlador local, denominado "ObjectReact", condicionado directamente en una representación de alto nivel llamada "WayObject Costmap", que elimina la necesidad de una entrada RGB explícita. Demostramos las ventajas de aprender control relativo a objetos frente a su contraparte relativa a la imagen en variaciones de altura de sensores y múltiples tareas de navegación que desafían la capacidad subyacente de comprensión espacial, por ejemplo, navegar una trayectoria de mapa en dirección inversa. Además, mostramos que nuestra política entrenada solo en simulación es capaz de generalizar bien a entornos interiores del mundo real. El código y material complementario están disponibles en la página del proyecto: https://object-react.github.io/
Un paradoja central en el ajuste fino de Modelos de Lenguaje a Gran Escala (LLMs) con Aprendizaje por Refuerzo con Recompensa Verificable (RLVR) es la frecuente degradación del rendimiento en múltiples intentos (Pass@k) a pesar de las mejoras en la precisión de un solo intento (Pass@1). Esto suele ir acompañado de un olvido catastrófico, donde los modelos pierden habilidades previamente adquiridas. Aunque se han propuesto varios métodos, la elección y función del término de divergencia han sido sorprendentemente poco examinadas como una solución proactiva. Argumentamos que los objetivos estándar de RLVR —tanto aquellos que utilizan la divergencia KL inversa que busca el modo como aquellos que prescinden por completo de un término de divergencia— carecen de un mecanismo crucial para la retención de conocimiento. La KL inversa acelera activamente esta decadencia al estrechar la política, mientras que su ausencia no proporciona ninguna salvaguardia contra la deriva del modelo desde su base de conocimiento diversa. Proponemos un cambio fundamental de perspectiva: utilizar el término de divergencia como la solución en sí. Nuestro marco, Aprendizaje por Refuerzo Híbrido que Preserva la Diversidad (DPH-RL), aprovecha las divergencias f de cobertura masiva (como la KL directa y la divergencia JS) para funcionar como un mecanismo de repaso. Al hacer referencia continua a la política inicial, este enfoque obliga al modelo a mantener una cobertura amplia de soluciones. Experimentos extensos en generación de matemáticas y SQL demuestran que DPH-RL no solo resuelve la degradación de Pass@k, sino que mejora tanto Pass@1 como Pass@k dentro y fuera del dominio. Además, DPH-RL es más eficiente en términos de entrenamiento porque calcula la divergencia f utilizando funciones generadoras, requiriendo solo muestreo de la política inicial y ningún modelo de referencia en línea. Nuestro trabajo destaca un eje crucial y pasado por alto para mejorar RLVR, demostrando que la selección adecuada de una medida de divergencia es una herramienta poderosa para construir modelos de razonamiento más generales y diversos.
Las soluciones de aprendizaje profundo para la detección de vulnerabilidades propuestas en la investigación académica no siempre son accesibles para los desarrolladores, y su aplicabilidad en entornos industriales rara vez se aborda. La transferencia de estas tecnologías desde la academia a la industria presenta desafíos relacionados con la confiabilidad, los sistemas heredados, la alfabetización digital limitada y la brecha entre la experiencia académica e industrial. En particular, para el aprendizaje profundo, el rendimiento y la integración en los flujos de trabajo existentes son preocupaciones adicionales. En este trabajo, primero evaluamos el rendimiento de CodeBERT para detectar funciones vulnerables en software industrial y de código abierto. Analizamos su generalización entre dominios cuando se ajusta con datos de código abierto y se prueba con datos industriales, y viceversa, también explorando estrategias para manejar el desequilibrio de clases. Con base en estos resultados, desarrollamos AI-DO (Automatización de la Integración de Detección de Vulnerabilidades para las Operaciones de los Desarrolladores), un sistema de recomendación integrado en la Integración Continua-Despliegue Continuo (CI/CD) que utiliza CodeBERT ajustado para detectar y localizar vulnerabilidades durante la revisión de código sin interrumpir los flujos de trabajo. Finalmente, evaluamos la utilidad percibida de la herramienta mediante una encuesta con profesionales de TI de la empresa. Nuestros resultados muestran que los modelos entrenados con datos industriales detectan vulnerabilidades con precisión dentro del mismo dominio, pero pierden rendimiento en código abierto, mientras que un modelo de aprendizaje profundo ajustado con datos abiertos, utilizando técnicas adecuadas de submuestreo, mejora la detección de vulnerabilidades.
Los sistemas de recomendación multimodal se están convirtiendo cada vez más en tecnologías fundamentales para plataformas de comercio electrónico y contenido, permitiendo servicios personalizados mediante el modelado conjunto de los comportamientos históricos de los usuarios y las características multimodales de los ítems (por ejemplo, visuales y textuales). Sin embargo, la mayoría de los métodos existentes dependen de estrategias de fusión estáticas o del modelado de interacciones locales basadas en grafos, enfrentando dos limitaciones críticas: (1) capacidad insuficiente para modelar asociaciones cruzadas multimodales de grano fino, lo que lleva a una calidad de fusión subóptima; y (2) falta de consistencia a nivel de distribución global, causando sesgos representacionales. Para abordar estos problemas, proponemos MambaRec, un marco novedoso que integra la alineación local de características y la regularización global de distribución mediante aprendizaje guiado por atención. En su núcleo, introducimos el Módulo de Atención de Refinamiento Dilatado (DREAM), que utiliza convoluciones dilatadas multiescala con atención a nivel de canal y espacial para alinear patrones semánticos de grano fino entre las modalidades visual y textual. Este módulo captura relaciones jerárquicas y asociaciones conscientes del contexto, mejorando el modelado semántico cruzado. Además, aplicamos la Discrepancia de Media Máxima (MMD) y funciones de pérdida contrastiva para restringir la alineación global de modalidades, mejorando la consistencia semántica. Esta doble regularización reduce las desviaciones específicas de modo y aumenta la robustez. Para mejorar la escalabilidad, MambaRec emplea una estrategia de reducción de dimensionalidad para disminuir el costo computacional de las características multimodales de alta dimensión. Experimentos extensos en conjuntos de datos de comercio electrónico del mundo real muestran que MambaRec supera a los métodos existentes en calidad de fusión, generalización y eficiencia. Nuestro código ha sido puesto a disposición públicamente en https://github.com/rkl71/MambaRec.
Nuestro equipo, All You Need Is A Fuzzing Brain, fue uno de los siete finalistas en el Desafío de Ciberseguridad con Inteligencia Artificial (AIxCC) de DARPA, obteniendo el cuarto lugar en la ronda final. Durante la competencia, desarrollamos un Sistema de Razonamiento Cibernético (CRS, por sus siglas en inglés) que descubrió de manera autónoma 28 vulnerabilidades de seguridad —incluyendo seis zero-days previamente desconocidos— en proyectos de código abierto del mundo real escritos en C y Java, y logró parchear 14 de ellas. El CRS completo es de código abierto y está disponible en https://github.com/o2lab/afc-crs-all-you-need-is-a-fuzzing-brain. Este artículo proporciona una descripción técnica detallada de nuestro CRS, con especial énfasis en sus componentes y estrategias impulsados por LLM (Modelos de Lenguaje de Gran Escala). Basándonos en AIxCC, además presentamos un tablero de clasificación público para evaluar los LLM más avanzados en tareas de detección y parcheo de vulnerabilidades, derivadas del conjunto de datos de AIxCC. El tablero de clasificación está disponible en https://o2lab.github.io/FuzzingBrain-Leaderboard/.
Las primeras investigaciones sobre ataques de envenenamiento de datos contra Modelos de Lenguaje a Gran Escala (LLMs) demostraron la facilidad con la que se podían inyectar puertas traseras. Los LLMs más recientes incorporan razonamiento paso a paso, ampliando la superficie de ataque para incluir la cadena de pensamiento intermedia (CoT, por sus siglas en inglés) y su característica inherente de descomponer problemas en subproblemas. Utilizando estos vectores para un envenenamiento más sigiloso, introducimos el "envenenamiento de razonamiento descompuesto", en el que el atacante modifica únicamente la ruta de razonamiento, dejando limpios los prompts y las respuestas finales, y distribuye el activador entre múltiples componentes individualmente inofensivos. Curiosamente, aunque sigue siendo posible inyectar estos venenos descompuestos, activarlos de manera confiable para alterar las respuestas finales (en lugar de solo el CoT) resulta sorprendentemente difícil. Esta dificultad surge porque los modelos a menudo pueden recuperarse de las puertas traseras que se activan dentro de sus procesos de pensamiento. En última instancia, parece que una forma emergente de robustez contra puertas traseras se origina en las capacidades de razonamiento de estos LLMs avanzados, así como en la separación arquitectónica entre el razonamiento y la generación de respuestas finales.