Artículos de investigación en IA seleccionados diariamente con traducciones
A pesar de la rápida integración de capacidades de percepción de video en Modelos Multimodales Grandes (LMMs), los mecanismos subyacentes que impulsan su comprensión de video siguen siendo poco comprendidos. En consecuencia, muchas decisiones de diseño en este ámbito se toman sin una justificación o análisis adecuados. El alto costo computacional de entrenar y evaluar dichos modelos, junto con una investigación abierta limitada, obstaculiza el desarrollo de video-LMMs. Para abordar esto, presentamos un estudio exhaustivo que ayuda a descubrir qué impulsa efectivamente la comprensión de video en LMMs. Comenzamos examinando críticamente los principales contribuyentes a los altos requisitos computacionales asociados con la investigación de video-LMM y descubrimos la Consistencia de Escalado, donde las decisiones de diseño y entrenamiento tomadas en modelos y conjuntos de datos más pequeños (hasta un tamaño crítico) se transfieren efectivamente a modelos más grandes. Aprovechando estas ideas, exploramos muchos aspectos específicos del video en los video-LMMs, incluyendo el muestreo de video, arquitecturas, composición de datos, programación de entrenamiento y más. Por ejemplo, demostramos que el muestreo de fps durante el entrenamiento es ampliamente preferible al muestreo uniforme de fotogramas y cuáles codificadores de visión son los mejores para la representación de video. Guiados por estos hallazgos, presentamos Apollo, una familia de LMMs de última generación que logran un rendimiento superior en diferentes tamaños de modelo. Nuestros modelos pueden percibir videos de una hora de manera eficiente, con Apollo-3B superando a la mayoría de los modelos existentes de 7B con un impresionante 55.1 en LongVideoBench. Apollo-7B es de última generación en comparación con los LMMs de 7B con un 70.9 en MLVU y 63.3 en Video-MME.
Entender, navegar y explorar el mundo físico tridimensional ha sido durante mucho tiempo un desafío central en el desarrollo de la inteligencia artificial. En este trabajo, avanzamos hacia este objetivo al presentar GenEx, un sistema capaz de planificar una exploración del mundo compleja encarnada, guiada por su imaginación generativa que forma preconcepciones (expectativas) sobre los entornos circundantes. GenEx genera un entorno imaginativo completo y coherente en 3D a partir de tan solo una imagen RGB, dándole vida a través de secuencias de video panorámicas. Aprovechando datos de mundo 3D escalables seleccionados de Unreal Engine, nuestro modelo generativo se fundamenta en el mundo físico. Captura un entorno continuo de 360 grados con poco esfuerzo, ofreciendo un paisaje ilimitado para que los agentes de IA exploren e interactúen. GenEx logra una generación de mundo de alta calidad, una consistencia de bucle sólida a lo largo de trayectorias largas y demuestra sólidas capacidades en 3D como consistencia y mapeo 3D activo. Impulsados por la imaginación generativa del mundo, los agentes asistidos por GPT están equipados para realizar tareas encarnadas complejas, incluida la exploración sin un objetivo específico y la navegación dirigida por objetivos. Estos agentes utilizan expectativas predictivas sobre partes no vistas del mundo físico para refinar sus creencias, simular diferentes resultados basados en decisiones potenciales y tomar decisiones más informadas. En resumen, demostramos que GenEx proporciona una plataforma transformadora para avanzar en la IA encarnada en espacios imaginativos y ofrece el potencial de extender estas capacidades a la exploración del mundo real.
El notable éxito de los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) se ha extendido al dominio multimodal, logrando un rendimiento excepcional en la comprensión y generación de imágenes. Los esfuerzos recientes para desarrollar Modelos de Lenguaje Grandes Multimodales unificados (MLLMs) que integren estas capacidades han mostrado resultados prometedores. Sin embargo, los enfoques existentes a menudo implican diseños complejos en la arquitectura del modelo o en el proceso de entrenamiento, lo que aumenta la dificultad del entrenamiento y la escalabilidad del modelo. En este artículo, proponemos SynerGen-VL, un MLLM unificado simple pero potente sin codificador capaz de tanto comprender como generar imágenes. Para abordar los desafíos identificados en los MLLMs unificados existentes sin codificador, introducimos el mecanismo de plegado de tokens y la estrategia de preentrenamiento de alineación progresiva basada en expertos en visión, que respaldan eficazmente la comprensión de imágenes de alta resolución mientras se reduce la complejidad del entrenamiento. Después de ser entrenado en datos de imágenes y texto mixtos a gran escala con un objetivo unificado de predicción del siguiente token, SynerGen-VL logra o supera el rendimiento de los MLLMs unificados existentes sin codificador con tamaños de parámetros comparables o más pequeños, y reduce la brecha con los modelos de vanguardia específicos de tareas, destacando un camino prometedor hacia futuros MLLMs unificados. Nuestro código y modelos serán publicados.
A medida que la IA continúa avanzando, hay una creciente demanda de sistemas que vayan más allá de la asistencia basada en lenguaje y se dirijan hacia agentes inteligentes capaces de realizar acciones en el mundo real. Esta evolución requiere la transición de los tradicionales Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés), que sobresalen en la generación de respuestas textuales, a los Modelos de Acción Grandes (LAMs, por sus siglas en inglés), diseñados para la generación y ejecución de acciones dentro de entornos dinámicos. Habilitados por sistemas de agentes, los LAMs tienen el potencial de transformar la IA desde la comprensión pasiva del lenguaje hasta la finalización activa de tareas, marcando un hito significativo en la progresión hacia la inteligencia artificial general. En este documento, presentamos un marco integral para el desarrollo de LAMs, ofreciendo un enfoque sistemático para su creación, desde la concepción hasta la implementación. Comenzamos con una visión general de los LAMs, resaltando sus características únicas y delineando sus diferencias con los LLMs. Utilizando un agente basado en el sistema operativo Windows como estudio de caso, proporcionamos una guía detallada, paso a paso, sobre las etapas clave del desarrollo de LAMs, que incluyen la recopilación de datos, el entrenamiento del modelo, la integración del entorno, el enraizamiento y la evaluación. Este flujo de trabajo generalizable puede servir como un modelo para crear LAMs funcionales en diversos dominios de aplicación. Concluimos identificando las limitaciones actuales de los LAMs y discutiendo las direcciones para futuras investigaciones e implementaciones industriales, enfatizando los desafíos y oportunidades que se presentan en la realización del pleno potencial de los LAMs en aplicaciones del mundo real. El código para el proceso de recopilación de datos utilizado en este documento está disponible públicamente en: https://github.com/microsoft/UFO/tree/main/dataflow, y la documentación completa se puede encontrar en https://microsoft.github.io/UFO/dataflow/overview/.
Este documento presenta BiMediX2, un Modelo Multimodal Grande (LMM) experto en Bio-Medicina bilingüe (árabe-inglés) con una arquitectura unificada que integra modalidades de texto y visual, permitiendo una comprensión avanzada de imágenes y aplicaciones médicas. BiMediX2 aprovecha la arquitectura Llama3.1 e integra capacidades de texto y visual para facilitar interacciones fluidas tanto en inglés como en árabe, admitiendo entradas basadas en texto y conversaciones de múltiples turnos que involucran imágenes médicas. El modelo se entrena en un extenso conjunto de datos de atención médica bilingüe que consta de 1.6 millones de ejemplos de interacciones médicas diversas para ambas modalidades de texto e imagen, mezcladas en árabe e inglés. También proponemos el primer banco de pruebas bilingüe de LMM médico basado en GPT-4o llamado BiMed-MBench. BiMediX2 se evalúa en tareas basadas en texto e imagen, logrando un rendimiento de vanguardia en varios bancos de pruebas médicas. Supera a modelos de vanguardia recientes en bancos de pruebas de evaluación de LMM médicos. Nuestro modelo también establece un nuevo referente en evaluaciones médicas multimodales con más del 9% de mejora en inglés y más del 20% en evaluaciones en árabe. Además, supera a GPT-4 en aproximadamente un 9% en evaluaciones de precisión de hechos en UPHILL y destaca en varias tareas de Preguntas y Respuestas Visuales médicas, Generación de Informes y Resumen de Informes. La página del proyecto, que incluye el código fuente y el modelo entrenado, está disponible en https://github.com/mbzuai-oryx/BiMediX2.
Los modelos de difusión visual logran un progreso notable, sin embargo, suelen entrenarse a resoluciones limitadas debido a la falta de datos de alta resolución y recursos computacionales limitados, lo que dificulta su capacidad para generar imágenes o videos de alta fidelidad a resoluciones más altas. Esfuerzos recientes han explorado estrategias sin ajuste para mostrar el potencial no explotado de la generación visual de alta resolución de modelos pre-entrenados. Sin embargo, estos métodos aún tienden a producir contenido visual de baja calidad con patrones repetitivos. El principal obstáculo radica en el aumento inevitable de información de alta frecuencia cuando el modelo genera contenido visual que excede su resolución de entrenamiento, lo que conlleva a patrones repetitivos no deseados derivados de los errores acumulados. Para abordar este desafío, proponemos FreeScale, un paradigma de inferencia sin ajuste para permitir la generación visual de alta resolución a través de la fusión de escalas. Específicamente, FreeScale procesa información de diferentes escalas receptivas y luego la fusiona extrayendo componentes de frecuencia deseados. Experimentos extensos validan la superioridad de nuestro paradigma en la ampliación de las capacidades de generación visual de alta resolución tanto para modelos de imágenes como de videos. Notablemente, en comparación con el método anterior de mejor rendimiento, FreeScale desbloquea la generación de imágenes de resolución 8k por primera vez.
Exploramos el uso de la Cuantización Vectorial Residual (CVR) para la generación de alta fidelidad en modelos generativos cuantificados por vectores. Esta técnica de cuantización mantiene una mayor fidelidad de datos al emplear tokens más profundos. Sin embargo, aumentar el número de tokens en modelos generativos conlleva a velocidades de inferencia más lentas. Con este fin, presentamos ResGen, un modelo de difusión discreta eficiente basado en CVR que genera muestras de alta fidelidad sin comprometer la velocidad de muestreo. Nuestra idea clave es la predicción directa de la incrustación vectorial de tokens colectivos en lugar de individuales. Además, demostramos que nuestro método propuesto de enmascaramiento de tokens y predicción de múltiples tokens puede formularse dentro de un marco probabilístico fundamentado utilizando un proceso de difusión discreta e inferencia variacional. Validamos la eficacia y generalizabilidad del método propuesto en dos tareas desafiantes en diferentes modalidades: generación de imágenes condicionales en ImageNet 256x256 y síntesis de texto a voz sin ejemplos. Los resultados experimentales demuestran que ResGen supera a los contrapartes autoregresivos en ambas tareas, ofreciendo un rendimiento superior sin comprometer la velocidad de muestreo. Además, a medida que aumentamos la profundidad de CVR, nuestros modelos generativos muestran una mayor fidelidad de generación o velocidades de muestreo más rápidas en comparación con modelos base de tamaño similar. La página del proyecto se puede encontrar en https://resgen-genai.github.io
La generación de video a partir de texto ha evolucionado rápidamente en los últimos años, ofreciendo resultados notables. El entrenamiento suele basarse en datos emparejados de subtítulos de video, lo cual desempeña un papel crucial en mejorar el rendimiento de generación. Sin embargo, los subtítulos de video actuales a menudo adolecen de detalles insuficientes, alucinaciones y representaciones imprecisas del movimiento, lo que afecta la fidelidad y consistencia de los videos generados. En este trabajo, proponemos un nuevo marco de subtítulos estructurados conscientes de la instancia, denominado InstanceCap, para lograr por primera vez subtítulos de video a nivel de instancia y detallados. Basándonos en este esquema, diseñamos un grupo de modelos auxiliares para convertir el video original en instancias y mejorar la fidelidad de las instancias. Las instancias de video se utilizan además para refinar las indicaciones densas en frases estructuradas, logrando descripciones concisas pero precisas. Además, se ha creado un conjunto de datos de 22K instancias de video para el entrenamiento, y se propone un proceso de mejora adaptado a la estructura de InstanceCap para la inferencia. Los resultados experimentales demuestran que nuestro InstanceCap propuesto supera significativamente a modelos anteriores, garantizando una alta fidelidad entre los subtítulos y los videos al tiempo que reduce las alucinaciones.
Este documento presenta un método sin ajustes para la inserción de objetos y la generación impulsada por el sujeto. La tarea implica componer un objeto, dado múltiples vistas, en una escena especificada ya sea por una imagen o texto. Los métodos existentes tienen dificultades para cumplir completamente con los objetivos desafiantes de la tarea: (i) componer el objeto en la escena de manera fluida con una pose y una iluminación fotorrealistas, y (ii) preservar la identidad del objeto. Hipotetizamos que lograr estos objetivos requiere supervisión a gran escala, pero recolectar manualmente suficientes datos es simplemente demasiado costoso. La observación clave en este documento es que muchos objetos producidos en masa se repiten en múltiples imágenes de grandes conjuntos de datos no etiquetados, en diferentes escenas, poses y condiciones de iluminación. Utilizamos esta observación para crear una supervisión masiva recuperando conjuntos de vistas diversas del mismo objeto. Este potente conjunto de datos emparejados nos permite entrenar una arquitectura de difusión directa de texto a imagen para mapear las descripciones del objeto y la escena a la imagen compuesta. Comparamos nuestro método, ObjectMate, con los métodos de vanguardia para la inserción de objetos y la generación impulsada por el sujeto, utilizando una o múltiples referencias. Empíricamente, ObjectMate logra una preservación de identidad superior y una composición más fotorrealista. A diferencia de muchos otros métodos de múltiples referencias, ObjectMate no requiere ajustes lentos en el tiempo de prueba.
Aunque los Flujos Rectificados (ReFlows) con destilación ofrecen una forma prometedora de muestreo rápido, su rápida inversión transforma las imágenes de vuelta a ruido estructurado para la recuperación y la edición posterior, lo cual sigue sin resolverse. Este artículo presenta FireFlow, un enfoque simple pero efectivo de cero disparos que hereda la sorprendente capacidad de los modelos basados en ReFlow (como FLUX) en generación, al tiempo que extiende sus capacidades a la inversión precisa y la edición en 8 pasos. Primero demostramos que un solucionador numérico cuidadosamente diseñado es fundamental para la inversión de ReFlow, permitiendo una inversión y reconstrucción precisas con la precisión de un solucionador de segundo orden, al mismo tiempo que mantiene la eficiencia práctica de un método de Euler de primer orden. Este solucionador logra una aceleración de 3 veces en el tiempo de ejecución en comparación con las técnicas de inversión y edición de ReFlow de última generación, al tiempo que ofrece errores de reconstrucción más pequeños y resultados de edición superiores en un modo sin entrenamiento. El código está disponible en https://github.com/HolmesShuan/FireFlow{esta URL}.
Los LLMs de largo contexto han permitido numerosas aplicaciones secundarias, pero también han introducido desafíos significativos relacionados con la eficiencia computacional y de memoria. Para abordar estos desafíos, se han desarrollado optimizaciones para la inferencia de largo contexto, centradas en la caché KV. Sin embargo, los benchmarks existentes a menudo evalúan en solicitudes individuales, descuidando el ciclo de vida completo de la caché KV en el uso del mundo real. Esta omisión es particularmente crítica, ya que la reutilización de la caché KV se ha adoptado ampliamente en los marcos de inferencia de LLMs, como vLLM y SGLang, así como por proveedores de LLMs, incluidos OpenAI, Microsoft, Google y Anthropic. Para abordar esta brecha, presentamos SCBench (SharedContextBench), un benchmark integral para evaluar métodos de largo contexto desde una perspectiva centrada en la caché KV: 1) generación de caché KV, 2) compresión de caché KV, 3) recuperación de caché KV, 4) carga de caché KV. Específicamente, SCBench utiliza ejemplos de prueba con contexto compartido, abarcando 12 tareas con dos modos de contexto compartido, cubriendo cuatro categorías de capacidades de largo contexto: recuperación de cadenas, recuperación semántica, información global y multi-tarea. Con ello, proporcionamos un análisis extenso centrado en la caché KV de ocho categorías de soluciones de largo contexto, incluidas RNNs lineales con compuertas, híbridos Mamba-Attention y métodos eficientes como atención dispersa, eliminación de caché KV, cuantificación, recuperación, carga y compresión de indicaciones. La evaluación se lleva a cabo en 8 LLMs de largo contexto. Nuestros hallazgos muestran que los métodos de memoria sub-O(n) sufren en escenarios de múltiples turnos, mientras que la codificación dispersa con memoria O(n) y computación de pre-llenado sub-O(n^2) tienen un rendimiento sólido. La dispersión dinámica produce cachés KV más expresivos que los patrones estáticos, y la dispersión a nivel de capa en arquitecturas híbridas reduce el uso de memoria con un rendimiento sólido. Además, identificamos problemas de cambio en la distribución de atención en escenarios de generación larga. https://aka.ms/SCBench.
La generación de video a partir de texto mejora la creación de contenido pero es altamente intensiva en cómputo: el costo computacional de los Transformadores de Difusión (DiTs) escala cuadráticamente con el número de píxeles. Esto hace que la generación de videos de duración de minutos sea extremadamente costosa, limitando a la mayoría de los modelos existentes a generar videos de solo 10-20 segundos de duración. Proponemos un marco de Generación de Video Lineal (LinGen) cuyo costo escala linealmente con el número de píxeles. Por primera vez, LinGen permite la generación de videos de alta resolución de duración de minutos en una sola GPU sin comprometer la calidad. Reemplaza el bloque dominante computacionalmente y de complejidad cuadrática, la autoatención, con un bloque de complejidad lineal llamado MATE, que consta de una rama MA y una rama TE. La rama MA se enfoca en correlaciones de corto a largo alcance, combinando un bloque bidireccional Mamba2 con nuestro método de reorganización de tokens, Escaneo Mayor Rotativo, y nuestros tokens de revisión desarrollados para generación de videos largos. La rama TE es un bloque de Atención Swin Temporal novedoso que se centra en correlaciones temporales entre tokens adyacentes y tokens de rango medio. El bloque MATE aborda el problema de preservación de la adyacencia de Mamba y mejora significativamente la consistencia de los videos generados. Los resultados experimentales muestran que LinGen supera a DiT (con una tasa de victoria del 75.6%) en calidad de video con una reducción de hasta 15 veces (11.5 veces) en FLOPs (latencia). Además, tanto las métricas automáticas como la evaluación humana demuestran que nuestro LinGen-4B produce una calidad de video comparable a los modelos de vanguardia (con una tasa de victoria del 50.5%, 52.1%, 49.1% con respecto a Gen-3, LumaLabs y Kling, respectivamente). Esto allana el camino para la generación de películas de duración de horas y la generación de video interactiva en tiempo real. Proporcionamos resultados de generación de video de 68 segundos y más ejemplos en nuestro sitio web del proyecto: https://lineargen.github.io/.
Los modelos de flujo rectificado han surgido como un enfoque dominante en la generación de imágenes, mostrando impresionantes capacidades en la síntesis de imágenes de alta calidad. Sin embargo, a pesar de su efectividad en la generación visual, los modelos de flujo rectificado a menudo tienen dificultades con la edición desentrelazada de imágenes. Esta limitación impide la capacidad de realizar modificaciones precisas y específicas de atributos sin afectar aspectos no relacionados de la imagen. En este documento, presentamos FluxSpace, un método de edición de imágenes agnóstico al dominio que aprovecha un espacio de representación con la capacidad de controlar la semántica de las imágenes generadas por transformadores de flujo rectificado, como Flux. Al aprovechar las representaciones aprendidas por los bloques transformadores dentro de los modelos de flujo rectificado, proponemos un conjunto de representaciones semánticamente interpretables que permiten una amplia gama de tareas de edición de imágenes, desde la edición de imágenes detallada hasta la creación artística. Este trabajo ofrece un enfoque escalable y efectivo para la edición de imágenes, junto con sus capacidades de desentrelazado.
La generación de música multimodal tiene como objetivo producir música a partir de diversas modalidades de entrada, incluyendo texto, videos e imágenes. Los métodos existentes utilizan un espacio de incrustación común para la fusión multimodal. A pesar de su efectividad en otras modalidades, su aplicación en la generación de música multimodal enfrenta desafíos de escasez de datos, débil alineación cruzada entre modalidades y limitada controlabilidad. Este artículo aborda estos problemas mediante el uso de puentes explícitos de texto y música para la alineación multimodal. Introducimos un método novedoso llamado Puente de Música Visual (VMB). Específicamente, un Modelo de Descripción de Música Multimodal convierte las entradas visuales en descripciones textuales detalladas para proporcionar el puente de texto; un módulo de Recuperación de Música de Doble Pista que combina estrategias de recuperación amplia y dirigida para proporcionar el puente de música y permitir el control del usuario. Finalmente, diseñamos un marco de Generación de Música Excluyentemente Condicionado para generar música basada en los dos puentes. Realizamos experimentos en tareas de video a música, imagen a música, texto a música y generación de música controlable, junto con experimentos sobre controlabilidad. Los resultados demuestran que VMB mejora significativamente la calidad de la música, la modalidad y la alineación de personalización en comparación con métodos anteriores. VMB establece un nuevo estándar para la generación de música multimodal interpretable y expresiva con aplicaciones en varios campos multimedia. Las demostraciones y el código están disponibles en https://github.com/wbs2788/VMB.
La efectividad de los modelos de lenguaje grandes (LLMs) está estrechamente ligada al diseño de las indicaciones, lo que hace que la optimización de las indicaciones sea esencial para mejorar su rendimiento en una amplia gama de tareas. Muchos enfoques existentes para automatizar la ingeniería de indicaciones se basan exclusivamente en la retroalimentación textual, refinando las indicaciones únicamente en función de los errores de inferencia identificados por los LLMs grandes y computacionalmente costosos. Desafortunadamente, los modelos más pequeños tienen dificultades para generar retroalimentación de alta calidad, lo que resulta en una dependencia total del juicio de los LLMs grandes. Además, estos métodos no aprovechan la información más directa y detallada, como los gradientes, debido a que operan puramente en el espacio de texto. Con este fin, presentamos GReaTer, una novedosa técnica de optimización de indicaciones que incorpora directamente información de gradientes sobre el razonamiento específico de la tarea. Al utilizar los gradientes de pérdida de la tarea, GReaTer permite la auto-optimización de las indicaciones para modelos de lenguaje ligeros de código abierto sin necesidad de costosos LLMs de código cerrado. Esto permite una optimización de indicaciones de alto rendimiento sin depender de LLMs masivos, cerrando la brecha entre los modelos más pequeños y el razonamiento sofisticado a menudo necesario para el refinamiento de las indicaciones. Evaluaciones extensas en diversas tareas de razonamiento, incluidas BBH, GSM8k y FOLIO, demuestran que GReaTer supera consistentemente a los métodos anteriores de optimización de indicaciones de vanguardia, incluso aquellos que dependen de potentes LLMs. Además, las indicaciones optimizadas por GReaTer muestran frecuentemente una mejor transferibilidad y, en algunos casos, mejoran el rendimiento de la tarea a niveles comparables o superiores a los logrados por modelos de lenguaje más grandes, destacando la efectividad de la optimización de indicaciones guiada por gradientes sobre el razonamiento. El código de GReaTer está disponible en https://github.com/psunlpgroup/GreaTer.
Presentamos SmolTulu-1.7b-Instruct, referido en este informe como SmolTulu-DPO-1130, un modelo de lenguaje ajustado a instrucciones que adapta el pipeline de post-entrenamiento Tulu 3 de AllenAI para mejorar el modelo base SmolLM2-1.7B de Huggingface. A través de un análisis empírico exhaustivo utilizando un modelo de 135 millones de parámetros, demostramos que la relación entre la tasa de aprendizaje y el tamaño del lote impacta significativamente en el rendimiento del modelo de manera dependiente de la tarea. Nuestros hallazgos revelan una clara división: las tareas de razonamiento como ARC y GSM8K se benefician de relaciones más altas entre la tasa de aprendizaje y el tamaño del lote, mientras que tareas de reconocimiento de patrones como HellaSwag e IFEval muestran un rendimiento óptimo con relaciones más bajas. Estas percepciones informaron el desarrollo de SmolTulu, que logra un rendimiento de vanguardia entre los modelos de menos de 2 mil millones de parámetros en el seguimiento de instrucciones, obteniendo un 67.7% en IFEval (Delta11%), y en razonamiento matemático con un 51.6% en GSM8K (Delta3.4%), con una versión alternativa logrando un 57.1% en ARC (Delta5.4%). Publicamos nuestro modelo, recetas de entrenamiento y estudios de ablación para facilitar investigaciones adicionales en la alineación eficiente de modelos, demostrando que la adaptación cuidadosa de la dinámica de optimización puede ayudar a cerrar la brecha de capacidad entre modelos de lenguaje pequeños y grandes.
Aunque los modelos grandes de visión-lenguaje-acción (VLA) preentrenados en extensos conjuntos de datos de robots ofrecen políticas generalistas prometedoras para el aprendizaje robótico, aún enfrentan dificultades con la dinámica espacio-temporal en la robótica interactiva, lo que los hace menos efectivos para manejar tareas complejas, como la manipulación. En este trabajo, introducimos la inducción visual de trazas, un enfoque simple pero efectivo para facilitar la conciencia espacio-temporal de los modelos VLA para la predicción de acciones mediante la codificación visual de trayectorias estado-acción. Desarrollamos un nuevo modelo TraceVLA mediante el ajuste fino de OpenVLA en nuestro propio conjunto de datos recopilado de 150K trayectorias de manipulación de robots utilizando la inducción visual de trazas. Las evaluaciones de TraceVLA en 137 configuraciones en SimplerEnv y 4 tareas en un robot físico WidowX demuestran un rendimiento de vanguardia, superando a OpenVLA en un 10% en SimplerEnv y 3.5 veces en tareas de robots reales, mostrando una generalización robusta en diversos cuerpos y escenarios. Para validar aún más la efectividad y generalidad de nuestro método, presentamos un modelo VLA compacto basado en 4B Phi-3-Vision, preentrenado en Open-X-Embodiment y ajustado fino en nuestro conjunto de datos, que rivaliza con el modelo base 7B OpenVLA mientras mejora significativamente la eficiencia de inferencia.
Las redes neuronales profundas (DNNs) ofrecen una promesa significativa para mejorar el diagnóstico del cáncer de mama en imágenes médicas. Sin embargo, estos modelos son altamente susceptibles a ataques adversariales, es decir, cambios pequeños e imperceptibles que pueden inducir a error a los clasificadores, lo que plantea preocupaciones críticas sobre su fiabilidad y seguridad. Los ataques tradicionales se basan en perturbaciones de norma fija, desalineadas con la percepción humana. En contraste, los ataques basados en difusión requieren modelos pre-entrenados, lo que exige una cantidad sustancial de datos cuando estos modelos no están disponibles, limitando su uso práctico en escenarios con escasez de datos. En imágenes médicas, sin embargo, esto a menudo resulta inviable debido a la disponibilidad limitada de conjuntos de datos. Basándonos en los avances recientes en indicaciones aprendibles, proponemos Prompt2Perturb (P2P), un novedoso método de ataque guiado por lenguaje capaz de generar ejemplos de ataque significativos impulsados por instrucciones de texto. Durante la fase de aprendizaje de la indicación, nuestro enfoque aprovecha las indicaciones aprendibles dentro del codificador de texto para crear perturbaciones sutiles pero impactantes que permanecen imperceptibles mientras guían al modelo hacia resultados específicos. En contraste con los enfoques actuales basados en el aprendizaje de indicaciones, nuestro P2P se destaca al actualizar directamente los incrustamientos de texto, evitando la necesidad de volver a entrenar modelos de difusión. Además, aprovechamos el hallazgo de que optimizar solo los primeros pasos de difusión inversa mejora la eficiencia al garantizar que los ejemplos adversariales generados incorporen ruido sutil, preservando así la calidad de la imagen de ultrasonido sin introducir artefactos notables. Demostramos que nuestro método supera a las técnicas de ataque de vanguardia en tres conjuntos de datos de ultrasonido mamario en FID y LPIPS. Además, las imágenes generadas son tanto más naturales en apariencia como más efectivas en comparación con los ataques adversariales existentes. Nuestro código estará disponible públicamente en https://github.com/yasamin-med/P2P.