Artículos de investigación en IA seleccionados diariamente con traducciones
Si bien los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) demuestran capacidades notables en imágenes estáticas, a menudo se quedan cortos en la comprensión de videos cortos dinámicos y densos en información, un medio dominante en el panorama digital actual. Para cerrar esta brecha, presentamos Kwai Keye-VL, un modelo base multimodal de 8 mil millones de parámetros diseñado para un rendimiento líder en la comprensión de videos cortos, manteniendo al mismo tiempo sólidas capacidades generales de visión y lenguaje. El desarrollo de Keye-VL se basa en dos pilares fundamentales: un conjunto de datos masivo y de alta calidad que supera los 600 mil millones de tokens, con un fuerte énfasis en video, y una receta de entrenamiento innovadora. Esta receta incluye un proceso de preentrenamiento en cuatro etapas para una alineación sólida entre visión y lenguaje, seguido de un meticuloso proceso de postentrenamiento en dos fases. La primera etapa de postentrenamiento mejora capacidades fundamentales como el seguimiento de instrucciones, mientras que la segunda fase se centra en estimular el razonamiento avanzado. En esta segunda fase, una innovación clave es nuestra mezcla de datos de "arranque en frío" de cinco modos, que incluye "pensar", "no pensar", "auto-pensar", "pensar con imagen" y datos de video de alta calidad. Esta mezcla enseña al modelo a decidir cuándo y cómo razonar. Los pasos posteriores de aprendizaje por refuerzo (RL, por sus siglas en inglés) y alineación mejoran aún más estas capacidades de razonamiento y corrigen comportamientos anómalos del modelo, como salidas repetitivas. Para validar nuestro enfoque, realizamos evaluaciones exhaustivas, mostrando que Keye-VL alcanza resultados de vanguardia en benchmarks públicos de video y sigue siendo altamente competitivo en tareas generales basadas en imágenes (Figura 1). Además, desarrollamos y publicamos el KC-MMBench, un nuevo benchmark diseñado para escenarios reales de videos cortos, donde Keye-VL muestra una ventaja significativa.
La colorización de animaciones es una parte crucial de la producción en la industria de la animación real. La colorización de animaciones largas tiene altos costos laborales. Por lo tanto, la colorización automatizada de animaciones largas basada en modelos de generación de video tiene un valor de investigación significativo. Los estudios existentes se limitan a la colorización a corto plazo. Estos estudios adoptan un paradigma local, fusionando características superpuestas para lograr transiciones suaves entre segmentos locales. Sin embargo, el paradigma local descuida la información global, lo que impide mantener la consistencia de color a largo plazo. En este estudio, argumentamos que la consistencia de color ideal a largo plazo puede lograrse mediante un paradigma global-local dinámico, es decir, extrayendo dinámicamente características globales consistentes en color relevantes para la generación actual. Específicamente, proponemos LongAnimation, un marco novedoso que incluye principalmente un SketchDiT, una Memoria Global-Local Dinámica (DGLM) y una Recompensa de Consistencia de Color. El SketchDiT captura características de referencia híbridas para apoyar el módulo DGLM. El módulo DGLM emplea un modelo de comprensión de video largo para comprimir dinámicamente características históricas globales y fusionarlas de manera adaptativa con las características de la generación actual. Para refinar la consistencia de color, introducimos una Recompensa de Consistencia de Color. Durante la inferencia, proponemos una fusión de consistencia de color para suavizar la transición entre segmentos de video. Experimentos extensos en animaciones tanto a corto plazo (14 fotogramas) como a largo plazo (promedio de 500 fotogramas) muestran la efectividad de LongAnimation en mantener la consistencia de color a corto y largo plazo para la tarea de colorización de animaciones de dominio abierto. El código se puede encontrar en https://cn-makers.github.io/long_animation_web/.
Presentamos Depth Anything at Any Condition (DepthAnything-AC), un modelo fundamental de estimación de profundidad monocular (MDE, por sus siglas en inglés) capaz de manejar diversas condiciones ambientales. Los modelos fundamentales de MDE anteriores logran un rendimiento impresionante en escenas generales, pero no se desempeñan bien en entornos complejos del mundo real que involucran condiciones desafiantes, como variaciones de iluminación, clima adverso y distorsiones inducidas por sensores. Para superar los desafíos de la escasez de datos y la incapacidad de generar pseudoetiquetas de alta calidad a partir de imágenes corruptas, proponemos un paradigma de ajuste fino de regularización de consistencia no supervisado que requiere solo una cantidad relativamente pequeña de datos no etiquetados. Además, proponemos la Restricción de Distancia Espacial para imponer explícitamente que el modelo aprenda relaciones relativas a nivel de parche, lo que resulta en límites semánticos más claros y detalles más precisos. Los resultados experimentales demuestran las capacidades de generalización sin entrenamiento previo (zero-shot) de DepthAnything-AC en diversos benchmarks, incluyendo benchmarks de clima adverso en el mundo real, benchmarks de corrupción sintética y benchmarks generales. Página del proyecto: https://ghost233lism.github.io/depthanything-AC-page Código: https://github.com/HVision-NKU/DepthAnythingAC
Los notables avances de los modelos fundamentales de visión y lenguaje en la comprensión, razonamiento y generación multimodal han impulsado esfuerzos crecientes para extender dicha inteligencia al mundo físico, fomentando el florecimiento de los modelos de visión-lenguaje-acción (VLA). A pesar de enfoques aparentemente diversos, observamos que los modelos VLA actuales pueden unificarse bajo un único marco: las entradas de visión y lenguaje son procesadas por una serie de módulos VLA, produciendo una cadena de tokens de acción que codifican progresivamente información más concreta y accionable, generando finalmente acciones ejecutables. Además, determinamos que la principal elección de diseño que distingue a los modelos VLA radica en cómo se formulan los tokens de acción, los cuales pueden categorizarse en descripción lingüística, código, affordance, trayectoria, estado objetivo, representación latente, acción bruta y razonamiento. Sin embargo, aún existe una falta de comprensión integral sobre los tokens de acción, lo que dificulta significativamente el desarrollo efectivo de los modelos VLA y oscurece las direcciones futuras. Por lo tanto, este estudio tiene como objetivo categorizar e interpretar la investigación existente en VLA a través de la lente de la tokenización de acción, destilar las fortalezas y limitaciones de cada tipo de token, e identificar áreas de mejora. A través de esta revisión y análisis sistemático, ofrecemos una perspectiva sintetizada sobre la evolución más amplia de los modelos VLA, destacamos direcciones poco exploradas pero prometedoras, y contribuimos con orientaciones para futuras investigaciones, con la esperanza de acercar el campo a la inteligencia de propósito general.
Presentamos FreeMorph, el primer método de morfología de imágenes sin ajuste que admite entradas con diferentes semánticas o diseños. A diferencia de los métodos existentes que dependen del ajuste fino de modelos de difusión preentrenados y están limitados por restricciones de tiempo y discrepancias semánticas/de diseño, FreeMorph ofrece morfología de imágenes de alta fidelidad sin requerir entrenamiento por instancia. A pesar de su eficiencia y potencial, los métodos sin ajuste enfrentan desafíos para mantener resultados de alta calidad debido a la naturaleza no lineal del proceso de eliminación de ruido en múltiples pasos y los sesgos heredados del modelo de difusión preentrenado. En este artículo, introducimos FreeMorph para abordar estos desafíos mediante la integración de dos innovaciones clave. 1) Primero proponemos un diseño de interpolación esférica consciente de la guía que incorpora guía explícita de las imágenes de entrada modificando los módulos de autoatención, abordando así la pérdida de identidad y asegurando transiciones direccionales a lo largo de la secuencia generada. 2) Además, introducimos una tendencia de variación orientada a pasos que combina módulos de autoatención derivados de cada imagen de entrada para lograr transiciones controladas y consistentes que respeten ambas entradas. Nuestras evaluaciones exhaustivas demuestran que FreeMorph supera a los métodos existentes, siendo de 10x a 50x más rápido y estableciendo un nuevo estado del arte en morfología de imágenes.
Presentamos la Decodificación Paralela con Conciencia de Localidad (LPD) para acelerar la generación autoregresiva de imágenes. La generación autoregresiva tradicional de imágenes se basa en la predicción del siguiente parche, un proceso limitado por la memoria que resulta en una alta latencia. Trabajos existentes han intentado paralelizar la predicción del siguiente parche cambiando a la predicción de múltiples parches para acelerar el proceso, pero solo han logrado una paralelización limitada. Para alcanzar una alta paralelización manteniendo la calidad de la generación, introducimos dos técnicas clave: (1) Modelado Autoregresivo Paralelizado Flexible, una arquitectura novedosa que permite un orden de generación arbitrario y grados de paralelización. Utiliza tokens de consulta de posición aprendibles para guiar la generación en posiciones objetivo mientras asegura visibilidad mutua entre tokens generados concurrentemente para una decodificación paralela consistente. (2) Orden de Generación con Conciencia de Localidad, un esquema novedoso que forma grupos para minimizar las dependencias intra-grupo y maximizar el soporte contextual, mejorando la calidad de la generación. Con estos diseños, reducimos los pasos de generación de 256 a 20 (resolución 256x256) y de 1024 a 48 (resolución 512x512) sin comprometer la calidad en la generación condicionada por clases de ImageNet, logrando al menos 3.4 veces menos latencia que los modelos autoregresivos paralelizados anteriores.
La conexión intrínseca entre el movimiento facial y el habla a menudo se pasa por alto en el modelado generativo, donde la síntesis de cabezas parlantes y la conversión de texto a voz (TTS) suelen abordarse como tareas separadas. Este artículo presenta JAM-Flow, un marco unificado para sintetizar y condicionar simultáneamente tanto el movimiento facial como el habla. Nuestro enfoque aprovecha el emparejamiento de flujos y una novedosa arquitectura de Transformador de Difusión Multi-Modal (MM-DiT), que integra módulos especializados Motion-DiT y Audio-DiT. Estos están acoplados mediante capas de atención conjunta selectiva e incorporan decisiones arquitectónicas clave, como incrustaciones posicionales temporalmente alineadas y enmascaramiento de atención conjunta localizada, para permitir una interacción multimodal efectiva mientras se preservan las fortalezas específicas de cada modalidad. Entrenado con un objetivo de estilo de inpainting, JAM-Flow admite una amplia variedad de entradas de condicionamiento, incluyendo texto, audio de referencia y movimiento de referencia, facilitando tareas como la generación sincronizada de cabezas parlantes a partir de texto, animación impulsada por audio y mucho más, dentro de un único modelo coherente. JAM-Flow avanza significativamente en el modelado generativo multimodal al proporcionar una solución práctica para la síntesis audiovisual holística. Página del proyecto: https://joonghyuk.com/jamflow-web.
Los métodos anteriores de edición de videos guiados por texto a menudo sufren de inconsistencia temporal, distorsión de movimiento y, lo más notable, una transformación de dominio limitada. Atribuimos estas limitaciones a una modelización insuficiente de la relevancia espacio-temporal de los píxeles durante el proceso de edición. Para abordar esto, proponemos STR-Match, un algoritmo de edición de videos sin entrenamiento que produce videos visualmente atractivos y espaciotemporalmente coherentes mediante una optimización latente guiada por nuestra novedosa puntuación STR. Esta puntuación captura la relevancia espacio-temporal de los píxeles en fotogramas adyacentes al aprovechar módulos de atención espacial 2D y temporal 1D en modelos de difusión de texto a video (T2V), sin la sobrecarga de mecanismos de atención 3D computacionalmente costosos. Integrado en un marco de optimización latente con una máscara latente, STR-Match genera videos temporalmente consistentes y visualmente fieles, manteniendo un rendimiento sólido incluso bajo transformaciones de dominio significativas mientras preserva los atributos visuales clave de la fuente. Experimentos extensos demuestran que STR-Match supera consistentemente a los métodos existentes tanto en calidad visual como en coherencia espaciotemporal.
Las aplicaciones científicas del aprendizaje automático a menudo dependen de modelos pequeños y especializados ajustados a dominios particulares. Dichos modelos suelen alcanzar un rendimiento excelente, pero carecen de flexibilidad. Los modelos fundamentales ofrecen versatilidad, pero generalmente tienen un rendimiento inferior a los enfoques especializados, especialmente en modalidades no tradicionales y dominios de cola larga. Proponemos MARVIS (Razonamiento Adaptativo a la Modalidad sobre VISualizaciones), un método sin entrenamiento que permite incluso a modelos pequeños de visión y lenguaje predecir cualquier modalidad de datos con alta precisión. MARVIS transforma los espacios de incrustación latente en representaciones visuales y luego aprovecha las habilidades de razonamiento espacial y detallado de los modelos de visión y lenguaje (VLMs) para interpretarlos y utilizarlos con éxito. MARVIS logra un rendimiento competitivo en dominios de visión, audio, biológicos y tabulares utilizando un único modelo de 3 mil millones de parámetros, obteniendo resultados que superan a Gemini en un 16% en promedio y se acercan a los métodos especializados, sin exponer información personal identificable (P.I.I.) ni requerir entrenamiento específico del dominio. Publicamos nuestro código y conjuntos de datos en https://github.com/penfever/marvis.