Artículos de investigación en IA seleccionados diariamente con traducciones
La edición de imágenes implica una variedad de tareas complejas y requiere técnicas de manipulación eficientes y precisas. En este artículo, presentamos MagicQuill, un sistema integrado de edición de imágenes que permite la rápida realización de ideas creativas. Nuestro sistema cuenta con una interfaz simplificada pero funcionalmente robusta, que permite la articulación de operaciones de edición (por ejemplo, inserción de elementos, borrado de objetos, alteración de color) con una entrada mínima. Estas interacciones son monitoreadas por un modelo de lenguaje multimodal grande (MLLM) para anticipar las intenciones de edición en tiempo real, evitando la necesidad de una entrada explícita de comandos. Finalmente, aplicamos un potente prior de difusión, mejorado por un módulo de complemento de dos ramas cuidadosamente aprendido, para procesar solicitudes de edición con un control preciso. Los resultados experimentales demuestran la efectividad de MagicQuill en lograr ediciones de imágenes de alta calidad. Por favor, visite https://magic-quill.github.io para probar nuestro sistema.
Este trabajo explora la expansión de las capacidades de grandes modelos de lenguaje (LLMs) preentrenados en texto para generar mallas 3D dentro de un modelo unificado. Esto ofrece ventajas clave de (1) aprovechar el conocimiento espacial ya integrado en los LLMs, derivado de fuentes textuales como tutoriales 3D, y (2) permitir la generación conversacional 3D y la comprensión de mallas. Un desafío principal es la tokenización efectiva de datos de mallas 3D en tokens discretos que los LLMs puedan procesar sin problemas. Para abordar esto, presentamos LLaMA-Mesh, un enfoque novedoso que representa las coordenadas de vértices y definiciones de caras de mallas 3D como texto plano, permitiendo la integración directa con LLMs sin expandir el vocabulario. Construimos un conjunto de datos de ajuste fino supervisado (SFT) que permite a los LLMs preentrenados (1) generar mallas 3D a partir de indicaciones de texto, (2) producir salidas de texto y mallas 3D entrelazadas según sea necesario, y (3) comprender e interpretar mallas 3D. Nuestro trabajo es el primero en demostrar que los LLMs pueden ajustarse finamente para adquirir conocimiento espacial complejo para la generación de mallas 3D en un formato basado en texto, unificando efectivamente las modalidades 3D y de texto. LLaMA-Mesh logra una calidad de generación de mallas comparable a la de modelos entrenados desde cero, manteniendo un sólido rendimiento en la generación de texto.
A medida que los modelos de lenguaje crecen cada vez más, también lo hacen sus vocabularios. Esto ha desplazado de manera desproporcionada la huella de memoria de los LLM durante el entrenamiento a una sola capa: la entropía cruzada en el cálculo de la pérdida. La entropía cruzada construye una matriz de logit con entradas para cada par de tokens de entrada e ítems de vocabulario y, para modelos pequeños, consume un orden de magnitud más de memoria que el resto del LLM combinado. Proponemos Cut Cross-Entropy (CCE), un método que calcula la pérdida de entropía cruzada sin materializar los logit para todos los tokens en la memoria global. En su lugar, CCE solo calcula el logit para el token correcto y evalúa la suma logarítmica exponencial sobre todos los logit sobre la marcha. Implementamos un kernel personalizado que realiza las multiplicaciones de matrices y la reducción de la suma logarítmica exponencial sobre el vocabulario en la memoria flash, haciendo que el consumo de memoria global para el cálculo de la entropía cruzada sea insignificante. Esto tiene un efecto dramático. Tomando el modelo Gemma 2 (2B) como ejemplo, CCE reduce la huella de memoria del cálculo de pérdida de 24 GB a 1 MB, y el consumo total de memoria en tiempo de entrenamiento de la cabeza clasificadora de 28 GB a 1 GB. Para mejorar el rendimiento de CCE, aprovechamos la esparsidad inherente de softmax y proponemos omitir elementos del cálculo del gradiente que tienen una contribución despreciable (es decir, por debajo de la precisión numérica) al gradiente. Los experimentos demuestran que la reducción dramática en el consumo de memoria se logra sin sacrificar la velocidad de entrenamiento o la convergencia.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) tienen un gran potencial para revolucionar los sistemas clínicos actuales debido a sus capacidades superiores en tareas de procesamiento de texto médico y exámenes de licencia médica. Mientras tanto, modelos tradicionales de aprendizaje automático como SVM y XGBoost siguen siendo principalmente adoptados en tareas de predicción clínica. Una pregunta emergente es ¿Pueden los LLMs superar a los modelos tradicionales de aprendizaje automático en predicción clínica? Por lo tanto, hemos desarrollado un nuevo banco de pruebas, ClinicalBench, para estudiar de manera integral las capacidades de modelado predictivo clínico tanto de LLMs de propósito general como médicos, y compararlos con modelos tradicionales de aprendizaje automático. ClinicalBench abarca tres tareas comunes de predicción clínica, dos bases de datos, 14 LLMs de propósito general, 8 LLMs médicos y 11 modelos tradicionales de aprendizaje automático. A través de una extensa investigación empírica, descubrimos que tanto los LLMs de propósito general como los médicos, incluso con diferentes escalas de modelo y estrategias de generación de texto o ajuste fino, aún no pueden superar a los modelos tradicionales de aprendizaje automático en predicción clínica, lo que pone de manifiesto una posible deficiencia en razonamiento clínico y toma de decisiones. Llamamos a la precaución cuando los profesionales adoptan LLMs en aplicaciones clínicas. ClinicalBench puede utilizarse para cerrar la brecha entre el desarrollo de LLMs para la atención médica y la práctica clínica del mundo real.
Las grabaciones de video de las actividades de los usuarios, en particular las grabaciones de escritorio, ofrecen una fuente rica de datos para comprender los comportamientos de los usuarios y automatizar procesos. Sin embargo, a pesar de los avances en los Modelos de Visión-Lenguaje (VLMs) y su uso creciente en el análisis de video, la extracción de acciones de usuario de las grabaciones de escritorio sigue siendo un área poco explorada. Este artículo aborda esta brecha proponiendo dos métodos novedosos basados en VLM para la extracción de acciones de usuario: el Enfoque Directo Basado en Fotogramas (DF), que introduce fotogramas muestreados directamente en los VLMs, y el Enfoque Basado en Fotogramas Diferenciales (DiffF), que incorpora diferencias explícitas de fotogramas detectadas a través de técnicas de visión por computadora. Evaluamos estos métodos utilizando un conjunto de datos básico auto-curado y un benchmark avanzado adaptado de trabajos anteriores. Nuestros resultados muestran que el enfoque DF logra una precisión del 70% al 80% en la identificación de acciones de usuario, con las secuencias de acciones extraídas siendo reproducibles a través de la Automatización de Procesos Robóticos. Observamos que si bien los VLMs muestran potencial, la incorporación de cambios explícitos en la interfaz de usuario puede degradar el rendimiento, haciendo que el enfoque DF sea más confiable. Este trabajo representa la primera aplicación de VLMs para extraer secuencias de acciones de usuario de grabaciones de escritorio, aportando nuevos métodos, benchmarks e ideas para futuras investigaciones.
Aunque los modelos de difusión pueden generar muestras de una calidad notablemente alta, están intrínsecamente limitados por su costoso procedimiento de muestreo iterativo. Los modelos de consistencia (CMs, por sus siglas en inglés) han surgido recientemente como un prometedor método de destilación de modelos de difusión, reduciendo el costo del muestreo al generar muestras de alta fidelidad en solo unas pocas iteraciones. La destilación de modelos de consistencia tiene como objetivo resolver la ecuación diferencial ordinaria (ODE, por sus siglas en inglés) de flujo de probabilidad definida por un modelo de difusión existente. Los CMs no se entrenan directamente para minimizar el error frente a un solucionador de ODE, sino que utilizan un objetivo más computacionalmente manejable. Como una forma de estudiar qué tan efectivamente los CMs resuelven la ODE de flujo de probabilidad, y el efecto que cualquier error inducido tiene en la calidad de las muestras generadas, presentamos los CMs Directos, que minimizan directamente este error. Curiosamente, encontramos que los CMs Directos reducen el error de resolución de la ODE en comparación con los CMs, pero también resultan en una calidad de muestra significativamente peor, cuestionando por qué exactamente los CMs funcionan bien en primer lugar. El código completo está disponible en: https://github.com/layer6ai-labs/direct-cms.
La tendencia hacia la automatización de las operaciones de redes celulares ha crecido con la creciente complejidad de estos sistemas. A pesar de los avances, la plena autonomía actualmente sigue estando fuera de alcance debido a la dependencia de la intervención humana para modelar comportamientos de red y definir políticas que cumplan con los requisitos establecidos. Los Gemelos Digitales de Red (GDR) han mostrado promesa en mejorar la inteligencia de red, pero la implementación exitosa de esta tecnología se ve limitada por arquitecturas específicas de casos de uso, lo que restringe su papel en el avance de la autonomía de red. Se necesita una inteligencia de red más capaz, o "cerebro de las telecomunicaciones", para permitir la gestión autónoma y sin problemas de la red celular. Los Modelos de Lenguaje Grande (MLG) han surgido como posibles facilitadores de esta visión, pero enfrentan desafíos en la modelización de redes, especialmente en el razonamiento y manejo de diversos tipos de datos. Para abordar estas brechas, presentamos Hermes, una cadena de agentes de MLG que utiliza "planos" para construir instancias de GDR a través de pasos lógicos estructurados y explicables. Hermes permite la modelización automática, fiable y precisa de redes de diversos casos de uso y configuraciones, marcando así un avance hacia operaciones de red totalmente autónomas.