Artículos de investigación en IA seleccionados diariamente con traducciones
Los Transformers han surgido recientemente como una herramienta poderosa para el aprendizaje de representaciones visuales. En este artículo, identificamos y caracterizamos artefactos en los mapas de características de redes ViT tanto supervisadas como auto-supervisadas. Los artefactos corresponden a tokens de alta norma que aparecen durante la inferencia principalmente en áreas de fondo de baja informativdad en las imágenes, y que son reutilizados para cálculos internos. Proponemos una solución simple pero efectiva basada en proporcionar tokens adicionales a la secuencia de entrada del Vision Transformer para cumplir ese papel. Demostramos que esta solución resuelve completamente el problema tanto para modelos supervisados como auto-supervisados, establece un nuevo estado del arte para modelos visuales auto-supervisados en tareas de predicción visual densa, permite métodos de descubrimiento de objetos con modelos más grandes y, lo más importante, conduce a mapas de características y mapas de atención más suaves para el procesamiento visual posterior.
Presentamos Any-Modality Augmented Language Model (AnyMAL), un modelo unificado que razona sobre señales de entrada de diversas modalidades (es decir, texto, imagen, video, audio, sensor de movimiento IMU) y genera respuestas textuales. AnyMAL hereda las potentes capacidades de razonamiento basado en texto de los modelos de lenguaje más avanzados (LLMs), incluyendo LLaMA-2 (70B), y convierte las señales específicas de cada modalidad al espacio textual conjunto mediante un módulo alineador preentrenado. Para fortalecer aún más las capacidades del LLM multimodal, ajustamos el modelo con un conjunto de instrucciones multimodales recopiladas manualmente para cubrir diversos temas y tareas más allá de simples preguntas y respuestas (QAs). Realizamos un análisis empírico exhaustivo que incluye evaluaciones tanto humanas como automáticas, y demostramos un rendimiento de vanguardia en diversas tareas multimodales.
Los avances recientes en la creación de contenido 3D se basan principalmente en la generación 3D optimizada mediante muestreo por destilación de puntuación (SDS). Aunque se han obtenido resultados prometedores, estos métodos suelen sufrir de una optimización lenta por muestra, lo que limita su uso práctico. En este artículo, proponemos DreamGaussian, un novedoso marco de generación de contenido 3D que logra simultáneamente eficiencia y calidad. Nuestra idea clave es diseñar un modelo generativo de dispersión de Gaussianas 3D acompañado de extracción de mallas y refinamiento de texturas en el espacio UV. En contraste con la poda de ocupación utilizada en los campos de radiancia neural, demostramos que la densificación progresiva de Gaussianas 3D converge significativamente más rápido para tareas generativas 3D. Para mejorar aún más la calidad de las texturas y facilitar aplicaciones posteriores, introducimos un algoritmo eficiente para convertir Gaussianas 3D en mallas texturizadas y aplicamos una etapa de ajuste fino para refinar los detalles. Experimentos exhaustivos demuestran la eficiencia superior y la calidad competitiva de nuestro enfoque propuesto. Notablemente, DreamGaussian produce mallas texturizadas de alta calidad en solo 2 minutos a partir de una imagen de vista única, logrando una aceleración aproximadamente 10 veces mayor en comparación con los métodos existentes.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han revolucionado el campo de la inteligencia artificial, permitiendo tareas de procesamiento de lenguaje natural que antes se consideraban exclusivas de los humanos. En este trabajo, presentamos Qwen, la primera entrega de nuestra serie de modelos de lenguaje de gran escala. Qwen es una serie integral de modelos de lenguaje que abarca modelos distintos con diferentes cantidades de parámetros. Incluye Qwen, los modelos base de lenguaje preentrenados, y Qwen-Chat, los modelos de chat ajustados con técnicas de alineación humana. Los modelos base de lenguaje demuestran consistentemente un rendimiento superior en una multitud de tareas posteriores, y los modelos de chat, especialmente aquellos entrenados utilizando Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF, por sus siglas en inglés), son altamente competitivos. Los modelos de chat poseen capacidades avanzadas de uso de herramientas y planificación para crear aplicaciones de agentes, mostrando un rendimiento impresionante incluso en comparación con modelos más grandes en tareas complejas como la utilización de un intérprete de código. Además, hemos desarrollado modelos especializados en codificación, Code-Qwen y Code-Qwen-Chat, así como modelos enfocados en matemáticas, Math-Qwen-Chat, que se construyen sobre modelos base de lenguaje. Estos modelos demuestran un rendimiento significativamente mejorado en comparación con los modelos de código abierto, y se sitúan ligeramente por detrás de los modelos propietarios.
En este artículo, presentamos GSGEN (Generación de Texto a 3D basada en Gaussian Splatting), un enfoque novedoso para generar objetos 3D de alta calidad. Los métodos anteriores sufren de geometría imprecisa y fidelidad limitada debido a la ausencia de un previo 3D y una representación adecuada. Aprovechamos Gaussian Splatting 3D, una representación reciente de vanguardia, para abordar las deficiencias existentes al explotar su naturaleza explícita que permite la incorporación de un previo 3D. Específicamente, nuestro método adopta una estrategia de optimización progresiva, que incluye una etapa de optimización de geometría y una etapa de refinamiento de apariencia. En la optimización de geometría, se establece una representación aproximada bajo un previo de geometría 3D junto con la pérdida SDS 2D convencional, asegurando una forma general coherente y sensible en 3D. Posteriormente, los Gaussianos obtenidos se someten a un refinamiento iterativo para enriquecer los detalles. En esta etapa, aumentamos el número de Gaussianos mediante una densificación basada en compacidad para mejorar la continuidad y la fidelidad. Con estos diseños, nuestro enfoque puede generar contenido 3D con detalles delicados y una geometría más precisa. Evaluaciones exhaustivas demuestran la efectividad de nuestro método, especialmente para capturar componentes de alta frecuencia. Los resultados en video se proporcionan en https://gsgen3d.github.io. Nuestro código está disponible en https://github.com/gsgen3d/gsgen.
Presentamos una serie de modelos de lenguaje de contexto largo (LLMs) que admiten ventanas de contexto efectivas de hasta 32,768 tokens. Nuestra serie de modelos se construye mediante un preentrenamiento continuo a partir de Llama 2, utilizando secuencias de entrenamiento más largas y un conjunto de datos en el que se sobremuestrean textos extensos. Realizamos una evaluación exhaustiva en modelado de lenguaje, tareas sintéticas de sondeo de contexto y una amplia gama de benchmarks de investigación. En los benchmarks de investigación, nuestros modelos logran mejoras consistentes en la mayoría de las tareas regulares y mejoras significativas en tareas de contexto largo en comparación con Llama 2. Destacablemente, con un procedimiento de ajuste por instrucciones rentable que no requiere datos de instrucciones largas anotados por humanos, la variante de 70B ya puede superar el rendimiento general de gpt-3.5-turbo-16k en un conjunto de tareas de contexto largo. Junto con estos resultados, proporcionamos un análisis en profundidad de los componentes individuales de nuestro método. Profundizamos en las codificaciones de posición de Llama y discutimos sus limitaciones para modelar dependencias largas. También examinamos el impacto de varias decisiones de diseño en el proceso de preentrenamiento, incluyendo la mezcla de datos y el plan de entrenamiento de longitudes de secuencias. Nuestros experimentos de ablación sugieren que tener abundantes textos largos en el conjunto de datos de preentrenamiento no es la clave para lograr un rendimiento sólido, y verificamos empíricamente que el preentrenamiento continuo de contexto largo es más eficiente y igualmente efectivo en comparación con el preentrenamiento desde cero con secuencias largas.
Nuestro objetivo es abordar un problema significativo pero poco estudiado en la industria del anime: la interpolación de dibujos animados en línea. La interpolación implica generar fotogramas intermedios entre dos dibujos en blanco y negro y es un proceso que consume mucho tiempo y es costoso, lo que podría beneficiarse de la automatización. Sin embargo, los métodos existentes de interpolación de fotogramas que se basan en la coincidencia y deformación de imágenes rasterizadas completas no son adecuados para la interpolación de líneas y a menudo producen artefactos de desenfoque que dañan las intrincadas estructuras de las líneas. Para preservar la precisión y el detalle de los dibujos en línea, proponemos un nuevo enfoque, AnimeInbet, que geometriza los dibujos rasterizados en gráficos de puntos finales y reformula la tarea de interpolación como un problema de fusión de gráficos con reposicionamiento de vértices. Nuestro método puede capturar eficazmente la escasez y la estructura única de los dibujos en línea mientras preserva los detalles durante la interpolación. Esto es posible gracias a nuestros nuevos módulos, es decir, la incrustación geométrica de vértices, un Transformer de correspondencia de vértices, un mecanismo eficaz para el reposicionamiento de vértices y un predictor de visibilidad. Para entrenar nuestro método, presentamos MixamoLine240, un nuevo conjunto de datos de dibujos en línea con vectorización y etiquetas de coincidencia de referencia. Nuestros experimentos demuestran que AnimeInbet sintetiza dibujos intermedios en línea de alta calidad, limpios y completos, superando cuantitativa y cualitativamente a los métodos existentes, especialmente en casos con grandes movimientos. Los datos y el código están disponibles en https://github.com/lisiyao21/AnimeInbet.
El preentrenamiento de lenguaje-imagen contrastivo (CLIP) es un enfoque que ha impulsado la investigación y aplicaciones en visión por computadora, alimentando sistemas de reconocimiento modernos y modelos generativos. Creemos que el ingrediente principal del éxito de CLIP son sus datos, y no la arquitectura del modelo o el objetivo de preentrenamiento. Sin embargo, CLIP proporciona información muy limitada sobre sus datos y cómo se han recopilado, lo que ha llevado a trabajos que buscan reproducir los datos de CLIP filtrando con sus parámetros del modelo. En este trabajo, pretendemos revelar el enfoque de curación de datos de CLIP y, en nuestra búsqueda por hacerlo accesible a la comunidad, presentamos el preentrenamiento de lenguaje-imagen con metadatos curados (MetaCLIP). MetaCLIP toma un conjunto de datos en bruto y metadatos (derivados de los conceptos de CLIP) y produce un subconjunto equilibrado sobre la distribución de metadatos. Nuestro estudio experimental aísla rigurosamente el modelo y los ajustes de entrenamiento, centrándose únicamente en los datos. MetaCLIP aplicado a CommonCrawl con 400 millones de pares de datos imagen-texto supera los datos de CLIP en múltiples benchmarks estándar. En la clasificación de ImageNet sin ajuste específico (zero-shot), MetaCLIP alcanza un 70.8% de precisión, superando el 68.3% de CLIP en modelos ViT-B. Al escalar a 1B de datos, manteniendo el mismo presupuesto de entrenamiento, se alcanza un 72.4%. Nuestras observaciones se mantienen en varios tamaños de modelos, ejemplificado por ViT-H logrando un 80.5%, sin ningún tipo de ajustes adicionales. El código de curación y la distribución de datos de entrenamiento sobre metadatos están disponibles en https://github.com/facebookresearch/MetaCLIP.
Los clasificadores basados en modelos de visión y lenguaje como CLIP han demostrado un rendimiento notable en tareas de clasificación de imágenes en escenarios de cero disparos (zero-shot). Trabajos previos han estudiado diferentes formas de crear automáticamente conjuntos de descriptores para cada clase basados en plantillas de prompts, que van desde plantillas diseñadas manualmente hasta aquellas obtenidas de un modelo de lenguaje grande o construidas a partir de palabras y caracteres aleatorios. En contraste, la derivación de clasificadores de cero disparos a partir de los descriptores de clase codificados ha permanecido prácticamente sin cambios, es decir: clasificar en la clase que maximiza la similitud del coseno entre sus descriptores de clase codificados promediados y la imagen codificada. Sin embargo, ponderar todos los descriptores de clase por igual puede ser subóptimo cuando ciertos descriptores coinciden mejor con las pistas visuales de una imagen dada que otros. En este trabajo, proponemos AutoCLIP, un método para el ajuste automático de clasificadores de cero disparos. AutoCLIP asigna a cada plantilla de prompt pesos por imagen, que se derivan de estadísticas de similitudes entre descriptores de clase e imagen en tiempo de inferencia. AutoCLIP es completamente no supervisado, tiene un costo computacional muy bajo y puede implementarse fácilmente en pocas líneas de código. Demostramos que, para una amplia gama de modelos de visión y lenguaje, conjuntos de datos y plantillas de prompts, AutoCLIP supera consistentemente a los métodos base, alcanzando mejoras de hasta 3 puntos porcentuales en precisión.
La predicción confiable del comportamiento futuro de los agentes viales es un componente crítico para la planificación segura en vehículos autónomos. Aquí, representamos trayectorias continuas como secuencias de tokens de movimiento discretos y planteamos la predicción de movimiento multiagente como una tarea de modelado del lenguaje en este dominio. Nuestro modelo, MotionLM, ofrece varias ventajas: En primer lugar, no requiere anclajes ni optimización explícita de variables latentes para aprender distribuciones multimodales. En su lugar, aprovechamos un único objetivo estándar de modelado del lenguaje, maximizando la probabilidad logarítmica promedio sobre los tokens de secuencia. En segundo lugar, nuestro enfoque evita heurísticas de interacción post-hoc, donde la generación de trayectorias individuales de agentes se realiza antes de la puntuación interactiva. En cambio, MotionLM produce distribuciones conjuntas sobre futuros interactivos de agentes en un único proceso de decodificación autoregresivo. Además, la factorización secuencial del modelo permite despliegues condicionales temporalmente causales. El enfoque propuesto establece un nuevo estado del arte en rendimiento para la predicción de movimiento multiagente en el conjunto de datos Waymo Open Motion, ocupando el primer puesto en la tabla de clasificación del desafío interactivo.
Los recientes avances en generación de imágenes han dado lugar a modelos de outpaiting e inpainting capaces de producir contenido visual de alta calidad y verosímil en regiones desconocidas. Sin embargo, el contenido que estos modelos generan es necesariamente inauténtico, ya que carecen de suficiente contexto sobre la escena real. En este trabajo, proponemos RealFill, un enfoque generativo novedoso para completar imágenes que rellena las regiones faltantes con el contenido que debería estar presente. RealFill es un modelo de inpainting generativo que se personaliza utilizando solo unas pocas imágenes de referencia de una escena. Estas imágenes de referencia no necesitan estar alineadas con la imagen objetivo y pueden capturarse con puntos de vista, condiciones de iluminación, aperturas de cámara o estilos de imagen drásticamente diferentes. Una vez personalizado, RealFill es capaz de completar una imagen objetivo con contenidos visualmente convincentes que son fieles a la escena original. Evaluamos RealFill en un nuevo benchmark de completado de imágenes que abarca un conjunto de escenarios diversos y desafiantes, y encontramos que supera ampliamente a los enfoques existentes. Más resultados disponibles en nuestra página del proyecto: https://realfill.github.io
Con el rápido avance de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), existe una necesidad urgente de un conjunto de evaluación integral para evaluar sus capacidades y limitaciones. Los rankings existentes de LLMs a menudo hacen referencia a puntuaciones reportadas en otros trabajos sin configuraciones y prompts consistentes, lo que puede fomentar involuntariamente la selección de configuraciones y prompts favoritos para obtener mejores resultados. En este trabajo, presentamos GPT-Fathom, un conjunto de evaluación de LLMs de código abierto y reproducible construido sobre OpenAI Evals. Evaluamos sistemáticamente más de 10 LLMs líderes, así como modelos heredados de OpenAI, en más de 20 benchmarks cuidadosamente seleccionados a través de 7 categorías de capacidades, todo bajo configuraciones alineadas. Nuestro estudio retrospectivo sobre los modelos anteriores de OpenAI ofrece valiosas perspectivas sobre la trayectoria evolutiva desde GPT-3 hasta GPT-4. Actualmente, la comunidad está ansiosa por saber cómo GPT-3 mejora progresivamente hasta GPT-4, incluyendo detalles técnicos como si la adición de datos de código mejora la capacidad de razonamiento de los LLMs, qué aspectos de la capacidad de los LLMs pueden mejorarse mediante SFT (Fine-Tuning Supervisado) y RLHF (Alineación mediante Aprendizaje por Refuerzo con Retroalimentación Humana), cuál es el costo de la alineación, entre otros. Nuestro análisis arroja luz sobre muchas de estas preguntas, con el objetivo de mejorar la transparencia de los LLMs avanzados.
Consideramos la tarea de generar videos diversos y realistas guiados por muestras de audio natural de una amplia variedad de clases semánticas. Para esta tarea, los videos deben estar alineados tanto global como temporalmente con el audio de entrada: globalmente, el audio de entrada está asociado semánticamente con el video completo de salida, y temporalmente, cada segmento del audio de entrada está asociado con un segmento correspondiente de ese video. Utilizamos un modelo existente de generación de videos condicionado por texto y un modelo preentrenado de codificación de audio. El método propuesto se basa en una red adaptadora ligera, que aprende a mapear la representación basada en audio a la representación de entrada esperada por el modelo de generación de texto a video. Como tal, también permite la generación de videos condicionados por texto, audio y, por primera vez hasta donde sabemos, por ambos, texto y audio. Validamos nuestro método extensamente en tres conjuntos de datos que demuestran una diversidad semántica significativa en muestras de audio-video y, además, proponemos una nueva métrica de evaluación (AV-Align) para evaluar la alineación de los videos generados con las muestras de audio de entrada. AV-Align se basa en la detección y comparación de picos de energía en ambas modalidades. En comparación con enfoques recientes de vanguardia, nuestro método genera videos que están mejor alineados con el sonido de entrada, tanto en cuanto al contenido como al eje temporal. También demostramos que los videos producidos por nuestro método presentan una mayor calidad visual y son más diversos.
Para que los robots realicen una amplia variedad de tareas, requieren una representación 3D del mundo que sea semánticamente rica, pero a la vez compacta y eficiente para la percepción y planificación orientadas a tareas. Enfoques recientes han intentado aprovechar características de modelos grandes de visión y lenguaje para codificar semántica en representaciones 3D. Sin embargo, estos enfoques tienden a producir mapas con vectores de características por punto, los cuales no escalan bien en entornos más grandes, ni contienen relaciones espaciales semánticas entre entidades en el entorno, las cuales son útiles para la planificación posterior. En este trabajo, proponemos ConceptGraphs, una representación estructurada en grafos de vocabulario abierto para escenas 3D. ConceptGraphs se construye aprovechando modelos fundamentales 2D y fusionando su salida a 3D mediante asociación multi-vista. Las representaciones resultantes generalizan a clases semánticas novedosas, sin la necesidad de recolectar grandes conjuntos de datos 3D o ajustar modelos. Demostramos la utilidad de esta representación a través de varias tareas de planificación posteriores que se especifican mediante indicaciones abstractas (en lenguaje) y requieren razonamiento complejo sobre conceptos espaciales y semánticos. (Página del proyecto: https://concept-graphs.github.io/ Video explicativo: https://youtu.be/mRhNkQwRYnc)
El éxito de los modelos de lenguaje, especialmente las arquitecturas basadas en transformadores, se ha extendido a otros dominios, dando lugar a los "modelos de lenguaje científicos" que operan sobre moléculas pequeñas, proteínas o polímeros. En química, los modelos de lenguaje contribuyen a acelerar el ciclo de descubrimiento de moléculas, como lo demuestran hallazgos recientes y prometedores en las primeras etapas del descubrimiento de fármacos. Aquí, revisamos el papel de los modelos de lenguaje en el descubrimiento molecular, destacando su fortaleza en el diseño de novo de fármacos, la predicción de propiedades y la química de reacciones. Resaltamos valiosos recursos de software de código abierto, lo que reduce la barrera de entrada al campo del modelado de lenguaje científico. Por último, esbozamos una visión para el diseño molecular futuro que combina una interfaz de chatbot con acceso a herramientas de química computacional. Nuestra contribución sirve como un recurso valioso para investigadores, químicos y entusiastas de la IA interesados en comprender cómo los modelos de lenguaje pueden y serán utilizados para acelerar el descubrimiento químico.
En este trabajo, presentamos CCEdit, un marco versátil diseñado para abordar los desafíos de la edición de videos creativa y controlable. CCEdit acomoda un amplio espectro de requisitos de edición por parte del usuario y permite un mayor control creativo mediante un enfoque innovador que desacopla la estructura y la apariencia del video. Aprovechamos la arquitectura fundamental de ControlNet para preservar la integridad estructural, mientras integramos de manera fluida módulos temporales adaptables compatibles con técnicas de personalización de última generación para la generación de texto a imagen, como DreamBooth y LoRA. Además, introducimos la edición de video condicionada por referencia, capacitando a los usuarios para ejercer un control creativo preciso sobre la edición de videos a través del proceso más manejable de editar fotogramas clave. Nuestras extensas evaluaciones experimentales confirman la funcionalidad excepcional y las capacidades de edición del marco propuesto CCEdit. El video de demostración está disponible en https://www.youtube.com/watch?v=UQw4jq-igN4.