Papers Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Seleccionar fecha

Los Transformers de Visión Necesitan Registros
Vision Transformers Need Registers

Sep 28, 2023

Timothée Darcet, Maxime Oquab, Julien Mairal, Piotr Bojanowski

809

Los Transformers han surgido recientemente como una herramienta poderosa para el aprendizaje de representaciones visuales. En este artículo, identificamos y caracterizamos artefactos en los mapas de características de redes ViT tanto supervisadas como auto-supervisadas. Los artefactos corresponden a tokens de alta norma que aparecen durante la inferencia principalmente en áreas de fondo de baja informativdad en las imágenes, y que son reutilizados para cálculos internos. Proponemos una solución simple pero efectiva basada en proporcionar tokens adicionales a la secuencia de entrada del Vision Transformer para cumplir ese papel. Demostramos que esta solución resuelve completamente el problema tanto para modelos supervisados como auto-supervisados, establece un nuevo estado del arte para modelos visuales auto-supervisados en tareas de predicción visual densa, permite métodos de descubrimiento de objetos con modelos más grandes y, lo más importante, conduce a mapas de características y mapas de atención más suaves para el procesamiento visual posterior.

AnyMAL: Un Modelo de Lenguaje Aumentado Eficiente y Escalable para Cualquier Modalidad
AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model

Sep 27, 2023

Seungwhan Moon, Andrea Madotto, Zhaojiang Lin, Tushar Nagarajan, Matt Smith, Shashank Jain, Chun-Fu Yeh, Prakash Murugesan, Peyman Heidari, Yue Liu, Kavya Srinet, Babak Damavandi, Anuj Kumar

567

Presentamos Any-Modality Augmented Language Model (AnyMAL), un modelo unificado que razona sobre señales de entrada de diversas modalidades (es decir, texto, imagen, video, audio, sensor de movimiento IMU) y genera respuestas textuales. AnyMAL hereda las potentes capacidades de razonamiento basado en texto de los modelos de lenguaje más avanzados (LLMs), incluyendo LLaMA-2 (70B), y convierte las señales específicas de cada modalidad al espacio textual conjunto mediante un módulo alineador preentrenado. Para fortalecer aún más las capacidades del LLM multimodal, ajustamos el modelo con un conjunto de instrucciones multimodales recopiladas manualmente para cubrir diversos temas y tareas más allá de simples preguntas y respuestas (QAs). Realizamos un análisis empírico exhaustivo que incluye evaluaciones tanto humanas como automáticas, y demostramos un rendimiento de vanguardia en diversas tareas multimodales.

DreamGaussian: Generación de Splatting Gaussiano para la Creación Eficiente de Contenido 3D
DreamGaussian: Generative Gaussian Splatting for Efficient 3D Content Creation

Sep 28, 2023

Jiaxiang Tang, Jiawei Ren, Hang Zhou, Ziwei Liu, Gang Zeng

475

Los avances recientes en la creación de contenido 3D se basan principalmente en la generación 3D optimizada mediante muestreo por destilación de puntuación (SDS). Aunque se han obtenido resultados prometedores, estos métodos suelen sufrir de una optimización lenta por muestra, lo que limita su uso práctico. En este artículo, proponemos DreamGaussian, un novedoso marco de generación de contenido 3D que logra simultáneamente eficiencia y calidad. Nuestra idea clave es diseñar un modelo generativo de dispersión de Gaussianas 3D acompañado de extracción de mallas y refinamiento de texturas en el espacio UV. En contraste con la poda de ocupación utilizada en los campos de radiancia neural, demostramos que la densificación progresiva de Gaussianas 3D converge significativamente más rápido para tareas generativas 3D. Para mejorar aún más la calidad de las texturas y facilitar aplicaciones posteriores, introducimos un algoritmo eficiente para convertir Gaussianas 3D en mallas texturizadas y aplicamos una etapa de ajuste fino para refinar los detalles. Experimentos exhaustivos demuestran la eficiencia superior y la calidad competitiva de nuestro enfoque propuesto. Notablemente, DreamGaussian produce mallas texturizadas de alta calidad en solo 2 minutos a partir de una imagen de vista única, logrando una aceleración aproximadamente 10 veces mayor en comparación con los métodos existentes.

Informe Técnico de Qwen
Qwen Technical Report

Sep 28, 2023

Jinze Bai, Shuai Bai, Yunfei Chu, Zeyu Cui, Kai Dang, Xiaodong Deng, Yang Fan, Wenbin Ge, Yu Han, Fei Huang, Binyuan Hui, Luo Ji, Mei Li, Junyang Lin, Runji Lin, Dayiheng Liu, Gao Liu, Chengqiang Lu, Keming Lu, Jianxin Ma, Rui Men, Xingzhang Ren, Xuancheng Ren, Chuanqi Tan, Sinan Tan, Jianhong Tu, Peng Wang, Shijie Wang, Wei Wang, Shengguang Wu, Benfeng Xu, Jin Xu, An Yang, Hao Yang, Jian Yang, Shusheng Yang, Yang Yao, Bowen Yu, Hongyi Yuan, Zheng Yuan, Jianwei Zhang, Xingxuan Zhang, Yichang Zhang, Zhenru Zhang, Chang Zhou, Jingren Zhou, Xiaohuan Zhou, Tianhang Zhu

362

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han revolucionado el campo de la inteligencia artificial, permitiendo tareas de procesamiento de lenguaje natural que antes se consideraban exclusivas de los humanos. En este trabajo, presentamos Qwen, la primera entrega de nuestra serie de modelos de lenguaje de gran escala. Qwen es una serie integral de modelos de lenguaje que abarca modelos distintos con diferentes cantidades de parámetros. Incluye Qwen, los modelos base de lenguaje preentrenados, y Qwen-Chat, los modelos de chat ajustados con técnicas de alineación humana. Los modelos base de lenguaje demuestran consistentemente un rendimiento superior en una multitud de tareas posteriores, y los modelos de chat, especialmente aquellos entrenados utilizando Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF, por sus siglas en inglés), son altamente competitivos. Los modelos de chat poseen capacidades avanzadas de uso de herramientas y planificación para crear aplicaciones de agentes, mostrando un rendimiento impresionante incluso en comparación con modelos más grandes en tareas complejas como la utilización de un intérprete de código. Además, hemos desarrollado modelos especializados en codificación, Code-Qwen y Code-Qwen-Chat, así como modelos enfocados en matemáticas, Math-Qwen-Chat, que se construyen sobre modelos base de lenguaje. Estos modelos demuestran un rendimiento significativamente mejorado en comparación con los modelos de código abierto, y se sitúan ligeramente por detrás de los modelos propietarios.

Texto a 3D utilizando Splatting Gaussiano
Text-to-3D using Gaussian Splatting

Sep 28, 2023

Zilong Chen, Feng Wang, Huaping Liu

302

En este artículo, presentamos GSGEN (Generación de Texto a 3D basada en Gaussian Splatting), un enfoque novedoso para generar objetos 3D de alta calidad. Los métodos anteriores sufren de geometría imprecisa y fidelidad limitada debido a la ausencia de un previo 3D y una representación adecuada. Aprovechamos Gaussian Splatting 3D, una representación reciente de vanguardia, para abordar las deficiencias existentes al explotar su naturaleza explícita que permite la incorporación de un previo 3D. Específicamente, nuestro método adopta una estrategia de optimización progresiva, que incluye una etapa de optimización de geometría y una etapa de refinamiento de apariencia. En la optimización de geometría, se establece una representación aproximada bajo un previo de geometría 3D junto con la pérdida SDS 2D convencional, asegurando una forma general coherente y sensible en 3D. Posteriormente, los Gaussianos obtenidos se someten a un refinamiento iterativo para enriquecer los detalles. En esta etapa, aumentamos el número de Gaussianos mediante una densificación basada en compacidad para mejorar la continuidad y la fidelidad. Con estos diseños, nuestro enfoque puede generar contenido 3D con detalles delicados y una geometría más precisa. Evaluaciones exhaustivas demuestran la efectividad de nuestro método, especialmente para capturar componentes de alta frecuencia. Los resultados en video se proporcionan en https://gsgen3d.github.io. Nuestro código está disponible en https://github.com/gsgen3d/gsgen.

Escalado Efectivo de Modelos Fundacionales para Contextos Extensos
Effective Long-Context Scaling of Foundation Models

Sep 27, 2023

Wenhan Xiong, Jingyu Liu, Igor Molybog, Hejia Zhang, Prajjwal Bhargava, Rui Hou, Louis Martin, Rashi Rungta, Karthik Abinav Sankararaman, Barlas Oguz, Madian Khabsa, Han Fang, Yashar Mehdad, Sharan Narang, Kshitiz Malik, Angela Fan, Shruti Bhosale, Sergey Edunov, Mike Lewis, Sinong Wang, Hao Ma

303

Presentamos una serie de modelos de lenguaje de contexto largo (LLMs) que admiten ventanas de contexto efectivas de hasta 32,768 tokens. Nuestra serie de modelos se construye mediante un preentrenamiento continuo a partir de Llama 2, utilizando secuencias de entrenamiento más largas y un conjunto de datos en el que se sobremuestrean textos extensos. Realizamos una evaluación exhaustiva en modelado de lenguaje, tareas sintéticas de sondeo de contexto y una amplia gama de benchmarks de investigación. En los benchmarks de investigación, nuestros modelos logran mejoras consistentes en la mayoría de las tareas regulares y mejoras significativas en tareas de contexto largo en comparación con Llama 2. Destacablemente, con un procedimiento de ajuste por instrucciones rentable que no requiere datos de instrucciones largas anotados por humanos, la variante de 70B ya puede superar el rendimiento general de gpt-3.5-turbo-16k en un conjunto de tareas de contexto largo. Junto con estos resultados, proporcionamos un análisis en profundidad de los componentes individuales de nuestro método. Profundizamos en las codificaciones de posición de Llama y discutimos sus limitaciones para modelar dependencias largas. También examinamos el impacto de varias decisiones de diseño en el proceso de preentrenamiento, incluyendo la mezcla de datos y el plan de entrenamiento de longitudes de secuencias. Nuestros experimentos de ablación sugieren que tener abundantes textos largos en el conjunto de datos de preentrenamiento no es la clave para lograr un rendimiento sólido, y verificamos empíricamente que el preentrenamiento continuo de contexto largo es más eficiente y igualmente efectivo en comparación con el preentrenamiento desde cero con secuencias largas.

Interpolación Profunda de Líneas de Dibujos Animados Geometrizados
Deep Geometrized Cartoon Line Inbetweening

Sep 28, 2023

Li Siyao, Tianpei Gu, Weiye Xiao, Henghui Ding, Ziwei Liu, Chen Change Loy

250

Nuestro objetivo es abordar un problema significativo pero poco estudiado en la industria del anime: la interpolación de dibujos animados en línea. La interpolación implica generar fotogramas intermedios entre dos dibujos en blanco y negro y es un proceso que consume mucho tiempo y es costoso, lo que podría beneficiarse de la automatización. Sin embargo, los métodos existentes de interpolación de fotogramas que se basan en la coincidencia y deformación de imágenes rasterizadas completas no son adecuados para la interpolación de líneas y a menudo producen artefactos de desenfoque que dañan las intrincadas estructuras de las líneas. Para preservar la precisión y el detalle de los dibujos en línea, proponemos un nuevo enfoque, AnimeInbet, que geometriza los dibujos rasterizados en gráficos de puntos finales y reformula la tarea de interpolación como un problema de fusión de gráficos con reposicionamiento de vértices. Nuestro método puede capturar eficazmente la escasez y la estructura única de los dibujos en línea mientras preserva los detalles durante la interpolación. Esto es posible gracias a nuestros nuevos módulos, es decir, la incrustación geométrica de vértices, un Transformer de correspondencia de vértices, un mecanismo eficaz para el reposicionamiento de vértices y un predictor de visibilidad. Para entrenar nuestro método, presentamos MixamoLine240, un nuevo conjunto de datos de dibujos en línea con vectorización y etiquetas de coincidencia de referencia. Nuestros experimentos demuestran que AnimeInbet sintetiza dibujos intermedios en línea de alta calidad, limpios y completos, superando cuantitativa y cualitativamente a los métodos existentes, especialmente en casos con grandes movimientos. Los datos y el código están disponibles en https://github.com/lisiyao21/AnimeInbet.

Desmitificando los datos de CLIP
Demystifying CLIP Data

Sep 28, 2023

Hu Xu, Saining Xie, Xiaoqing Ellen Tan, Po-Yao Huang, Russell Howes, Vasu Sharma, Shang-Wen Li, Gargi Ghosh, Luke Zettlemoyer, Christoph Feichtenhofer

203

El preentrenamiento de lenguaje-imagen contrastivo (CLIP) es un enfoque que ha impulsado la investigación y aplicaciones en visión por computadora, alimentando sistemas de reconocimiento modernos y modelos generativos. Creemos que el ingrediente principal del éxito de CLIP son sus datos, y no la arquitectura del modelo o el objetivo de preentrenamiento. Sin embargo, CLIP proporciona información muy limitada sobre sus datos y cómo se han recopilado, lo que ha llevado a trabajos que buscan reproducir los datos de CLIP filtrando con sus parámetros del modelo. En este trabajo, pretendemos revelar el enfoque de curación de datos de CLIP y, en nuestra búsqueda por hacerlo accesible a la comunidad, presentamos el preentrenamiento de lenguaje-imagen con metadatos curados (MetaCLIP). MetaCLIP toma un conjunto de datos en bruto y metadatos (derivados de los conceptos de CLIP) y produce un subconjunto equilibrado sobre la distribución de metadatos. Nuestro estudio experimental aísla rigurosamente el modelo y los ajustes de entrenamiento, centrándose únicamente en los datos. MetaCLIP aplicado a CommonCrawl con 400 millones de pares de datos imagen-texto supera los datos de CLIP en múltiples benchmarks estándar. En la clasificación de ImageNet sin ajuste específico (zero-shot), MetaCLIP alcanza un 70.8% de precisión, superando el 68.3% de CLIP en modelos ViT-B. Al escalar a 1B de datos, manteniendo el mismo presupuesto de entrenamiento, se alcanza un 72.4%. Nuestras observaciones se mantienen en varios tamaños de modelos, ejemplificado por ViT-H logrando un 80.5%, sin ningún tipo de ajustes adicionales. El código de curación y la distribución de datos de entrenamiento sobre metadatos están disponibles en https://github.com/facebookresearch/MetaCLIP.

AutoCLIP: Ajuste Automático de Clasificadores de Cero Disparos para Modelos de Visión y Lenguaje
AutoCLIP: Auto-tuning Zero-Shot Classifiers for Vision-Language Models

Sep 28, 2023

Jan Hendrik Metzen, Piyapat Saranrittichai, Chaithanya Kumar Mummadi

192

Los clasificadores basados en modelos de visión y lenguaje como CLIP han demostrado un rendimiento notable en tareas de clasificación de imágenes en escenarios de cero disparos (zero-shot). Trabajos previos han estudiado diferentes formas de crear automáticamente conjuntos de descriptores para cada clase basados en plantillas de prompts, que van desde plantillas diseñadas manualmente hasta aquellas obtenidas de un modelo de lenguaje grande o construidas a partir de palabras y caracteres aleatorios. En contraste, la derivación de clasificadores de cero disparos a partir de los descriptores de clase codificados ha permanecido prácticamente sin cambios, es decir: clasificar en la clase que maximiza la similitud del coseno entre sus descriptores de clase codificados promediados y la imagen codificada. Sin embargo, ponderar todos los descriptores de clase por igual puede ser subóptimo cuando ciertos descriptores coinciden mejor con las pistas visuales de una imagen dada que otros. En este trabajo, proponemos AutoCLIP, un método para el ajuste automático de clasificadores de cero disparos. AutoCLIP asigna a cada plantilla de prompt pesos por imagen, que se derivan de estadísticas de similitudes entre descriptores de clase e imagen en tiempo de inferencia. AutoCLIP es completamente no supervisado, tiene un costo computacional muy bajo y puede implementarse fácilmente en pocas líneas de código. Demostramos que, para una amplia gama de modelos de visión y lenguaje, conjuntos de datos y plantillas de prompts, AutoCLIP supera consistentemente a los métodos base, alcanzando mejoras de hasta 3 puntos porcentuales en precisión.

MotionLM: Predicción de Movimiento Multiagente como Modelado de Lenguaje
MotionLM: Multi-Agent Motion Forecasting as Language Modeling

Sep 28, 2023

Ari Seff, Brian Cera, Dian Chen, Mason Ng, Aurick Zhou, Nigamaa Nayakanti, Khaled S. Refaat, Rami Al-Rfou, Benjamin Sapp

150

La predicción confiable del comportamiento futuro de los agentes viales es un componente crítico para la planificación segura en vehículos autónomos. Aquí, representamos trayectorias continuas como secuencias de tokens de movimiento discretos y planteamos la predicción de movimiento multiagente como una tarea de modelado del lenguaje en este dominio. Nuestro modelo, MotionLM, ofrece varias ventajas: En primer lugar, no requiere anclajes ni optimización explícita de variables latentes para aprender distribuciones multimodales. En su lugar, aprovechamos un único objetivo estándar de modelado del lenguaje, maximizando la probabilidad logarítmica promedio sobre los tokens de secuencia. En segundo lugar, nuestro enfoque evita heurísticas de interacción post-hoc, donde la generación de trayectorias individuales de agentes se realiza antes de la puntuación interactiva. En cambio, MotionLM produce distribuciones conjuntas sobre futuros interactivos de agentes en un único proceso de decodificación autoregresivo. Además, la factorización secuencial del modelo permite despliegues condicionales temporalmente causales. El enfoque propuesto establece un nuevo estado del arte en rendimiento para la predicción de movimiento multiagente en el conjunto de datos Waymo Open Motion, ocupando el primer puesto en la tabla de clasificación del desafío interactivo.

RealFill: Generación Guiada por Referencias para la Completación Auténtica de Imágenes
RealFill: Reference-Driven Generation for Authentic Image Completion

Sep 28, 2023

Luming Tang, Nataniel Ruiz, Qinghao Chu, Yuanzhen Li, Aleksander Holynski, David E. Jacobs, Bharath Hariharan, Yael Pritch, Neal Wadhwa, Kfir Aberman, Michael Rubinstein

142

Los recientes avances en generación de imágenes han dado lugar a modelos de outpaiting e inpainting capaces de producir contenido visual de alta calidad y verosímil en regiones desconocidas. Sin embargo, el contenido que estos modelos generan es necesariamente inauténtico, ya que carecen de suficiente contexto sobre la escena real. En este trabajo, proponemos RealFill, un enfoque generativo novedoso para completar imágenes que rellena las regiones faltantes con el contenido que debería estar presente. RealFill es un modelo de inpainting generativo que se personaliza utilizando solo unas pocas imágenes de referencia de una escena. Estas imágenes de referencia no necesitan estar alineadas con la imagen objetivo y pueden capturarse con puntos de vista, condiciones de iluminación, aperturas de cámara o estilos de imagen drásticamente diferentes. Una vez personalizado, RealFill es capaz de completar una imagen objetivo con contenidos visualmente convincentes que son fieles a la escena original. Evaluamos RealFill en un nuevo benchmark de completado de imágenes que abarca un conjunto de escenarios diversos y desafiantes, y encontramos que supera ampliamente a los enfoques existentes. Más resultados disponibles en nuestra página del proyecto: https://realfill.github.io

GPT-Fathom: Evaluación de Modelos de Lenguaje a Gran Escala para Descifrar la Trayectoria Evolutiva hacia GPT-4 y Más Allá
GPT-Fathom: Benchmarking Large Language Models to Decipher the Evolutionary Path towards GPT-4 and Beyond

Sep 28, 2023

Shen Zheng, Yuyu Zhang, Yijie Zhu, Chenguang Xi, Pengyang Gao, Xun Zhou, Kevin Chen-Chuan Chang

120

Con el rápido avance de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), existe una necesidad urgente de un conjunto de evaluación integral para evaluar sus capacidades y limitaciones. Los rankings existentes de LLMs a menudo hacen referencia a puntuaciones reportadas en otros trabajos sin configuraciones y prompts consistentes, lo que puede fomentar involuntariamente la selección de configuraciones y prompts favoritos para obtener mejores resultados. En este trabajo, presentamos GPT-Fathom, un conjunto de evaluación de LLMs de código abierto y reproducible construido sobre OpenAI Evals. Evaluamos sistemáticamente más de 10 LLMs líderes, así como modelos heredados de OpenAI, en más de 20 benchmarks cuidadosamente seleccionados a través de 7 categorías de capacidades, todo bajo configuraciones alineadas. Nuestro estudio retrospectivo sobre los modelos anteriores de OpenAI ofrece valiosas perspectivas sobre la trayectoria evolutiva desde GPT-3 hasta GPT-4. Actualmente, la comunidad está ansiosa por saber cómo GPT-3 mejora progresivamente hasta GPT-4, incluyendo detalles técnicos como si la adición de datos de código mejora la capacidad de razonamiento de los LLMs, qué aspectos de la capacidad de los LLMs pueden mejorarse mediante SFT (Fine-Tuning Supervisado) y RLHF (Alineación mediante Aprendizaje por Refuerzo con Retroalimentación Humana), cuál es el costo de la alineación, entre otros. Nuestro análisis arroja luz sobre muchas de estas preguntas, con el objetivo de mejorar la transparencia de los LLMs avanzados.

Generación Alineada y Diversa de Audio a Video mediante Adaptación de Modelos de Texto a Video
Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model Adaptation

Sep 28, 2023

Guy Yariv, Itai Gat, Sagie Benaim, Lior Wolf, Idan Schwartz, Yossi Adi

112

Consideramos la tarea de generar videos diversos y realistas guiados por muestras de audio natural de una amplia variedad de clases semánticas. Para esta tarea, los videos deben estar alineados tanto global como temporalmente con el audio de entrada: globalmente, el audio de entrada está asociado semánticamente con el video completo de salida, y temporalmente, cada segmento del audio de entrada está asociado con un segmento correspondiente de ese video. Utilizamos un modelo existente de generación de videos condicionado por texto y un modelo preentrenado de codificación de audio. El método propuesto se basa en una red adaptadora ligera, que aprende a mapear la representación basada en audio a la representación de entrada esperada por el modelo de generación de texto a video. Como tal, también permite la generación de videos condicionados por texto, audio y, por primera vez hasta donde sabemos, por ambos, texto y audio. Validamos nuestro método extensamente en tres conjuntos de datos que demuestran una diversidad semántica significativa en muestras de audio-video y, además, proponemos una nueva métrica de evaluación (AV-Align) para evaluar la alineación de los videos generados con las muestras de audio de entrada. AV-Align se basa en la detección y comparación de picos de energía en ambas modalidades. En comparación con enfoques recientes de vanguardia, nuestro método genera videos que están mejor alineados con el sonido de entrada, tanto en cuanto al contenido como al eje temporal. También demostramos que los videos producidos por nuestro método presentan una mayor calidad visual y son más diversos.

ConceptGraphs: Grafos Escénicos 3D de Vocabulario Abierto para Percepción y Planificación
ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and Planning

Sep 28, 2023

Qiao Gu, Alihusein Kuwajerwala, Sacha Morin, Krishna Murthy Jatavallabhula, Bipasha Sen, Aditya Agarwal, Corban Rivera, William Paul, Kirsty Ellis, Rama Chellappa, Chuang Gan, Celso Miguel de Melo, Joshua B. Tenenbaum, Antonio Torralba, Florian Shkurti, Liam Paull

100

Para que los robots realicen una amplia variedad de tareas, requieren una representación 3D del mundo que sea semánticamente rica, pero a la vez compacta y eficiente para la percepción y planificación orientadas a tareas. Enfoques recientes han intentado aprovechar características de modelos grandes de visión y lenguaje para codificar semántica en representaciones 3D. Sin embargo, estos enfoques tienden a producir mapas con vectores de características por punto, los cuales no escalan bien en entornos más grandes, ni contienen relaciones espaciales semánticas entre entidades en el entorno, las cuales son útiles para la planificación posterior. En este trabajo, proponemos ConceptGraphs, una representación estructurada en grafos de vocabulario abierto para escenas 3D. ConceptGraphs se construye aprovechando modelos fundamentales 2D y fusionando su salida a 3D mediante asociación multi-vista. Las representaciones resultantes generalizan a clases semánticas novedosas, sin la necesidad de recolectar grandes conjuntos de datos 3D o ajustar modelos. Demostramos la utilidad de esta representación a través de varias tareas de planificación posteriores que se especifican mediante indicaciones abstractas (en lenguaje) y requieren razonamiento complejo sobre conceptos espaciales y semánticos. (Página del proyecto: https://concept-graphs.github.io/ Video explicativo: https://youtu.be/mRhNkQwRYnc)

Modelos de lenguaje en el descubrimiento molecular
Language models in molecular discovery

Sep 28, 2023

Nikita Janakarajan, Tim Erdmann, Sarath Swaminathan, Teodoro Laino, Jannis Born

100

El éxito de los modelos de lenguaje, especialmente las arquitecturas basadas en transformadores, se ha extendido a otros dominios, dando lugar a los "modelos de lenguaje científicos" que operan sobre moléculas pequeñas, proteínas o polímeros. En química, los modelos de lenguaje contribuyen a acelerar el ciclo de descubrimiento de moléculas, como lo demuestran hallazgos recientes y prometedores en las primeras etapas del descubrimiento de fármacos. Aquí, revisamos el papel de los modelos de lenguaje en el descubrimiento molecular, destacando su fortaleza en el diseño de novo de fármacos, la predicción de propiedades y la química de reacciones. Resaltamos valiosos recursos de software de código abierto, lo que reduce la barrera de entrada al campo del modelado de lenguaje científico. Por último, esbozamos una visión para el diseño molecular futuro que combina una interfaz de chatbot con acceso a herramientas de química computacional. Nuestra contribución sirve como un recurso valioso para investigadores, químicos y entusiastas de la IA interesados en comprender cómo los modelos de lenguaje pueden y serán utilizados para acelerar el descubrimiento químico.

CCEdit: Edición de video creativa y controlable mediante modelos de difusión
CCEdit: Creative and Controllable Video Editing via Diffusion Models

Sep 28, 2023

Ruoyu Feng, Wenming Weng, Yanhui Wang, Yuhui Yuan, Jianmin Bao, Chong Luo, Zhibo Chen, Baining Guo

En este trabajo, presentamos CCEdit, un marco versátil diseñado para abordar los desafíos de la edición de videos creativa y controlable. CCEdit acomoda un amplio espectro de requisitos de edición por parte del usuario y permite un mayor control creativo mediante un enfoque innovador que desacopla la estructura y la apariencia del video. Aprovechamos la arquitectura fundamental de ControlNet para preservar la integridad estructural, mientras integramos de manera fluida módulos temporales adaptables compatibles con técnicas de personalización de última generación para la generación de texto a imagen, como DreamBooth y LoRA. Además, introducimos la edición de video condicionada por referencia, capacitando a los usuarios para ejercer un control creativo preciso sobre la edición de videos a través del proceso más manejable de editar fotogramas clave. Nuestras extensas evaluaciones experimentales confirman la funcionalidad excepcional y las capacidades de edición del marco propuesto CCEdit. El video de demostración está disponible en https://www.youtube.com/watch?v=UQw4jq-igN4.

Informe Técnico de Qwen
Qwen Technical Report

Sep 28, 2023

362

Papers Diarios

Los Transformers de Visión Necesitan Registros
Vision Transformers Need Registers

AnyMAL: Un Modelo de Lenguaje Aumentado Eficiente y Escalable para Cualquier Modalidad
AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model

DreamGaussian: Generación de Splatting Gaussiano para la Creación Eficiente de Contenido 3D
DreamGaussian: Generative Gaussian Splatting for Efficient 3D Content Creation

Informe Técnico de Qwen
Qwen Technical Report

Texto a 3D utilizando Splatting Gaussiano
Text-to-3D using Gaussian Splatting

Escalado Efectivo de Modelos Fundacionales para Contextos Extensos
Effective Long-Context Scaling of Foundation Models

Interpolación Profunda de Líneas de Dibujos Animados Geometrizados
Deep Geometrized Cartoon Line Inbetweening

Desmitificando los datos de CLIP
Demystifying CLIP Data

AutoCLIP: Ajuste Automático de Clasificadores de Cero Disparos para Modelos de Visión y Lenguaje
AutoCLIP: Auto-tuning Zero-Shot Classifiers for Vision-Language Models

MotionLM: Predicción de Movimiento Multiagente como Modelado de Lenguaje
MotionLM: Multi-Agent Motion Forecasting as Language Modeling

RealFill: Generación Guiada por Referencias para la Completación Auténtica de Imágenes
RealFill: Reference-Driven Generation for Authentic Image Completion

GPT-Fathom: Evaluación de Modelos de Lenguaje a Gran Escala para Descifrar la Trayectoria Evolutiva hacia GPT-4 y Más Allá
GPT-Fathom: Benchmarking Large Language Models to Decipher the Evolutionary Path towards GPT-4 and Beyond

Generación Alineada y Diversa de Audio a Video mediante Adaptación de Modelos de Texto a Video
Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model Adaptation

ConceptGraphs: Grafos Escénicos 3D de Vocabulario Abierto para Percepción y Planificación
ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and Planning

Modelos de lenguaje en el descubrimiento molecular
Language models in molecular discovery

CCEdit: Edición de video creativa y controlable mediante modelos de difusión
CCEdit: Creative and Controllable Video Editing via Diffusion Models

Support

Support

Papers Diarios

Los Transformers de Visión Necesitan Registros
Vision Transformers Need Registers

AnyMAL: Un Modelo de Lenguaje Aumentado Eficiente y Escalable para Cualquier Modalidad
AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model

DreamGaussian: Generación de Splatting Gaussiano para la Creación Eficiente de Contenido 3D
DreamGaussian: Generative Gaussian Splatting for Efficient 3D Content Creation

Informe Técnico de Qwen
Qwen Technical Report

Texto a 3D utilizando Splatting Gaussiano
Text-to-3D using Gaussian Splatting

Escalado Efectivo de Modelos Fundacionales para Contextos Extensos
Effective Long-Context Scaling of Foundation Models

Interpolación Profunda de Líneas de Dibujos Animados Geometrizados
Deep Geometrized Cartoon Line Inbetweening

Desmitificando los datos de CLIP
Demystifying CLIP Data

AutoCLIP: Ajuste Automático de Clasificadores de Cero Disparos para Modelos de Visión y Lenguaje
AutoCLIP: Auto-tuning Zero-Shot Classifiers for Vision-Language Models

MotionLM: Predicción de Movimiento Multiagente como Modelado de Lenguaje
MotionLM: Multi-Agent Motion Forecasting as Language Modeling

RealFill: Generación Guiada por Referencias para la Completación Auténtica de Imágenes
RealFill: Reference-Driven Generation for Authentic Image Completion

GPT-Fathom: Evaluación de Modelos de Lenguaje a Gran Escala para Descifrar la Trayectoria Evolutiva hacia GPT-4 y Más Allá
GPT-Fathom: Benchmarking Large Language Models to Decipher the Evolutionary Path towards GPT-4 and Beyond

Generación Alineada y Diversa de Audio a Video mediante Adaptación de Modelos de Texto a Video
Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model Adaptation

ConceptGraphs: Grafos Escénicos 3D de Vocabulario Abierto para Percepción y Planificación
ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and Planning

Modelos de lenguaje en el descubrimiento molecular
Language models in molecular discovery

CCEdit: Edición de video creativa y controlable mediante modelos de difusión
CCEdit: Creative and Controllable Video Editing via Diffusion Models