Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Atención Estelar: Inferencia Eficiente de LLM sobre Secuencias Largas
Star Attention: Efficient LLM Inference over Long Sequences

Nov 26

ByShantanu Acharya, Fei Jia, Boris Ginsburg

La inferencia con Modelos de Lenguaje Grandes (LLMs) basados en Transformadores en secuencias largas es costosa y lenta debido a la complejidad cuadrática del mecanismo de auto-atención. Introducimos Star Attention, una aproximación dispersa en bloques de dos fases que mejora la eficiencia computacional al dividir la atención entre múltiples nodos mientras se minimiza la sobrecarga de comunicación. En la primera fase, el contexto se procesa utilizando atención local en bloques entre nodos, en paralelo. En la segunda fase, los tokens de consulta y respuesta atienden a todos los tokens previamente almacenados a través de una atención global a la secuencia. Star Attention se integra perfectamente con la mayoría de los LLMs basados en Transformadores entrenados con atención global, reduciendo los requisitos de memoria y el tiempo de inferencia hasta en 11 veces mientras se preserva el 95-100% de precisión.

Viaje de Replicación O1 - Parte 2: ¿Superando O1-preview a través de una Destilación Simple, Gran Progreso o Lección Amarga?
O1 Replication Journey -- Part 2: Surpassing O1-preview through Simple Distillation, Big Progress or Bitter Lesson?

Nov 25

ByZhen Huang, Haoyang Zou, Xuefeng Li, Yixiu Liu, Yuxiang Zheng, Ethan Chern, Shijie Xia, Yiwei Qin, Weizhe Yuan, Pengfei Liu

Este documento presenta un examen crítico de los enfoques actuales para replicar las capacidades del modelo O1 de OpenAI, con un enfoque particular en el uso generalizado pero a menudo no divulgado de técnicas de destilación de conocimiento. Mientras que nuestro trabajo anterior exploró el camino técnico fundamental para replicar O1, este estudio revela cómo la simple destilación desde la API de O1, combinada con un ajuste fino supervisado, puede lograr un rendimiento superior en tareas complejas de razonamiento matemático. A través de experimentos extensos, demostramos que un modelo base ajustado fino en simplemente decenas de miles de muestras destiladas de O1 supera a O1 en la American Invitational Mathematics Examination (AIME) con una complejidad técnica mínima. Además, nuestra investigación se extiende más allá del razonamiento matemático para explorar las capacidades de generalización de los modelos destilados de O1 en diversas tareas: alucinación, seguridad y preguntas y respuestas de dominio abierto. Es notable que, a pesar de entrenar solo con datos de resolución de problemas matemáticos, nuestros modelos demostraron una fuerte capacidad de generalización a tareas de preguntas y respuestas abiertas y se volvieron significativamente menos susceptibles a la adulación después del ajuste fino. Deliberadamente hacemos este hallazgo público para promover la transparencia en la investigación de IA y desafiar la tendencia actual de afirmaciones técnicas oscurecidas en el campo. Nuestro trabajo incluye: (1) Una exposición técnica detallada del proceso de destilación y su efectividad, (2) Un marco de referencia de evaluación integral para evaluar y categorizar intentos de replicación de O1 basados en su transparencia técnica y reproducibilidad, (3) Una discusión crítica de las limitaciones y riesgos potenciales de depender demasiado de enfoques de destilación, nuestro análisis culmina en una lección amarga crucial: si bien la búsqueda de sistemas de IA más capaces es importante, el desarrollo de investigadores fundamentados en el pensamiento de primeros principios es primordial.

Material Anything: Generando materiales para cualquier objeto 3D a través de difusión
Material Anything: Generating Materials for Any 3D Object via Diffusion

Nov 22

ByXin Huang, Tengfei Wang, Ziwei Liu, Qing Wang

Presentamos Material Anything, un marco de difusión unificado totalmente automatizado diseñado para generar materiales basados en la física para objetos 3D. A diferencia de los métodos existentes que dependen de complejos flujos de trabajo o optimizaciones específicas de casos, Material Anything ofrece una solución sólida de extremo a extremo adaptable a objetos bajo diversas condiciones de iluminación. Nuestro enfoque aprovecha un modelo de difusión de imágenes pre-entrenado, mejorado con una arquitectura de triple cabeza y una pérdida de renderizado para mejorar la estabilidad y la calidad del material. Además, introducimos máscaras de confianza como un interruptor dinámico dentro del modelo de difusión, lo que le permite manejar eficazmente objetos texturizados y sin textura en diversas condiciones de iluminación. Al emplear una estrategia progresiva de generación de material guiada por estas máscaras de confianza, junto con un refinador de material en el espacio UV, nuestro método garantiza salidas de material consistentes y listas para UV. Experimentos extensos demuestran que nuestro enfoque supera a los métodos existentes en una amplia gama de categorías de objetos y condiciones de iluminación.

De la Generación al Juicio: Oportunidades y Desafíos de LLM-como-juez
From Generation to Judgment: Opportunities and Challenges of LLM-as-a-judge

Nov 25

ByDawei Li, Bohan Jiang, Liangjie Huang, Alimohammad Beigi, Chengshuai Zhao, Zhen Tan, Amrita Bhattacharjee, Yuxuan Jiang, Canyu Chen, Tianhao Wu, Kai Shu, Lu Cheng, Huan Liu

La evaluación y valoración han sido desafíos críticos en la inteligencia artificial (IA) y el procesamiento del lenguaje natural (PLN) desde hace mucho tiempo. Sin embargo, los métodos tradicionales, ya sean basados en coincidencias o en incrustaciones, a menudo no logran juzgar atributos sutiles y ofrecer resultados satisfactorios. Los avances recientes en Modelos de Lenguaje Grandes (LLMs) inspiran el paradigma "LLM-como-juez", donde los LLMs se utilizan para realizar puntuaciones, clasificaciones o selecciones en diversas tareas y aplicaciones. Este documento proporciona una encuesta exhaustiva sobre la valoración y juicio basados en LLM, ofreciendo una visión general detallada para avanzar en este campo emergente. Comenzamos dando definiciones detalladas desde perspectivas de entrada y salida. Luego presentamos una taxonomía integral para explorar el LLM-como-juez desde tres dimensiones: qué juzgar, cómo juzgar y dónde juzgar. Finalmente, recopilamos puntos de referencia para evaluar el LLM-como-juez y destacamos los desafíos clave y las direcciones prometedoras, con el objetivo de proporcionar ideas valiosas e inspirar futuras investigaciones en esta área de investigación prometedora. Se puede encontrar una lista de artículos y más recursos sobre LLM-como-juez en https://github.com/llm-as-a-judge/Awesome-LLM-as-a-judge y https://llm-as-a-judge.github.io.

GMAI-VL y GMAI-VL-5.5M: Un gran modelo de visión y lenguaje y un conjunto de datos multimodal completo hacia la IA médica general
GMAI-VL & GMAI-VL-5.5M: A Large Vision-Language Model and A Comprehensive Multimodal Dataset Towards General Medical AI

Nov 21

ByTianbin Li, Yanzhou Su, Wei Li, Bin Fu, Zhe Chen, Ziyan Huang, Guoan Wang, Chenglong Ma, Ying Chen, Ming Hu, Yanjun Li, Pengcheng Chen, Xiaowei Hu, Zhongying Deng, Yuanfeng Ji, Jin Ye, Yu Qiao, Junjun He

A pesar de los significativos avances en inteligencia artificial general, como GPT-4, su efectividad en el ámbito médico (inteligencia artificial médica general, GMAI) sigue siendo limitada debido a la ausencia de conocimientos médicos especializados. Para abordar este desafío, presentamos GMAI-VL-5.5M, un completo conjunto de datos médicos multimodal creado mediante la conversión de cientos de conjuntos de datos médicos especializados en pares de imágenes y texto meticulosamente construidos. Este conjunto de datos ofrece una cobertura de tareas integral, diversas modalidades y datos de imagen-texto de alta calidad. Basándonos en este conjunto de datos multimodal, proponemos GMAI-VL, un modelo de visión y lenguaje médico general con una estrategia de entrenamiento progresiva de tres etapas. Este enfoque mejora significativamente la capacidad del modelo al integrar información visual y textual, mejorando así su capacidad para procesar datos multimodales y apoyar el diagnóstico preciso y la toma de decisiones clínicas. Las evaluaciones experimentales demuestran que GMAI-VL logra resultados de vanguardia en una amplia gama de tareas médicas multimodales, como responder preguntas visuales y diagnóstico de imágenes médicas. Nuestras contribuciones incluyen el desarrollo del conjunto de datos GMAI-VL-5.5M, la introducción del modelo GMAI-VL y el establecimiento de nuevos puntos de referencia en múltiples dominios médicos. El código y el conjunto de datos se publicarán en https://github.com/uni-medical/GMAI-VL.

Modelo de Texto a Imagen a Gran Escala con Relleno es un Generador de Imágenes Dirigido por Sujeto de Cero Disparos
Large-Scale Text-to-Image Model with Inpainting is a Zero-Shot Subject-Driven Image Generator

Nov 23

ByChaehun Shin, Jooyoung Choi, Heeseung Kim, Sungroh Yoon

La generación de imágenes impulsada por el sujeto tiene como objetivo producir imágenes de un nuevo sujeto dentro de un contexto deseado capturando con precisión tanto las características visuales del sujeto como el contenido semántico de una indicación de texto. Los métodos tradicionales dependen de un ajuste fino intensivo en tiempo y recursos para la alineación del sujeto, mientras que los enfoques recientes de cero disparo aprovechan la indicación de imágenes sobre la marcha, a menudo sacrificando la alineación del sujeto. En este documento, presentamos Diptych Prompting, un enfoque novedoso de cero disparo que reinterpretación como una tarea de relleno con alineación precisa del sujeto aprovechando la propiedad emergente de generación de dipticos en modelos de generación de texto a imagen a gran escala. Diptych Prompting coloca un diptico incompleto con la imagen de referencia en el panel izquierdo y realiza un relleno condicionado por texto en el panel derecho. Además, evitamos la fuga de contenido no deseado eliminando el fondo en la imagen de referencia y mejoramos los detalles finos en el sujeto generado al mejorar los pesos de atención entre los paneles durante el relleno. Los resultados experimentales confirman que nuestro enfoque supera significativamente a los métodos de indicación de imagen de cero disparo, lo que resulta en imágenes que son visualmente preferidas por los usuarios. Además, nuestro método no solo respalda la generación impulsada por el sujeto, sino también la generación de imágenes estilizadas y la edición de imágenes impulsada por el sujeto, demostrando versatilidad en diversas aplicaciones de generación de imágenes. Página del proyecto: https://diptychprompting.github.io/

Reflexiones del Hackatón del Modelo de Lenguaje Grande (LLM) de 2024 para Aplicaciones en Ciencia de Materiales y Química
Reflections from the 2024 Large Language Model (LLM) Hackathon for Applications in Materials Science and Chemistry

Nov 20

ByYoel Zimmermann, Adib Bazgir, Zartashia Afzal, Fariha Agbere, Qianxiang Ai, Nawaf Alampara, Alexander Al-Feghali, Mehrad Ansari, Dmytro Antypov, Amro Aswad, Jiaru Bai, Viktoriia Baibakova, Devi Dutta Biswajeet, Erik Bitzek, Joshua D. Bocarsly, Anna Borisova, Andres M Bran, L. Catherine Brinson, Marcel Moran Calderon, Alessandro Canalicchio, Victor Chen, Yuan Chiang, Defne Circi, Benjamin Charmes, Vikrant Chaudhary, Zizhang Chen, Min-Hsueh Chiu, Judith Clymo, Kedar Dabhadkar, Nathan Daelman, Archit Datar, Matthew L. Evans, Maryam Ghazizade Fard, Giuseppe Fisicaro, Abhijeet Sadashiv Gangan, Janine George, Jose D. Cojal Gonzalez, Michael Götte, Ankur K. Gupta, Hassan Harb, Pengyu Hong, Abdelrahman Ibrahim, Ahmed Ilyas, Alishba Imran, Kevin Ishimwe, Ramsey Issa, Kevin Maik Jablonka, Colin Jones, Tyler R. Josephson, Greg Juhasz, Sarthak Kapoor, Rongda Kang, Ghazal Khalighinejad, Sartaaj Khan, Sascha Klawohn, Suneel Kuman, Alvin Noe Ladines, Sarom Leang, Magdalena Lederbauer, Sheng-Lun Mark Liao, Hao Liu, Xuefeng Liu, Stanley Lo, Sandeep Madireddy, Piyush Ranjan Maharana, Shagun Maheshwari, Soroush Mahjoubi, José A. Márquez, Rob Mills, Trupti Mohanty, Bernadette Mohr, Seyed Mohamad Moosavi, Alexander Moßhammer, Amirhossein D. Naghdi, Aakash Naik, Oleksandr Narykov, Hampus Näsström, Xuan Vu Nguyen, Xinyi Ni, Dana O'Connor, Teslim Olayiwola, Federico Ottomano, Aleyna Beste Ozhan, Sebastian Pagel, Chiku Parida, Jaehee Park, Vraj Patel, Elena Patyukova, Martin Hoffmann Petersen, Luis Pinto, José M. Pizarro, Dieter Plessers, Tapashree Pradhan, Utkarsh Pratiush, Charishma Puli, Andrew Qin, Mahyar Rajabi, Francesco Ricci, Elliot Risch, Martiño Ríos-García, Aritra Roy, Tehseen Rug, Hasan M Sayeed, Markus Scheidgen, Mara Schilling-Wilhelmi, Marcel Schloz, Fabian Schöppach, Julia Schumann, Philippe Schwaller, Marcus Schwarting, Samiha Sharlin, Kevin Shen, Jiale Shi, Pradip Si, Jennifer D'Souza, Taylor Sparks, Suraj Sudhakar, Leopold Talirz, Dandan Tang, Olga Taran, Carla Terboven, Mark Tropin, Anastasiia Tsymbal, Katharina Ueltzen, Pablo Andres Unzueta, Archit Vasan, Tirtha Vinchurkar, Trung Vo, Gabriel Vogel, Christoph Völker, Jan Weinreich, Faradawn Yang, Mohd Zaki, Chi Zhang, Sylvester Zhang, Weijie Zhang, Ruijie Zhu, Shang Zhu, Jan Janssen, Ian Foster, Ben Blaiszik

Aquí presentamos los resultados del segundo Hackatón de Modelos de Lenguaje Grande (LLM) para Aplicaciones en Ciencia de Materiales y Química, que involucró a participantes en ubicaciones híbridas globales, resultando en 34 presentaciones de equipos. Las presentaciones abarcaron siete áreas clave de aplicación y demostraron la diversa utilidad de los LLM para aplicaciones en (1) predicción de propiedades moleculares y de materiales; (2) diseño molecular y de materiales; (3) automatización e interfaces novedosas; (4) comunicación científica y educación; (5) gestión y automatización de datos de investigación; (6) generación y evaluación de hipótesis; y (7) extracción de conocimiento y razonamiento a partir de la literatura científica. Cada presentación de equipo se muestra en una tabla resumen con enlaces al código y como breves documentos en el apéndice. Además de los resultados de los equipos, discutimos el evento del hackatón y su formato híbrido, que incluyó centros físicos en Toronto, Montreal, San Francisco, Berlín, Lausana y Tokio, junto con un centro global en línea para facilitar la colaboración local y virtual. En general, el evento destacó mejoras significativas en las capacidades de los LLM desde el hackatón del año anterior, sugiriendo una expansión continua de los LLM para aplicaciones en la investigación de ciencia de materiales y química. Estos resultados demuestran la doble utilidad de los LLM como modelos multipropósito para diversas tareas de aprendizaje automático y plataformas para el prototipado rápido de aplicaciones personalizadas en la investigación científica.

Una Difusión para Generarlos a Todos
One Diffusion to Generate Them All

Nov 25

ByDuong H. Le, Tuan Pham, Sangho Lee, Christopher Clark, Aniruddha Kembhavi, Stephan Mandt, Ranjay Krishna, Jiasen Lu

Presentamos OneDiffusion, un modelo de difusión versátil a gran escala que admite de manera fluida la síntesis bidireccional de imágenes y la comprensión en diversas tareas. Permite la generación condicional a partir de entradas como texto, profundidad, pose, diseño y mapas semánticos, al tiempo que aborda tareas como el desenfoque de imágenes, aumento de resolución y procesos inversos como la estimación de profundidad y segmentación de imágenes. Además, OneDiffusion permite la generación de múltiples vistas, estimación de la pose de la cámara y personalización instantánea utilizando entradas de imágenes secuenciales. Nuestro modelo adopta un enfoque sencillo pero efectivo al tratar todas las tareas como secuencias de fotogramas con diferentes escalas de ruido durante el entrenamiento, lo que permite que cualquier fotograma actúe como imagen condicionante en el momento de la inferencia. Nuestro marco unificado de entrenamiento elimina la necesidad de arquitecturas especializadas, admite un entrenamiento multi-tarea escalable y se adapta sin problemas a cualquier resolución, mejorando tanto la generalización como la escalabilidad. Los resultados experimentales demuestran un rendimiento competitivo en tareas de generación y predicción como texto a imagen, generación multivista, preservación de identificación, estimación de profundidad y estimación de la pose de la cámara a pesar de un conjunto de datos de entrenamiento relativamente pequeño. Nuestro código y punto de control están disponibles de forma gratuita en https://github.com/lehduong/OneDiffusion

MH-MoE: Multi-Cabeza Mezcla de Expertos
MH-MoE:Multi-Head Mixture-of-Experts

Nov 25

ByShaohan Huang, Xun Wu, Shuming Ma, Furu Wei

El modelo Multi-Head Mixture-of-Experts (MH-MoE) demuestra un rendimiento superior al utilizar el mecanismo multi-head para atender colectivamente la información de diversos espacios de representación dentro de diferentes expertos. En este artículo, presentamos una implementación novedosa de MH-MoE que mantiene tanto los FLOPs como la paridad de parámetros con modelos dispersos de Mixture of Experts. Los resultados experimentales en modelos de lenguaje muestran que la nueva implementación produce mejoras en la calidad tanto en comparación con MoE estándar como con modelos MoE detallados. Además, nuestros experimentos demuestran que MH-MoE es compatible con Modelos de Lenguaje Grandes (LLMs) de 1-bit como BitNet.

Segmentación Interactiva de Imágenes Médicas: Un Conjunto de Datos de Referencia y Baseline
Interactive Medical Image Segmentation: A Benchmark Dataset and Baseline

Nov 19

ByJunlong Cheng, Bin Fu, Jin Ye, Guoan Wang, Tianbin Li, Haoyu Wang, Ruoyu Li, He Yao, Junren Chen, JingWen Li, Yanzhou Su, Min Zhu, Junjun He

La Segmentación Interactiva de Imágenes Médicas (IMIS, por sus siglas en inglés) ha estado durante mucho tiempo limitada por la disponibilidad limitada de conjuntos de datos grandes, diversos y densamente anotados, lo que dificulta la generalización del modelo y la evaluación consistente entre diferentes modelos. En este artículo, presentamos el conjunto de datos de referencia IMed-361M, un avance significativo en la investigación general de IMIS. En primer lugar, recopilamos y estandarizamos más de 6.4 millones de imágenes médicas y sus máscaras de verdad terreno correspondientes de múltiples fuentes de datos. Luego, aprovechando las sólidas capacidades de reconocimiento de objetos de un modelo visionario fundamental, generamos automáticamente máscaras interactivas densas para cada imagen y garantizamos su calidad a través de un riguroso control de calidad y gestión de granularidad. A diferencia de conjuntos de datos anteriores, que están limitados por modalidades específicas o anotaciones dispersas, IMed-361M abarca 14 modalidades y 204 objetivos de segmentación, con un total de 361 millones de máscaras, un promedio de 56 máscaras por imagen. Finalmente, desarrollamos una red de referencia de IMIS en este conjunto de datos que admite la generación de máscaras de alta calidad a través de entradas interactivas, que incluyen clics, cuadros delimitadores, indicaciones de texto y sus combinaciones. Evaluamos su rendimiento en tareas de segmentación de imágenes médicas desde múltiples perspectivas, demostrando una precisión y escalabilidad superiores en comparación con los modelos de segmentación interactiva existentes. Para facilitar la investigación sobre modelos fundamentales en visión por computadora médica, publicamos IMed-361M y el modelo en https://github.com/uni-medical/IMIS-Bench.

SegBook: Una línea base simple y manual de instrucciones para la segmentación de imágenes médicas volumétricas
SegBook: A Simple Baseline and Cookbook for Volumetric Medical Image Segmentation

Nov 21

ByJin Ye, Ying Chen, Yanjun Li, Haoyu Wang, Zhongying Deng, Ziyan Huang, Yanzhou Su, Chenglong Ma, Yuanfeng Ji, Junjun He

La Tomografía Computarizada (TC) es una de las modalidades más populares para la obtención de imágenes médicas. Hasta ahora, las imágenes de TC han contribuido a los conjuntos de datos públicos más grandes para tareas de segmentación médica volumétrica, abarcando estructuras anatómicas de cuerpo completo. Grandes cantidades de imágenes de TC de cuerpo completo brindan la oportunidad de pre-entrenar modelos potentes, por ejemplo, STU-Net pre-entrenado de manera supervisada, para segmentar numerosas estructuras anatómicas. Sin embargo, sigue siendo incierto en qué condiciones estos modelos pre-entrenados pueden transferirse a diversas tareas de segmentación médica posteriores, en particular la segmentación de otras modalidades y objetivos diversos. Para abordar este problema, es crucial contar con un benchmark a gran escala para una evaluación exhaustiva que permita identificar estas condiciones. Por lo tanto, recopilamos 87 conjuntos de datos públicos que varían en modalidad, objetivo y tamaño de muestra para evaluar la capacidad de transferencia de modelos pre-entrenados de TC de cuerpo completo. Luego, empleamos un modelo representativo, STU-Net con múltiples escalas de modelo, para llevar a cabo el aprendizaje por transferencia entre modalidades y objetivos. Nuestros resultados experimentales muestran que (1) puede haber un efecto de cuello de botella en cuanto al tamaño del conjunto de datos en el ajuste fino, con una mayor mejora tanto en conjuntos de datos pequeños como grandes que en los de tamaño mediano. (2) Los modelos pre-entrenados en TC de cuerpo completo demuestran una transferencia efectiva de modalidad, adaptándose bien a otras modalidades como la resonancia magnética (RM). (3) El pre-entrenamiento en TC de cuerpo completo no solo respalda un rendimiento sólido en la detección de estructuras, sino que también muestra eficacia en la detección de lesiones, demostrando adaptabilidad en tareas de objetivo. Esperamos que esta evaluación a gran escala del aprendizaje por transferencia pueda orientar la investigación futura en la segmentación de imágenes médicas volumétricas.

DreamRunner: Generación de Videos de Narración Detallada con Adaptación de Movimiento Aumentada por Recuperación.
DreamRunner: Fine-Grained Storytelling Video Generation with Retrieval-Augmented Motion Adaptation

Nov 25

ByZun Wang, Jialu Li, Han Lin, Jaehong Yoon, Mohit Bansal

La generación de videos narrativos (SVG) ha surgido recientemente como una tarea para crear videos largos, con múltiples movimientos y escenas que representen consistentemente la historia descrita en el guion de texto de entrada. El SVG tiene un gran potencial para la creación de contenido diverso en medios y entretenimiento; sin embargo, también presenta desafíos significativos: (1) los objetos deben exhibir una variedad de movimientos complejos y detallados, (2) múltiples objetos deben aparecer consistentemente a lo largo de las escenas y (3) los sujetos pueden requerir múltiples movimientos con transiciones fluidas dentro de una sola escena. Para abordar estos desafíos, proponemos DreamRunner, un novedoso método de generación de video a partir de historias: Primero, estructuramos el guion de entrada utilizando un gran modelo de lenguaje (LLM) para facilitar tanto la planificación de escenas a nivel grueso como la disposición de objetos detallada y la planificación de movimientos. A continuación, DreamRunner presenta una adaptación en tiempo de prueba aumentada por recuperación para capturar prioridades de movimiento objetivo para los objetos en cada escena, apoyando la personalización de movimientos diversos basados en videos recuperados, facilitando así la generación de nuevos videos con movimientos complejos y guionizados. Por último, proponemos un módulo de atención 3D basado en regiones espacio-temporales y en inyección de prioridades SR3AI para la vinculación de movimientos de objetos detallados y el control semántico cuadro por cuadro. Comparamos DreamRunner con varias líneas base de SVG, demostrando un rendimiento de vanguardia en consistencia de personajes, alineación de texto y transiciones suaves. Además, DreamRunner muestra una sólida capacidad de seguimiento de condiciones detalladas en la generación de texto a video compuesto, superando significativamente a las líneas base en T2V-ComBench. Finalmente, validamos la capacidad robusta de DreamRunner para generar interacciones multiobjetos con ejemplos cualitativos.

Tokenización Visual Factorizada y Generación
Factorized Visual Tokenization and Generation

Nov 25

ByZechen Bai, Jianxiong Gao, Ziteng Gao, Pichao Wang, Zheng Zhang, Tong He, Mike Zheng Shou

Los tokenizadores visuales son fundamentales para la generación de imágenes. Convierten los datos visuales en tokens discretos, permitiendo que los modelos basados en transformadores destaquen en la generación de imágenes. A pesar de su éxito, los tokenizadores basados en VQ, como VQGAN, enfrentan limitaciones significativas debido a tamaños de vocabulario restringidos. Simplemente expandir el libro de códigos a menudo conduce a inestabilidad en el entrenamiento y a una disminución en los avances de rendimiento, lo que convierte a la escalabilidad en un desafío crítico. En este trabajo, presentamos la Cuantización Factorizada (FQ), un enfoque novedoso que revitaliza los tokenizadores basados en VQ al descomponer un gran libro de códigos en múltiples sub-libros de códigos independientes. Esta factorización reduce la complejidad de búsqueda de grandes libros de códigos, permitiendo una tokenización visual más eficiente y escalable. Para asegurar que cada sub-libro de códigos capture información distinta y complementaria, proponemos una regularización de desentrelazado que reduce explícitamente la redundancia, promoviendo la diversidad entre los sub-libros de códigos. Además, integramos el aprendizaje de representaciones en el proceso de entrenamiento, aprovechando modelos de visión preentrenados como CLIP y DINO para infundir riqueza semántica en las representaciones aprendidas. Este diseño asegura que nuestro tokenizador capture diversos niveles semánticos, lo que resulta en representaciones más expresivas y desentrelazadas. Los experimentos muestran que el modelo propuesto FQGAN mejora sustancialmente la calidad de reconstrucción de los tokenizadores visuales, logrando un rendimiento de vanguardia. Además, demostramos que este tokenizador puede adaptarse de manera efectiva a la generación de imágenes auto-regresiva. https://showlab.github.io/FQGAN

Optimizadores Cautelosos: Mejorando el Entrenamiento con una Línea de Código
Cautious Optimizers: Improving Training with One Line of Code

Nov 25

ByKaizhao Liang, Lizhang Chen, Bo Liu, Qiang Liu

AdamW ha sido el optimizador predeterminado para el preentrenamiento de transformadores. Durante muchos años, nuestra comunidad ha buscado optimizadores más rápidos y estables con resultados positivos únicamente. En este trabajo, proponemos una modificación de una sola línea en Pytorch para cualquier optimizador basado en momento, al que renombramos como Optimizador Cauteloso, por ejemplo, C-AdamW y C-Lion. Nuestro resultado teórico muestra que esta modificación conserva la función Hamiltoniana de Adam y no rompe la garantía de convergencia bajo el análisis de Lyapunov. Además, nuestra perspicacia teórica revela toda una nueva familia de optimizadores. Entre ellos, elegimos el más simple para experimentos empíricos, mostrando una aceleración en el preentrenamiento de Llama y MAE de hasta 1.47 veces. El código está disponible en https://github.com/kyleliang919/C-Optim.

VisualLens: Personalización a través de la Historia Visual
VisualLens: Personalization through Visual History

Nov 25

ByWang Bill Zhu, Deqing Fu, Kai Sun, Yi Lu, Zhaojiang Lin, Seungwhan Moon, Kanika Narang, Mustafa Canim, Yue Liu, Anuj Kumar, Xin Luna Dong

Hacemos la hipótesis de que el historial visual de un usuario con imágenes que reflejan su vida diaria, ofrece valiosas perspectivas sobre sus intereses y preferencias, y puede ser aprovechado para la personalización. Entre los numerosos desafíos para lograr este objetivo, el principal es la diversidad y el ruido en el historial visual, que contiene imágenes no necesariamente relacionadas con una tarea de recomendación, no reflejando necesariamente el interés del usuario, o incluso no siendo necesariamente relevante para sus preferencias. Los sistemas de recomendación existentes se basan en registros de interacción de usuarios específicos de la tarea, como el historial de compras en línea para recomendaciones de compras, o se centran en señales de texto. Proponemos un enfoque novedoso, VisualLens, que extrae, filtra y perfecciona representaciones de imágenes, y aprovecha estas señales para la personalización. Creamos dos nuevos puntos de referencia con historiales visuales agnósticos a la tarea, y mostramos que nuestro método mejora las recomendaciones de vanguardia en un 5-10% en Hit@3, y mejora en un 2-5% sobre GPT-4o. Nuestro enfoque allana el camino para recomendaciones personalizadas en escenarios donde los métodos tradicionales fallan.

TEXGen: un Modelo Generativo de Difusión para Texturas de Malla
TEXGen: a Generative Diffusion Model for Mesh Textures

Nov 22

ByXin Yu, Ze Yuan, Yuan-Chen Guo, Ying-Tian Liu, JianHui Liu, Yangguang Li, Yan-Pei Cao, Ding Liang, Xiaojuan Qi

Si bien los mapas de texturas de alta calidad son esenciales para la renderización realista de activos 3D, pocos estudios han explorado el aprendizaje directamente en el espacio de texturas, especialmente en conjuntos de datos a gran escala. En este trabajo, nos apartamos del enfoque convencional de depender de modelos de difusión 2D pre-entrenados para la optimización en tiempo de prueba de texturas 3D. En su lugar, nos centramos en el problema fundamental de aprender en el espacio de textura UV en sí mismo. Por primera vez, entrenamos un gran modelo de difusión capaz de generar directamente mapas de texturas de alta resolución de manera feed-forward. Para facilitar un aprendizaje eficiente en espacios UV de alta resolución, proponemos una arquitectura de red escalable que entrelaza convoluciones en mapas UV con capas de atención en nubes de puntos. Aprovechando este diseño arquitectónico, entrenamos un modelo de difusión con 700 millones de parámetros que puede generar mapas de texturas UV guiados por indicaciones de texto e imágenes de una sola vista. Una vez entrenado, nuestro modelo admite naturalmente varias aplicaciones extendidas, incluyendo el relleno de texturas guiado por texto, la completación de texturas de vista escasa y la síntesis de texturas impulsada por texto. La página del proyecto se encuentra en http://cvmi-lab.github.io/TEXGen/.

Transferencia de Conocimiento entre Modalidades con Supervisión de Lenguaje Natural
Knowledge Transfer Across Modalities with Natural Language Supervision

Nov 23

ByCarlo Alberto Barbano, Luca Molinaro, Emanuele Aiello, Marco Grangetto

Presentamos una forma de aprender conceptos novedosos utilizando únicamente su descripción textual. Llamamos a este método Transferencia de Conocimiento. De manera similar a la percepción humana, aprovechamos la interacción entre modalidades para introducir nuevos conceptos. Planteamos la hipótesis de que en un codificador visual pre-entrenado ya se han aprendido suficientes características de bajo nivel (por ejemplo, forma, apariencia, color) que pueden utilizarse para describir conceptos de alto nivel previamente desconocidos. Al proporcionar una descripción textual del concepto novedoso, nuestro método funciona al alinear las características de bajo nivel conocidas del codificador visual con su descripción textual de alto nivel. Mostramos que la Transferencia de Conocimiento puede introducir con éxito conceptos novedosos en modelos multimodales, de manera muy eficiente, al requerir únicamente una descripción del concepto objetivo. Nuestro enfoque es compatible tanto con codificadores textuales y visuales separados (por ejemplo, CLIP) como con parámetros compartidos entre modalidades. También demostramos que, siguiendo el mismo principio, la Transferencia de Conocimiento puede mejorar los conceptos ya conocidos por el modelo. Al aprovechar la Transferencia de Conocimiento, mejoramos el rendimiento de cero disparos en diferentes tareas como clasificación, segmentación, recuperación de imágenes-texto y descripción de imágenes.

De CISC a RISC: transpilación de ensamblador guiada por modelos de lenguaje.
From CISC to RISC: language-model guided assembly transpilation

Nov 25

ByAhmed Heakl, Chaimaa Abi, Rania Hossam, Abdulrahman Mahmoud

La transición de la arquitectura x86 a ARM se está volviendo cada vez más común en diversos ámbitos, impulsada principalmente por la eficiencia energética de ARM y el mejor rendimiento en sectores tradicionales. Sin embargo, este cambio de ISA plantea desafíos significativos, principalmente debido al extenso ecosistema heredado de software x86 y la falta de portabilidad entre ecosistemas y pilas de software propietarios. Este artículo presenta CRT, un transpilador ligero basado en LLM que convierte automáticamente el ensamblador x86 al ensamblador ARM. Nuestro enfoque aborda la brecha arquitectónica fundamental entre el CISC de x86 y el RISC de ARM, preservando la semántica del programa y optimizando el rendimiento. Evaluamos CRT en diversas aplicaciones del mundo real, logrando una precisión de traducción del 79.25% de x86 a ARMv5 en nuestra suite de pruebas exhaustiva, y una precisión del 88.68% de x86 a RISC-V. En implementaciones prácticas en hardware Apple M2 (ARMv8), nuestro código transpilado logra una mejora de velocidad de 1.73 veces en comparación con el motor de virtualización Rosetta 2 de Apple, al tiempo que ofrece una eficiencia de memoria 2.41 veces mayor y un consumo de energía 1.47 veces mejor. A través de pruebas y análisis, demostramos que CRT navega con éxito la división CISC/RISC y genera código RISC ejecutable correctamente a pesar de las barreras de "lenguaje" de la máquina. Publicamos nuestro código, modelos, conjuntos de datos de entrenamiento y benchmarks en: https://ahmedheakl.github.io/asm2asm/.

SplatFlow: Modelo de Flujo Rectificado de Múltiples Vistas para Splatting Gaussiano en 3D
SplatFlow: Multi-View Rectified Flow Model for 3D Gaussian Splatting Synthesis

Nov 25

ByHyojun Go, Byeongjun Park, Jiho Jang, Jin-Young Kim, Soonwoo Kwon, Changick Kim

La generación y edición basadas en texto de escenas 3D tienen un gran potencial para agilizar la creación de contenido a través de interacciones intuitivas con el usuario. Si bien los avances recientes aprovechan el Splatting Gaussiano 3D (3DGS) para renderizado de alta fidelidad y en tiempo real, los métodos existentes a menudo son especializados y centrados en tareas específicas, careciendo de un marco unificado tanto para la generación como para la edición. En este documento, presentamos SplatFlow, un marco integral que aborda esta brecha al permitir la generación y edición directa de 3DGS. SplatFlow consta de dos componentes principales: un modelo de flujo rectificado (RF) multi-vista y un Decodificador de Splatting Gaussiano (GSDecoder). El modelo RF multi-vista opera en el espacio latente, generando imágenes multi-vista, profundidades y poses de cámara simultáneamente, condicionadas a indicaciones de texto, abordando así desafíos como escalas de escena diversas y trayectorias de cámara complejas en entornos del mundo real. Luego, el GSDecoder traduce eficientemente estas salidas latentes en representaciones 3DGS a través de un método 3DGS de avance rápido. Aprovechando técnicas de inversión e inpainting sin entrenamiento, SplatFlow permite una edición de 3DGS fluida y admite una amplia gama de tareas 3D, incluida la edición de objetos, síntesis de vistas novedosas y estimación de poses de cámara, dentro de un marco unificado sin requerir tuberías complejas adicionales. Validamos las capacidades de SplatFlow en los conjuntos de datos MVImgNet y DL3DV-7K, demostrando su versatilidad y efectividad en diversas tareas de generación, edición e inpainting en 3D.

Todas las lenguas importan: Evaluación de LMM en 100 lenguas culturalmente diversas
All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages

Nov 25

ByAshmal Vayani, Dinura Dissanayake, Hasindri Watawana, Noor Ahsan, Nevasini Sasikumar, Omkar Thawakar, Henok Biadglign Ademtew, Yahya Hmaiti, Amandeep Kumar, Kartik Kuckreja, Mykola Maslych, Wafa Al Ghallabi, Mihail Mihaylov, Chao Qin, Abdelrahman M Shaker, Mike Zhang, Mahardika Krisna Ihsani, Amiel Esplana, Monil Gokani, Shachar Mirkin, Harsh Singh, Ashay Srivastava, Endre Hamerlik, Fathinah Asma Izzati, Fadillah Adamsyah Maani, Sebastian Cavada, Jenny Chim, Rohit Gupta, Sanjay Manjunath, Kamila Zhumakhanova, Feno Heriniaina Rabevohitra, Azril Amirudin, Muhammad Ridzuan, Daniya Kareem, Ketan More, Kunyang Li, Pramesh Shakya, Muhammad Saad, Amirpouya Ghasemaghaei, Amirbek Djanibekov, Dilshod Azizov, Branislava Jankovic, Naman Bhatia, Alvaro Cabrera, Johan Obando-Ceron, Olympiah Otieno, Fabian Farestam, Muztoba Rabbani, Sanoojan Baliah, Santosh Sanjeev, Abduragim Shtanchaev, Maheen Fatima, Thao Nguyen, Amrin Kareem, Toluwani Aremu, Nathan Xavier, Amit Bhatkal, Hawau Toyin, Aman Chadha, Hisham Cholakkal, Rao Muhammad Anwer, Michael Felsberg, Jorma Laaksonen, Thamar Solorio, Monojit Choudhury, Ivan Laptev, Mubarak Shah, Salman Khan, Fahad Khan

Los Modelos Multimodales Grandes (LMMs) existentes suelen centrarse únicamente en algunas regiones y idiomas. A medida que los LMMs continúan mejorando, es cada vez más importante asegurar que comprendan los contextos culturales, respeten las sensibilidades locales y apoyen los idiomas con recursos limitados, todo ello integrando eficazmente las señales visuales correspondientes. En la búsqueda de modelos multimodales globales culturalmente diversos, nuestro propuesto Banco de Pruebas Todos los Idiomas Importan (ALM-bench) representa el esfuerzo más grande y completo hasta la fecha para evaluar LMMs en 100 idiomas. ALM-bench desafía a los modelos existentes al poner a prueba su capacidad para comprender y razonar sobre imágenes culturalmente diversas emparejadas con texto en varios idiomas, incluyendo muchos idiomas con recursos limitados tradicionalmente subrepresentados en la investigación de LMMs. El banco de pruebas ofrece un marco de evaluación sólido y matizado que incluye varios formatos de preguntas, como verdadero/falso, opción múltiple y preguntas abiertas, que a su vez se dividen en categorías de respuestas cortas y largas. El diseño de ALM-bench garantiza una evaluación integral de la capacidad de un modelo para manejar diferentes niveles de dificultad en el razonamiento visual y lingüístico. Para capturar la rica diversidad de culturas globales, ALM-bench selecciona cuidadosamente contenido de 13 aspectos culturales distintos, que van desde tradiciones y rituales hasta personalidades famosas y celebraciones. A través de esto, ALM-bench no solo proporciona un terreno de prueba riguroso para LMMs de código abierto y cerrado de última generación, sino que también destaca la importancia de la inclusividad cultural y lingüística, fomentando el desarrollo de modelos que puedan servir de manera efectiva a diversas poblaciones globales. Nuestro banco de pruebas está disponible públicamente.

Los LLMs no piensan paso a paso en el razonamiento implícito.
LLMs Do Not Think Step-by-step In Implicit Reasoning

Nov 24

ByYijiong Yu

Ha sido bien sabido que la Cadena de Pensamiento puede mejorar notablemente el rendimiento de los LLMs en tareas complejas. Sin embargo, debido a que también introduce velocidades de inferencia más lentas y mayores costos computacionales, muchos investigadores han intentado utilizar CoT implícito, el cual no requiere que los LLMs generen explícitamente los pasos intermedios. A pesar de esto, todavía existe una brecha entre su eficacia y los métodos típicos de CoT explícito. Esto nos lleva a cuestionar si el CoT implícito realmente equivale al CoT explícito. Por lo tanto, en este estudio abordamos esta pregunta a través de experimentos. Investigamos la información de los pasos intermedios a partir de los estados ocultos del modelo cuando está realizando CoT implícito. Los resultados indican sorprendentemente que los LLMs apenas consideran los pasos intermedios, lo que sugiere que pueden depender más de la experiencia que de un razonamiento estricto paso a paso. Además, encontramos que las capacidades de razonamiento implícito de los LLMs son susceptibles e inestables, reafirmando la necesidad de CoT explícito para apoyar efectivamente tareas complejas.

Lo mejor de ambos mundos: Ventajas de los Modelos Híbridos de Secuencias de Grafos
Best of Both Worlds: Advantages of Hybrid Graph Sequence Models

Nov 23

ByAli Behrouz, Ali Parviz, Mahdi Karami, Clayton Sanford, Bryan Perozzi, Vahab Mirrokni

Los modelos de secuencia modernos (por ejemplo, Transformers, RNN lineales, etc.) han surgido como las estructuras principales de los marcos de aprendizaje profundo recientes, principalmente debido a su eficiencia, poder representativo y/o capacidad para capturar dependencias a largo plazo. La adopción de estos modelos de secuencia para datos estructurados en grafo ha ganado popularidad recientemente como alternativa a las Redes Neuronales de Paso de Mensajes (MPNNs). Sin embargo, existe una falta de una base común sobre lo que constituye un buen modelo de secuencia de grafo, y una descripción matemática de los beneficios y deficiencias al adoptar diferentes modelos de secuencia para el aprendizaje en grafos. Con este fin, primero presentamos el Modelo de Secuencia de Grafo (GSM), un marco unificador para adoptar modelos de secuencia para grafos, que consta de tres pasos principales: (1) Tokenización, que traduce el grafo en un conjunto de secuencias; (2) Codificación Local, que codifica los vecindarios locales alrededor de cada nodo; y (3) Codificación Global, que emplea un modelo de secuencia escalable para capturar dependencias a largo plazo dentro de las secuencias. Este marco nos permite comprender, evaluar y comparar el poder de las estructuras de modelos de secuencia diferentes en tareas de grafo. Nuestras evaluaciones teóricas del poder de representación de Transformers y modelos recurrentes modernos a través del prisma de tareas de grafo globales y locales muestran que existen aspectos negativos y positivos para ambos tipos de modelos. Basándonos en esta observación, presentamos GSM++, un modelo híbrido rápido que utiliza el algoritmo de Agrupamiento de Afinidad Jerárquica (HAC) para tokenizar el grafo en secuencias jerárquicas, y luego emplea una arquitectura híbrida de Transformer para codificar estas secuencias. Nuestros resultados teóricos y experimentales respaldan el diseño de GSM++, mostrando que GSM++ supera a los puntos de referencia en la mayoría de las evaluaciones de referencia.

La Prueba Imposible: Un Conjunto de Datos Insoluble para 2024 y una Oportunidad para una AGI Cuestionario
The Impossible Test: A 2024 Unsolvable Dataset and A Chance for an AGI Quiz

Nov 20

ByDavid Noever, Forrest McKee

Esta investigación introduce un nuevo marco de evaluación diseñado para evaluar la capacidad de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) para reconocer la incertidumbre en 675 problemas fundamentalmente insolubles. Utilizando un conjunto de datos seleccionado de preguntas de desafío de nivel de posgrado con respuestas intencionalmente desconocidas, evaluamos doce LLMs de última generación, incluyendo modelos de código abierto y cerrado, en su propensión a admitir la ignorancia en lugar de generar respuestas plausibles pero incorrectas. Los mejores modelos obtuvieron rangos de precisión del 62 al 68% al admitir que la solución del problema era desconocida en campos que van desde la biología hasta la filosofía y las matemáticas. Observamos una relación inversa entre la dificultad del problema y la precisión del modelo, con GPT-4 demostrando tasas más altas de reconocimiento de la incertidumbre en problemas más desafiantes (35.8%) en comparación con los más simples (20.0%). Este patrón indica que los modelos pueden ser más propensos a generar respuestas especulativas cuando los problemas parecen más abordables. El estudio también reveló variaciones significativas entre las categorías de problemas, con los modelos mostrando dificultades para reconocer la incertidumbre en problemas de invención y NP-difíciles, mientras que se desempeñaban relativamente mejor en desafíos filosóficos y psicológicos. Estos resultados contribuyen al creciente cuerpo de investigación sobre la evaluación de la inteligencia artificial general (AGI, por sus siglas en inglés) al resaltar la importancia del reconocimiento de la incertidumbre como un componente crítico de la evaluación futura de la inteligencia de las máquinas. Esta prueba de imposibilidad extiende así los marcos teóricos previos para las pruebas de inteligencia universal al proporcionar evidencia empírica de las limitaciones actuales en la capacidad de los LLMs para reconocer los límites de su propio conocimiento, sugiriendo nuevas direcciones para mejorar las arquitecturas de entrenamiento de modelos y los enfoques de evaluación.

Predicción de Capacidades Emergentes mediante Ajuste Fino
Predicting Emergent Capabilities by Finetuning

Nov 25

ByCharlie Snell, Eric Wallace, Dan Klein, Sergey Levine

Un desafío fundamental abierto en la escalabilidad moderna de los LLM es la falta de comprensión en torno a las capacidades emergentes. En particular, se sabe que la pérdida de preentrenamiento del modelo de lenguaje es altamente predecible en función del cálculo. Sin embargo, las capacidades posteriores son mucho menos predecibles, a veces incluso mostrando saltos emergentes, lo que dificulta anticipar las capacidades de los modelos futuros. En este trabajo, planteamos primero la tarea de predicción de emergencia: dado acceso a LLMs actuales que tienen precisión aleatoria de pocos disparos en una tarea, ¿podemos predecir si los modelos futuros (GPT-N+1) tendrán precisión no trivial en esa tarea? Luego descubrimos una idea simple para este problema: el ajuste fino de LLMs en una tarea dada puede desplazar el punto en la escala en el que ocurre la emergencia hacia modelos menos capaces. Para operacionalizar esta idea, podemos ajustar finamente LLMs con diferentes cantidades de datos y ajustar una función paramétrica que predice cuándo ocurrirá la emergencia (es decir, "leyes de emergencia"). Validamos este enfoque utilizando cuatro pruebas estándar de PNL donde los LLMs de código abierto a gran escala ya demuestran emergencia (MMLU, GSM8K, CommonsenseQA y CoLA). Utilizando solo LLMs a pequeña escala, encontramos que, en algunos casos, podemos predecir con precisión si los modelos entrenados con hasta 4 veces más cálculo han emergido. Finalmente, presentamos un estudio de caso de dos usos realistas para la predicción de emergencia.

Encuentra Cualquier Parte en 3D
Find Any Part in 3D

Nov 20

ByZiqi Ma, Yisong Yue, Georgia Gkioxari

Estudiamos la segmentación de partes en el mundo abierto en 3D: segmentando cualquier parte en cualquier objeto basado en cualquier consulta de texto. Los métodos previos están limitados en categorías de objetos y vocabularios de partes. Los avances recientes en IA han demostrado capacidades efectivas de reconocimiento en el mundo abierto en 2D. Inspirados por este progreso, proponemos un modelo de predicción directa de mundo abierto para la segmentación de partes en 3D que puede aplicarse de manera de cero disparos a cualquier objeto. Nuestro enfoque, llamado Find3D, entrena un modelo de incrustación de puntos de categoría general en activos 3D a gran escala de internet sin ninguna anotación humana. Combina un motor de datos, impulsado por modelos fundamentales para la anotación de datos, con un método de entrenamiento contrastivo. Logramos un rendimiento sólido y generalización en múltiples conjuntos de datos, con una mejora de hasta 3 veces en mIoU sobre el siguiente mejor método. Nuestro modelo es de 6 a más de 300 veces más rápido que las líneas de base existentes. Para fomentar la investigación en la segmentación de partes en 3D de categoría general en el mundo abierto, también lanzamos un punto de referencia para objetos y partes generales. Sitio web del proyecto: https://ziqi-ma.github.io/find3dsite/

DreamMix: Desacoplar Atributos de Objetos para Mejorar la Editabilidad en Reparación de Imágenes Personalizadas
DreamMix: Decoupling Object Attributes for Enhanced Editability in Customized Image Inpainting

Nov 26

ByYicheng Yang, Pengxiang Li, Lu Zhang, Liqian Ma, Ping Hu, Siyu Du, Yunzhi Zhuge, Xu Jia, Huchuan Lu

El relleno de imágenes impulsado por el sujeto ha surgido como una tarea popular en la edición de imágenes junto con los avances recientes en modelos de difusión. Los métodos previos se centran principalmente en la preservación de la identidad pero luchan por mantener la capacidad de edición de los objetos insertados. En respuesta, este artículo presenta DreamMix, un modelo generativo basado en difusión capaz de insertar objetos objetivo en escenas dadas en ubicaciones especificadas por el usuario, al mismo tiempo que permite modificaciones arbitrarias impulsadas por texto en sus atributos. En particular, aprovechamos modelos avanzados de relleno de imágenes fundamentales e introducimos un marco de relleno local-global desentrelazado para equilibrar la precisa inserción local de objetos con una coherencia visual global efectiva. Además, proponemos un Mecanismo de Desacoplamiento de Atributos (ADM) y un módulo de Sustitución de Atributos Textuales (TAS) para mejorar la diversidad y la capacidad discriminativa de la orientación de atributos basada en texto, respectivamente. Experimentos extensos demuestran que DreamMix equilibra eficazmente la preservación de la identidad y la capacidad de edición de atributos en diversos escenarios de aplicación, incluyendo la inserción de objetos, la edición de atributos y el relleno de pequeños objetos. Nuestro código está disponible públicamente en https://github.com/mycfhs/DreamMix.

Predicción de Peso de Borde para Estimación de Postura Agnóstica de Categoría
Edge Weight Prediction For Category-Agnostic Pose Estimation

Nov 25

ByOr Hirschorn, Shai Avidan

La Estimación de Postura Agnóstica de Categoría (CAPE) localiza puntos clave en diversas categorías de objetos con un solo modelo, utilizando una o unas pocas imágenes de soporte anotadas. Trabajos recientes han demostrado que el uso de un grafo de postura (es decir, tratando los puntos clave como nodos en un grafo en lugar de puntos aislados) ayuda a manejar las oclusiones y romper la simetría. Sin embargo, estos métodos asumen un grafo de postura estático con aristas de igual peso, lo que conduce a resultados subóptimos. Presentamos EdgeCape, un nuevo marco que supera estas limitaciones al predecir los pesos de las aristas del grafo, lo que optimiza la localización. Para aprovechar aún más los conocimientos previos estructurales, proponemos integrar el Sesgo Estructural Markoviano, que modula la interacción de autoatención entre nodos en función del número de saltos entre ellos. Mostramos que esto mejora la capacidad del modelo para capturar dependencias espaciales globales. Evaluado en el banco de pruebas MP-100, que incluye 100 categorías y más de 20,000 imágenes, EdgeCape logra resultados de vanguardia en el escenario de 1 disparo y lidera entre métodos de tamaño similar en el escenario de 5 disparos, mejorando significativamente la precisión de localización de puntos clave. Nuestro código está disponible públicamente.

Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Atención Estelar: Inferencia Eficiente de LLM sobre Secuencias Largas
Star Attention: Efficient LLM Inference over Long Sequences

Nov 26

ByShantanu Acharya, Fei Jia, Boris Ginsburg

Viaje de Replicación O1 - Parte 2: ¿Superando O1-preview a través de una Destilación Simple, Gran Progreso o Lección Amarga?
O1 Replication Journey -- Part 2: Surpassing O1-preview through Simple Distillation, Big Progress or Bitter Lesson?

Nov 25

ByZhen Huang, Haoyang Zou, Xuefeng Li, Yixiu Liu, Yuxiang Zheng, Ethan Chern, Shijie Xia, Yiwei Qin, Weizhe Yuan, Pengfei Liu

Material Anything: Generando materiales para cualquier objeto 3D a través de difusión
Material Anything: Generating Materials for Any 3D Object via Diffusion

Nov 22

ByXin Huang, Tengfei Wang, Ziwei Liu, Qing Wang

De la Generación al Juicio: Oportunidades y Desafíos de LLM-como-juez
From Generation to Judgment: Opportunities and Challenges of LLM-as-a-judge

Nov 25

ByDawei Li, Bohan Jiang, Liangjie Huang, Alimohammad Beigi, Chengshuai Zhao, Zhen Tan, Amrita Bhattacharjee, Yuxuan Jiang, Canyu Chen, Tianhao Wu, Kai Shu, Lu Cheng, Huan Liu