Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

PixelHacker: Restauración de Imágenes con Consistencia Estructural y Semántica
PixelHacker: Image Inpainting with Structural and Semantic Consistency

Apr 29

ByZiyang Xu, Kangsheng Duan, Xiaolei Shen, Zhifeng Ding, Wenyu Liu, Xiaohu Ruan, Xiaoxin Chen, Xinggang Wang

La restauración de imágenes es un área fundamental de investigación entre la edición y la generación de imágenes. Los métodos más recientes de vanguardia (SOTA, por sus siglas en inglés) han explorado mecanismos novedosos de atención, arquitecturas ligeras y modelado consciente del contexto, demostrando un rendimiento impresionante. Sin embargo, a menudo enfrentan dificultades con estructuras complejas (por ejemplo, texturas, formas, relaciones espaciales) y semántica (por ejemplo, consistencia de color, restauración de objetos y corrección lógica), lo que resulta en artefactos y generación inapropiada. Para abordar este desafío, diseñamos un paradigma de restauración simple pero efectivo llamado guía de categorías latentes, y proponemos además un modelo basado en difusión denominado PixelHacker. Específicamente, primero construimos un gran conjunto de datos que contiene 14 millones de pares de imagen-máscara, anotando el primer plano y el fondo (con 116 y 21 categorías potenciales, respectivamente). Luego, codificamos las representaciones potenciales del primer plano y el fondo por separado mediante dos incrustaciones de tamaño fijo, e inyectamos intermitentemente estas características en el proceso de eliminación de ruido mediante atención lineal. Finalmente, al preentrenar en nuestro conjunto de datos y ajustar en puntos de referencia de código abierto, obtenemos PixelHacker. Experimentos exhaustivos muestran que PixelHacker supera ampliamente al SOTA en una variedad de conjuntos de datos (Places2, CelebA-HQ y FFHQ) y exhibe una notable consistencia tanto en estructura como en semántica. Página del proyecto en https://hustvl.github.io/PixelHacker.

Llama-Nemotron: Modelos de Razonamiento Eficientes
Llama-Nemotron: Efficient Reasoning Models

May 2

ByAkhiad Bercovich, Itay Levy, Izik Golan, Mohammad Dabbah, Ran El-Yaniv, Omri Puny, Ido Galil, Zach Moshe, Tomer Ronen, Najeeb Nabwani, Ido Shahaf, Oren Tropp, Ehud Karpas, Ran Zilberstein, Jiaqi Zeng, Soumye Singhal, Alexander Bukharin, Yian Zhang, Tugrul Konuk, Gerald Shen, Ameya Sunil Mahabaleshwarkar, Bilal Kartal, Yoshi Suhara, Olivier Delalleau, Zijia Chen, Zhilin Wang, David Mosallanezhad, Adi Renduchintala, Haifeng Qian, Dima Rekesh, Fei Jia, Somshubra Majumdar, Vahid Noroozi, Wasi Uddin Ahmad, Sean Narenthiran, Aleksander Ficek, Mehrzad Samadi, Jocelyn Huang, Siddhartha Jain, Igor Gitman, Ivan Moshkov, Wei Du, Shubham Toshniwal, George Armstrong, Branislav Kisacanin, Matvei Novikov, Daria Gitman, Evelina Bakhturina, Jane Polak Scowcroft, John Kamalu, Dan Su, Kezhi Kong, Markus Kliegl, Rabeeh Karimi, Ying Lin, Sanjeev Satheesh, Jupinder Parmar, Pritam Gundecha, Brandon Norick, Joseph Jennings, Shrimai Prabhumoye, Syeda Nahida Akter, Mostofa Patwary, Abhinav Khattar, Deepak Narayanan, Roger Waleffe, Jimmy Zhang, Bor-Yiing Su, Guyue Huang, Terry Kong, Parth Chadha, Sahil Jain, Christine Harvey, Elad Segal, Jining Huang, Sergey Kashirsky, Robert McQueen, Izzy Putterman, George Lam, Arun Venkatesan, Sherry Wu, Vinh Nguyen, Manoj Kilaru, Andrew Wang, Anna Warno, Abhilash Somasamudramath, Sandip Bhaskar, Maka Dong, Nave Assaf, Shahar Mor, Omer Ullman Argov, Scot Junkin, Oleksandr Romanenko, Pedro Larroy, Monika Katariya, Marco Rovinelli, Viji Balas, Nicholas Edelman, Anahita Bhiwandiwalla, Muthu Subramaniam, Smita Ithape, Karthik Ramamoorthy, Yuting Wu, Suguna Varshini Velury, Omri Almog, Joyjit Daw, Denys Fridman, Erick Galinkin, Michael Evans, Katherine Luna, Leon Derczynski, Nikki Pope, Eileen Long, Seth Schneider, Guillermo Siman, Tomasz Grzegorzek, Pablo Ribalta, Monika Katariya, Joey Conway, Trisha Saar, Ann Guan, Krzysztof Pawelec, Shyamala Prayaga, Oleksii Kuchaiev, Boris Ginsburg, Oluwatobi Olabiyi, Kari Briski, Jonathan Cohen, Bryan Catanzaro, Jonah Alben, Yonatan Geifman, Eric Chung

Presentamos la serie de modelos Llama-Nemotron, una familia abierta de modelos de razonamiento heterogéneos que ofrecen capacidades excepcionales de razonamiento, eficiencia en la inferencia y una licencia abierta para uso empresarial. La familia está disponible en tres tamaños: Nano (8B), Super (49B) y Ultra (253B), y compite con modelos de razonamiento de vanguardia como DeepSeek-R1, al tiempo que ofrece un rendimiento superior en términos de velocidad de inferencia y eficiencia de memoria. En este informe, discutimos el procedimiento de entrenamiento de estos modelos, que incluye el uso de búsqueda de arquitectura neuronal a partir de los modelos Llama 3 para acelerar la inferencia, la destilación de conocimiento y el preentrenamiento continuo, seguido de una etapa de posentrenamiento centrada en el razonamiento que consta de dos partes principales: ajuste fino supervisado y aprendizaje por refuerzo a gran escala. Los modelos Llama-Nemotron son los primeros modelos de código abierto en admitir un interruptor dinámico de razonamiento, lo que permite a los usuarios cambiar entre modos de chat estándar y de razonamiento durante la inferencia. Para apoyar aún más la investigación abierta y facilitar el desarrollo de modelos, proporcionamos los siguientes recursos: 1. Publicamos los modelos de razonamiento Llama-Nemotron —LN-Nano, LN-Super y LN-Ultra— bajo el Acuerdo de Licencia de Modelo Abierto de NVIDIA, que es comercialmente permisivo. 2. Publicamos el conjunto de datos completo de posentrenamiento: Llama-Nemotron-Posentrenamiento-Conjunto de Datos. 3. También publicamos nuestras bases de código de entrenamiento: NeMo, NeMo-Aligner y Megatron-LM.

Mejora de la editabilidad en la generación de imágenes con memoria por capas
Improving Editability in Image Generation with Layer-wise Memory

May 2

ByDaneul Kim, Jaeah Lee, Jaesik Park

La mayoría de las tareas de edición de imágenes en el mundo real requieren múltiples ediciones secuenciales para lograr los resultados deseados. Los enfoques actuales de edición, diseñados principalmente para modificaciones de un solo objeto, enfrentan dificultades con la edición secuencial: especialmente para mantener las ediciones previas y adaptar nuevos objetos de manera natural al contenido existente. Estas limitaciones obstaculizan significativamente los escenarios de edición complejos donde se necesitan modificar múltiples objetos mientras se preservan sus relaciones contextuales. Abordamos este desafío fundamental a través de dos propuestas clave: habilitar entradas de máscaras aproximadas que preserven el contenido existente mientras integran nuevos elementos de manera natural y apoyar la edición consistente a través de múltiples modificaciones. Nuestro marco logra esto mediante una memoria por capas, que almacena representaciones latentes e incrustaciones de indicaciones de ediciones previas. Proponemos una Guía de Consistencia de Fondo que aprovecha las representaciones latentes memorizadas para mantener la coherencia de la escena y una Desentrelazado de Múltiples Consultas en la atención cruzada que asegura una adaptación natural al contenido existente. Para evaluar nuestro método, presentamos un nuevo conjunto de datos de referencia que incorpora métricas de alineación semántica y escenarios de edición interactiva. A través de experimentos exhaustivos, demostramos un rendimiento superior en tareas de edición iterativa de imágenes con un esfuerzo mínimo del usuario, requiriendo solo máscaras aproximadas mientras se mantienen resultados de alta calidad a lo largo de múltiples pasos de edición.

Más allá del enfoque único: Aprendizaje por inversión para la creación de indicadores altamente efectivos en la evaluación de la generación de lenguaje natural
Beyond One-Size-Fits-All: Inversion Learning for Highly Effective NLG Evaluation Prompts

Apr 29

ByHanhua Hong, Chenghao Xiao, Yang Wang, Yiqi Liu, Wenge Rong, Chenghua Lin

La evaluación de sistemas de generación de lenguaje natural (NLG) es un desafío debido a la diversidad de salidas válidas. Si bien la evaluación humana es el estándar de oro, esta sufre de inconsistencias, falta de estandarización y sesgos demográficos, lo que limita su reproducibilidad. La evaluación basada en modelos de lenguaje grandes (LLM) ofrece una alternativa escalable, pero es altamente sensible al diseño de los prompts, donde pequeñas variaciones pueden generar discrepancias significativas. En este trabajo, proponemos un método de aprendizaje por inversión que aprende mapeos inversos efectivos desde las salidas del modelo de vuelta a sus instrucciones de entrada, permitiendo la generación automática de prompts de evaluación altamente efectivos y específicos para cada modelo. Nuestro método requiere solo una muestra de evaluación y elimina la necesidad de una ingeniería de prompts manual y laboriosa, mejorando así tanto la eficiencia como la robustez. Nuestro trabajo contribuye hacia una nueva dirección para una evaluación basada en LLM más robusta y eficiente.

Brechas en la Investigación sobre Gobernanza de la IA en el Mundo Real
Real-World Gaps in AI Governance Research

Apr 30

ByIlan Strauss, Isobel Moure, Tim O'Reilly, Sruly Rosenblat

Basándonos en 1,178 artículos sobre seguridad y confiabilidad extraídos de 9,439 trabajos sobre inteligencia artificial generativa (enero 2020 - marzo 2025), comparamos los resultados de investigación de las principales empresas de IA (Anthropic, Google DeepMind, Meta, Microsoft y OpenAI) y universidades especializadas en IA (CMU, MIT, NYU, Stanford, UC Berkeley y la Universidad de Washington). Encontramos que la investigación corporativa en IA se concentra cada vez más en áreas previas al despliegue, como la alineación de modelos y las pruebas y evaluaciones, mientras que la atención a problemas en la etapa de despliegue, como el sesgo de los modelos, ha disminuido. Existen brechas significativas de investigación en dominios de despliegue de alto riesgo, incluyendo atención médica, finanzas, desinformación, características persuasivas y adictivas, alucinaciones y derechos de autor. Sin una mayor observabilidad de las IA desplegadas, la creciente concentración corporativa podría profundizar los déficits de conocimiento. Recomendamos ampliar el acceso de investigadores externos a los datos de despliegue y establecer una observabilidad sistemática del comportamiento de las IA en el mercado.

CORG: Generación de respuestas a partir de contextos complejos e interrelacionados
CORG: Generating Answers from Complex, Interrelated Contexts

Apr 25

ByHyunji Lee, Franck Dernoncourt, Trung Bui, Seunghyun Yoon

En un corpus del mundo real, el conocimiento recurre frecuentemente a través de documentos, pero a menudo contiene inconsistencias debido a denominaciones ambiguas, información desactualizada o errores, lo que genera interrelaciones complejas entre contextos. Investigaciones previas han demostrado que los modelos de lenguaje tienen dificultades con estas complejidades, ya que suelen centrarse en factores individuales de manera aislada. Clasificamos estas relaciones en cuatro tipos: distractoras, ambiguas, contrafactuales y duplicadas. Nuestro análisis revela que ningún enfoque único aborda eficazmente todas estas interrelaciones de manera simultánea. Por lo tanto, presentamos Context Organizer (CORG), un marco que organiza múltiples contextos en grupos procesados de manera independiente. Este diseño permite que el modelo encuentre eficientemente todas las respuestas relevantes mientras garantiza la desambiguación. CORG consta de tres componentes clave: un constructor de grafos, un reranker y un agregador. Nuestros resultados demuestran que CORG equilibra eficazmente el rendimiento y la eficiencia, superando los métodos de agrupación existentes y logrando resultados comparables a enfoques más intensivos en cómputo basados en un solo contexto.

WorldGenBench: Un punto de referencia integrado con conocimiento del mundo para la generación de imágenes a partir de texto impulsada por razonamiento
WorldGenBench: A World-Knowledge-Integrated Benchmark for Reasoning-Driven Text-to-Image Generation

May 2

ByDaoan Zhang, Che Jiang, Ruoshi Xu, Biaoxiang Chen, Zijian Jin, Yutian Lu, Jianguo Zhang, Liang Yong, Jiebo Luo, Shengda Luo

Los recientes avances en la generación de texto a imagen (T2I) han logrado resultados impresionantes, pero los modelos existentes aún tienen dificultades con indicaciones que requieren un amplio conocimiento del mundo y razonamiento implícito: ambos aspectos son cruciales para producir imágenes semánticamente precisas, coherentes y contextualmente apropiadas en escenarios del mundo real. Para abordar esta brecha, presentamos WorldGenBench, un punto de referencia diseñado para evaluar sistemáticamente la capacidad de los modelos T2I para fundamentar el conocimiento del mundo y realizar inferencias implícitas, abarcando tanto el ámbito de las humanidades como el de la naturaleza. Proponemos el Puntaje de Lista de Verificación de Conocimiento, una métrica estructurada que mide qué tan bien las imágenes generadas satisfacen las expectativas semánticas clave. Los experimentos realizados con 21 modelos de última generación revelan que, aunque los modelos de difusión lideran entre los métodos de código abierto, los modelos auto-regresivos propietarios como GPT-4o exhiben un razonamiento y una integración de conocimientos significativamente más sólidos. Nuestros hallazgos destacan la necesidad de capacidades más profundas de comprensión e inferencia en los sistemas T2I de próxima generación. Página del proyecto: https://dwanzhang-ai.github.io/WorldGenBench/{https://dwanzhang-ai.github.io/WorldGenBench/}

X-Cross: Integración Dinámica de Modelos de Lenguaje para la Recomendación Secuencial en Dominios Cruzados
X-Cross: Dynamic Integration of Language Models for Cross-Domain Sequential Recommendation

Apr 29

ByGuy Hadad, Haggai Roitman, Yotam Eshel, Bracha Shapira, Lior Rokach

A medida que nuevos productos emergen diariamente, los sistemas de recomendación deben adaptarse rápidamente a posibles nuevos dominios sin necesidad de un extenso reentrenamiento. Este trabajo presenta "X-Cross", un modelo novedoso de recomendación secuencial entre dominios que recomienda productos en nuevos dominios mediante la integración de varios modelos de lenguaje específicos de dominio; cada modelo se ajusta con adaptadores de bajo rango (LoRA). Dado un prompt de recomendación, operando capa por capa, X-Cross refina dinámicamente la representación de cada modelo de lenguaje fuente al integrar conocimiento de todos los demás modelos. Estas representaciones refinadas se propagan de una capa a la siguiente, aprovechando las activaciones de cada adaptador de dominio para garantizar que se preserven los matices específicos del dominio mientras se habilita la adaptabilidad entre dominios. Utilizando conjuntos de datos de Amazon para recomendación secuencial, X-Cross logra un rendimiento comparable al de un modelo ajustado con LoRA, mientras utiliza solo el 25% de los parámetros adicionales. En tareas entre dominios, como adaptarse del dominio de Juguetes a Herramientas, Electrónica o Deportes, X-Cross demuestra un rendimiento robusto, requiriendo aproximadamente un 50%-75% menos datos de ajuste fino que LoRA para que el ajuste sea efectivo. Además, X-Cross logra una mejora significativa en precisión sobre líneas base alternativas entre dominios. En general, X-Cross permite recomendaciones escalables y adaptables entre dominios, reduciendo la sobrecarga computacional y proporcionando una solución eficiente para entornos con limitaciones de datos.

TeLoGraF: Planificación de Lógica Temporal mediante Emparejamiento de Flujos Codificados en Grafos
TeLoGraF: Temporal Logic Planning via Graph-encoded Flow Matching

May 1

ByYue Meng, Chuchu Fan

Aprender a resolver tareas complejas con especificaciones de lógica temporal de señales (STL, por sus siglas en inglés) es crucial para muchas aplicaciones del mundo real. Sin embargo, la mayoría de los trabajos previos solo consideran especificaciones STL fijas o parametrizadas debido a la falta de un conjunto de datos STL diverso y codificadores que extraigan eficazmente la información de lógica temporal para tareas posteriores. En este artículo, proponemos TeLoGraF, Flujo Codificado en Grafos de Lógica Temporal, que utiliza codificadores de Redes Neuronales de Grafos (GNN) y emparejamiento de flujo para aprender soluciones para especificaciones STL generales. Identificamos cuatro plantillas STL comúnmente utilizadas y recopilamos un total de 200K especificaciones con demostraciones emparejadas. Realizamos experimentos exhaustivos en cinco entornos de simulación que van desde modelos dinámicos simples en el espacio 2D hasta un brazo robótico Franka Panda de 7 grados de libertad (7DoF) y la navegación de un cuadrúpedo Ant en alta dimensión. Los resultados muestran que nuestro método supera a otras líneas base en la tasa de satisfacción de STL. En comparación con los algoritmos clásicos de planificación STL, nuestro enfoque es 10-100 veces más rápido en inferencia y puede funcionar con cualquier dinámica del sistema. Además, demostramos la capacidad de nuestro método de codificación en grafos para resolver STL complejas y su robustez frente a especificaciones STL fuera de distribución. El código está disponible en https://github.com/mengyuest/TeLoGraF.