Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Avances y Desafíos en Agentes Fundamentales: Desde la Inteligencia Inspirada en el Cerebro Hacia Sistemas Evolutivos, Colaborativos y Seguros
Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems

Mar 31

ByBang Liu, Xinfeng Li, Jiayi Zhang, Jinlin Wang, Tanjin He, Sirui Hong, Hongzhang Liu, Shaokun Zhang, Kaitao Song, Kunlun Zhu, Yuheng Cheng, Suyuchen Wang, Xiaoqiang Wang, Yuyu Luo, Haibo Jin, Peiyan Zhang, Ollie Liu, Jiaqi Chen, Huan Zhang, Zhaoyang Yu, Haochen Shi, Boyan Li, Dekun Wu, Fengwei Teng, Xiaojun Jia, Jiawei Xu, Jinyu Xiang, Yizhang Lin, Tianming Liu, Tongliang Liu, Yu Su, Huan Sun, Glen Berseth, Jianyun Nie, Ian Foster, Logan Ward, Qingyun Wu, Yu Gu, Mingchen Zhuge, Xiangru Tang, Haohan Wang, Jiaxuan You, Chi Wang, Jian Pei, Qiang Yang, Xiaoliang Qi, Chenglin Wu

301

El advenimiento de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) ha catalizado un cambio transformador en la inteligencia artificial, allanando el camino para agentes inteligentes avanzados capaces de razonamiento sofisticado, percepción robusta y acción versátil en diversos dominios. A medida que estos agentes impulsan cada vez más la investigación y las aplicaciones prácticas de la IA, su diseño, evaluación y mejora continua presentan desafíos intrincados y multifacéticos. Este estudio ofrece una visión integral, enmarcando a los agentes inteligentes dentro de una arquitectura modular inspirada en el cerebro que integra principios de la ciencia cognitiva, la neurociencia y la investigación computacional. Estructuramos nuestra exploración en cuatro partes interconectadas. Primero, profundizamos en la base modular de los agentes inteligentes, mapeando sistemáticamente sus módulos cognitivos, perceptivos y operativos en funcionalidades análogas del cerebro humano, y elucidando componentes clave como la memoria, el modelado del mundo, el procesamiento de recompensas y sistemas similares a las emociones. Segundo, discutimos los mecanismos de auto-mejora y evolución adaptativa, explorando cómo los agentes refinan autónomamente sus capacidades, se adaptan a entornos dinámicos y logran un aprendizaje continuo a través de paradigmas de optimización automatizada, incluyendo estrategias emergentes de AutoML y optimización impulsada por LLMs. Tercero, examinamos los sistemas multiagente colaborativos y evolutivos, investigando la inteligencia colectiva que emerge de las interacciones, la cooperación y las estructuras sociales de los agentes, destacando paralelismos con las dinámicas sociales humanas. Finalmente, abordamos el imperativo crítico de construir sistemas de IA seguros, confiables y beneficiosos, enfatizando las amenazas de seguridad intrínsecas y extrínsecas, la alineación ética, la robustez y las estrategias prácticas de mitigación necesarias para un despliegue confiable en el mundo real.

ZClip: Mitigación Adaptativa de Picos para el Preentrenamiento de Modelos de Lenguaje de Gran Escala
ZClip: Adaptive Spike Mitigation for LLM Pre-Training

Apr 3

ByAbhay Kumar, Louis Owen, Nilabhra Roy Chowdhury, Fabian Güra

El entrenamiento de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) presenta numerosos desafíos, incluyendo inestabilidad en los gradientes y picos en la pérdida. Estos fenómenos pueden llevar a una divergencia catastrófica, lo que requiere la restauración costosa de puntos de control y la omisión de lotes de datos. Las técnicas tradicionales de recorte de gradientes, como los métodos basados en constantes o normas, no abordan estos problemas de manera efectiva debido a su dependencia de umbrales fijos o heurísticas, lo que resulta en un aprendizaje ineficiente y requiere intervención manual frecuente. En este trabajo, proponemos ZClip, un algoritmo de recorte de gradientes adaptativo que ajusta dinámicamente el umbral de recorte basándose en propiedades estadísticas de las normas de los gradientes a lo largo del tiempo. A diferencia de estrategias reactivas previas, ZClip se adapta proactivamente a las dinámicas del entrenamiento sin hacer suposiciones previas sobre la escala y la evolución temporal de las normas de los gradientes. En esencia, aprovecha la detección de anomalías basada en puntuaciones z para identificar y mitigar grandes picos en los gradientes, previniendo picos malignos en la pérdida sin interferir con la convergencia en otros casos. Nuestro código está disponible en: https://github.com/bluorion-com/ZClip.

Imaginando más allá de los píxeles: Evaluación de la edición visual basada en razonamiento
Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing

Apr 3

ByXiangyu Zhao, Peiyuan Zhang, Kexian Tang, Hao Li, Zicheng Zhang, Guangtao Zhai, Junchi Yan, Hua Yang, Xue Yang, Haodong Duan

Los Modelos Multimodales de Gran Escala (LMMs) han logrado avances significativos en la comprensión y generación visual, pero aún enfrentan desafíos en la Edición Visual General, particularmente en seguir instrucciones complejas, preservar la consistencia de apariencia y admitir formatos de entrada flexibles. Para abordar esta brecha, presentamos RISEBench, el primer punto de referencia para evaluar la Edición Visual Informada por Razonamiento (RISE). RISEBench se centra en cuatro tipos clave de razonamiento: Temporal, Causal, Espacial y Lógico. Seleccionamos casos de prueba de alta calidad para cada categoría y proponemos un marco de evaluación que valora el Razonamiento de Instrucciones, la Consistencia de Apariencia y la Plausibilidad Visual, tanto con jueces humanos como con un enfoque LMM-como-juez. Nuestros experimentos revelan que, aunque GPT-4o-Native supera significativamente a otros modelos de código abierto y propietarios, incluso este sistema de última generación tiene dificultades con las tareas de razonamiento lógico, destacando un área que sigue siendo poco explorada. Como un esfuerzo inicial, RISEBench tiene como objetivo proporcionar conocimientos fundamentales sobre la edición visual consciente del razonamiento y catalizar futuras investigaciones. Aunque aún se encuentra en sus primeras etapas, estamos comprometidos a expandir y refinar continuamente el punto de referencia para apoyar evaluaciones más completas, confiables y escalables de los sistemas multimodales de próxima generación. Nuestro código y datos se publicarán en https://github.com/PhoenixZ810/RISEBench.

Escalado en Tiempo de Inferencia para Modelado de Recompensas Generalista
Inference-Time Scaling for Generalist Reward Modeling

Apr 3

ByZijun Liu, Peiyi Wang, Runxin Xu, Shirong Ma, Chong Ruan, Peng Li, Yang Liu, Yu Wu

El aprendizaje por refuerzo (RL, por sus siglas en inglés) ha sido ampliamente adoptado en la fase de posentrenamiento de modelos de lenguaje a gran escala (LLMs). Recientemente, la incentivación de capacidades de razonamiento en LLMs mediante RL indica que métodos de aprendizaje adecuados podrían permitir una escalabilidad efectiva durante la inferencia. Un desafío clave del RL es obtener señales de recompensa precisas para LLMs en diversos dominios más allá de preguntas verificables o reglas artificiales. En este trabajo, investigamos cómo mejorar el modelado de recompensas (RM) con mayor capacidad de cómputo durante la inferencia para consultas generales, es decir, la escalabilidad en tiempo de inferencia de RM generalista, y además, cómo mejorar la efectividad de la escalabilidad rendimiento-cómputo con métodos de aprendizaje adecuados. Para el enfoque de RM, adoptamos el modelado de recompensas generativo puntual (GRM) para permitir flexibilidad con diferentes tipos de entrada y potencial para la escalabilidad durante la inferencia. Para el método de aprendizaje, proponemos el Ajuste de Crítica Auto-Principiada (SPCT) para fomentar comportamientos escalables de generación de recompensas en GRMs mediante RL en línea, generando principios de manera adaptativa y críticas con precisión, lo que resulta en los modelos DeepSeek-GRM. Además, para una escalabilidad efectiva durante la inferencia, utilizamos muestreo paralelo para expandir el uso de cómputo e introducimos un meta RM para guiar el proceso de votación y mejorar el rendimiento de escalabilidad. Empíricamente, demostramos que SPCT mejora significativamente la calidad y escalabilidad de los GRMs, superando métodos y modelos existentes en varios benchmarks de RM sin sesgos severos, y podría lograr un mejor rendimiento en comparación con la escalabilidad durante el entrenamiento. DeepSeek-GRM aún enfrenta desafíos en algunas tareas, los cuales creemos que podrán ser abordados por esfuerzos futuros en sistemas de recompensas generalistas. Los modelos serán liberados y de código abierto.

GPT-ImgEval: Un Benchmark Integral para Diagnosticar GPT4o en la Generación de Imágenes
GPT-ImgEval: A Comprehensive Benchmark for Diagnosing GPT4o in Image Generation

Apr 3

ByZhiyuan Yan, Junyan Ye, Weijia Li, Zilong Huang, Shenghai Yuan, Xiangyang He, Kaiqing Lin, Jun He, Conghui He, Li Yuan

Los recientes avances en el modelo GPT4o de OpenAI han demostrado capacidades sorprendentemente buenas en la generación y edición de imágenes, generando un entusiasmo significativo en la comunidad. Este informe técnico presenta el primer punto de referencia de evaluación (denominado GPT-ImgEval), diagnosticando cuantitativa y cualitativamente el rendimiento de GPT-4o en tres dimensiones críticas: (1) calidad de generación, (2) competencia en edición y (3) síntesis semántica basada en conocimiento del mundo. En las tres tareas, GPT-4o demuestra un rendimiento sólido, superando significativamente los métodos existentes tanto en el control de la generación de imágenes como en la calidad de la salida, al mismo tiempo que muestra capacidades excepcionales de razonamiento basado en conocimiento. Además, basándonos en los datos generados por GPT-4o, proponemos un enfoque basado en modelos de clasificación para investigar la arquitectura subyacente de GPT-4o, donde nuestros resultados empíricos sugieren que el modelo consiste en un componente auto-regresivo (AR) combinado con una cabeza basada en difusión para la decodificación de imágenes, en lugar de arquitecturas similares a VAR. También proporcionamos una especulación completa sobre la arquitectura general de GPT-4o. Adicionalmente, realizamos una serie de análisis para identificar y visualizar las limitaciones específicas de GPT-4o y los artefactos sintéticos comúnmente observados en su generación de imágenes. También presentamos un estudio comparativo de edición de imágenes en múltiples rondas entre GPT-4o y Gemini 2.0 Flash, y discutimos las implicaciones de seguridad de las salidas de GPT-4o, particularmente su detectabilidad por parte de los modelos forenses de imágenes existentes. Esperamos que nuestro trabajo pueda ofrecer información valiosa y proporcionar un punto de referencia confiable para guiar futuras investigaciones, fomentar la reproducibilidad y acelerar la innovación en el campo de la generación de imágenes y más allá. Los códigos y conjuntos de datos utilizados para evaluar GPT-4o se pueden encontrar en https://github.com/PicoTrex/GPT-ImgEval.

JavisDiT: Transformador de Difusión Conjunta Audio-Video con Sincronización Jerárquica de Prioridades Espacio-Temporales
JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization

Mar 30

ByKai Liu, Wei Li, Lai Chen, Shengqiong Wu, Yanhao Zheng, Jiayi Ji, Fan Zhou, Rongxin Jiang, Jiebo Luo, Hao Fei, Tat-Seng Chua

Este artículo presenta JavisDiT, un novedoso Transformer de Difusión Conjunta Audio-Vídeo diseñado para la generación sincronizada de audio y vídeo (JAVG). Basado en la potente arquitectura del Transformer de Difusión (DiT), JavisDiT es capaz de generar contenido de audio y vídeo de alta calidad simultáneamente a partir de indicaciones abiertas del usuario. Para garantizar una sincronización óptima, introducimos un mecanismo de alineación espacio-temporal detallada a través de un Estimador de Prior Sincronizado Jerárquico Espacio-Temporal (HiST-Sypo). Este módulo extrae tanto prioridades globales como detalladas espacio-temporales, guiando la sincronización entre los componentes visuales y auditivos. Además, proponemos un nuevo punto de referencia, JavisBench, que consta de 10,140 vídeos sonoros de alta calidad con subtítulos de texto que abarcan diversas escenas y escenarios complejos del mundo real. Asimismo, diseñamos específicamente una métrica robusta para evaluar la sincronización entre pares de audio-vídeo generados en contenido complejo del mundo real. Los resultados experimentales demuestran que JavisDiT supera significativamente a los métodos existentes al garantizar tanto una generación de alta calidad como una sincronización precisa, estableciendo un nuevo estándar para las tareas de JAVG. Nuestro código, modelo y conjunto de datos estarán disponibles públicamente en https://javisdit.github.io/.

Difusión de Video Controlada Audiovisual con Modelado de Espacios de Estado Selectivo Enmascarado para la Generación de Cabezas Parlantes Naturales
Audio-visual Controlled Video Diffusion with Masked Selective State Spaces Modeling for Natural Talking Head Generation

Apr 3

ByFa-Ting Hong, Zunnan Xu, Zixiang Zhou, Jun Zhou, Xiu Li, Qin Lin, Qinglin Lu, Dan Xu

La síntesis de cabezas parlantes es fundamental para los avatares virtuales y la interacción humano-computadora. Sin embargo, la mayoría de los métodos existentes suelen estar limitados a aceptar el control de una única modalidad principal, lo que restringe su utilidad práctica. Con este fin, presentamos ACTalker, un marco de difusión de video de extremo a extremo que admite tanto el control de múltiples señales como el control de una sola señal para la generación de videos de cabezas parlantes. Para el control múltiple, diseñamos una estructura mamba paralela con múltiples ramas, cada una utilizando una señal de control separada para manipular regiones faciales específicas. Se aplica un mecanismo de compuerta en todas las ramas, proporcionando un control flexible sobre la generación de video. Para garantizar una coordinación natural del video controlado tanto temporal como espacialmente, empleamos la estructura mamba, que permite que las señales de control manipulen los tokens de características en ambas dimensiones en cada rama. Además, introducimos una estrategia de caída de máscara que permite que cada señal de control controle de manera independiente su región facial correspondiente dentro de la estructura mamba, evitando conflictos de control. Los resultados experimentales demuestran que nuestro método produce videos faciales de aspecto natural impulsados por diversas señales y que la capa mamba integra sin problemas múltiples modalidades de control sin conflictos.

SkyReels-A2: Compón cualquier cosa en Transformadores de Difusión de Video
SkyReels-A2: Compose Anything in Video Diffusion Transformers

Apr 3

ByZhengcong Fei, Debang Li, Di Qiu, Jiahua Wang, Yikun Dou, Rui Wang, Jingtao Xu, Mingyuan Fan, Guibin Chen, Yang Li, Yahui Zhou

Este artículo presenta SkyReels-A2, un marco de generación de video controlable capaz de ensamblar elementos visuales arbitrarios (por ejemplo, personajes, objetos, fondos) en videos sintetizados basados en indicaciones textuales, manteniendo una consistencia estricta con imágenes de referencia para cada elemento. Denominamos esta tarea elementos-a-video (E2V), cuyos principales desafíos radican en preservar la fidelidad de cada elemento de referencia, garantizar una composición coherente de la escena y lograr resultados naturales. Para abordar estos desafíos, primero diseñamos una canalización de datos integral para construir tripletas de indicación-referencia-video para el entrenamiento del modelo. A continuación, proponemos un novedoso modelo de incrustación conjunta de imagen-texto para inyectar representaciones de múltiples elementos en el proceso generativo, equilibrando la consistencia específica de cada elemento con la coherencia global y la alineación textual. También optimizamos la canalización de inferencia tanto para la velocidad como para la estabilidad de la salida. Además, introducimos un punto de referencia cuidadosamente curado para una evaluación sistemática, es decir, A2 Bench. Los experimentos demuestran que nuestro marco puede generar videos diversos y de alta calidad con un control preciso de los elementos. SkyReels-A2 es el primer modelo de código abierto de grado comercial para la generación de E2V, desempeñándose favorablemente en comparación con modelos comerciales avanzados de código cerrado. Anticipamos que SkyReels-A2 impulsará aplicaciones creativas como el drama y el comercio electrónico virtual, ampliando los límites de la generación de video controlable.

WikiVideo: Generación de Artículos a partir de Múltiples Videos
WikiVideo: Article Generation from Multiple Videos

Apr 1

ByAlexander Martin, Reno Kriz, William Gantt Walden, Kate Sanders, Hannah Recknor, Eugene Yang, Francis Ferraro, Benjamin Van Durme

Presentamos el desafío de crear automáticamente un artículo de estilo Wikipedia de alto nivel que agrega información proveniente de múltiples videos diversos sobre eventos del mundo real, como desastres naturales o elecciones políticas. Los videos son fuentes intuitivas para la generación aumentada por recuperación (RAG, por sus siglas en inglés), pero la mayoría de los flujos de trabajo contemporáneos de RAG se centran principalmente en texto, y los métodos existentes para la resumen basado en video se enfocan en la comprensión de escenas de bajo nivel en lugar de la semántica de eventos de alto nivel. Para cerrar esta brecha, introducimos WikiVideo, un punto de referencia que consiste en artículos escritos por expertos y videos densamente anotados que proporcionan evidencia para las afirmaciones de los artículos, facilitando la integración de video en las canalizaciones de RAG y permitiendo la creación de contenido detallado basado en fuentes multimodales. Además, proponemos la Generación Colaborativa de Artículos (CAG, por sus siglas en inglés), un método interactivo novedoso para la creación de artículos a partir de múltiples videos. CAG aprovecha una interacción iterativa entre un modelo de razonamiento estilo r1 y un VideoLLM para obtener inferencias de mayor nivel sobre el evento objetivo de lo que es posible con VideoLLMs por sí solos, los cuales se enfocan en características visuales de bajo nivel. Evaluamos los VideoLLMs más avanzados y CAG en entornos de recuperación oráculo y RAG, y encontramos que CAG supera consistentemente a los métodos alternativos, al tiempo que sugiere interesantes vías para trabajos futuros.

Replanteando la Escalabilidad de RL para Modelos de Visión y Lenguaje: Un Marco Transparente desde Cero y un Esquema de Evaluación Integral
Rethinking RL Scaling for Vision Language Models: A Transparent, From-Scratch Framework and Comprehensive Evaluation Scheme

Apr 3

ByYan Ma, Steffi Chern, Xuyang Shen, Yiran Zhong, Pengfei Liu

El aprendizaje por refuerzo (RL, por sus siglas en inglés) ha demostrado recientemente un gran potencial para mejorar las capacidades de razonamiento de los modelos de lenguaje grandes y ahora se está extendiendo activamente a los modelos de visión y lenguaje (VLMs). Sin embargo, las aplicaciones existentes de RL en VLMs suelen depender de marcos altamente ingenierizados que dificultan la reproducibilidad y la accesibilidad, además de carecer de protocolos de evaluación estandarizados, lo que complica la comparación de resultados o la interpretación de las dinámicas de entrenamiento. Este trabajo introduce un marco transparente y desde cero para RL en VLMs, ofreciendo una canalización mínima pero funcional de cuatro pasos validada en múltiples modelos y conjuntos de datos. Además, se propone un esquema de evaluación estandarizado para analizar las dinámicas de entrenamiento y los comportamientos reflexivos. Experimentos exhaustivos en tareas de razonamiento visual revelan hallazgos empíricos clave: la longitud de las respuestas es sensible a las semillas aleatorias, la reflexión se correlaciona con la longitud de la salida, y el RL supera consistentemente el ajuste fino supervisado (SFT) en generalización, incluso con datos de alta calidad. Estos hallazgos, junto con el marco propuesto, tienen como objetivo establecer una línea base reproducible y fomentar una mayor participación en la investigación de VLMs basada en RL.

Análisis de Escalabilidad de Modelos de Lenguaje Intercalados de Habla y Texto
Scaling Analysis of Interleaved Speech-Text Language Models

Apr 3

ByGallil Maimon, Michael Hassid, Amit Roth, Yossi Adi

El análisis existente sobre la escalabilidad de los Modelos de Lenguaje de Habla (SLM, por sus siglas en inglés) presenta un panorama desalentador. Se predice que los SLM requieren mucho más poder de cómputo y datos en comparación con los modelos de texto, lo que lleva a algunos a cuestionar la viabilidad de entrenar SLM de alta calidad. Sin embargo, los SLM modernos a menudo se inicializan a partir de Modelos de Lenguaje de Texto (TextLM) preentrenados utilizando intercalación de habla y texto para permitir la transferencia de conocimiento. Esto plantea la pregunta: ¿Los SLM intercalados escalan de manera más eficiente que los SLM sin texto? En este artículo, respondemos con un rotundo ¡sí! Realizamos un análisis de escalabilidad de los SLM intercalados entrenando varias decenas de modelos y analizando las tendencias de escalabilidad. Observamos que, bajo esta configuración, los SLM escalan de manera más eficiente con el poder de cómputo. Además, nuestros resultados indican que las dinámicas de escalabilidad son significativamente diferentes a las de los SLM sin texto, lo que sugiere que se debería asignar notablemente más del presupuesto de cómputo para aumentar el tamaño del modelo en lugar de los tokens de entrenamiento. También estudiamos el papel de los datos sintéticos y las familias de modelos TextLM para desbloquear este potencial. Los resultados sugieren que nuestro modelo escalado logra un rendimiento comparable con los modelos líderes en métricas semánticas de habla, utilizando menos poder de cómputo y datos que otros enfoques. Hacemos públicos los modelos, muestras y datos en: https://pages.cs.huji.ac.il/adiyoss-lab/sims.

ShortV: Modelos Multimodales de Lenguaje Grande Eficientes mediante la Congelación de Tokens Visuales en Capas Inefectivas
ShortV: Efficient Multimodal Large Language Models by Freezing Visual Tokens in Ineffective Layers

Apr 1

ByQianhao Yuan, Qingyu Zhang, Yanjiang Liu, Jiawei Chen, Yaojie Lu, Hongyu Lin, Jia Zheng, Xianpei Han, Le Sun

Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) enfrentan altos costos computacionales debido a su tamaño masivo y al gran número de tokens visuales. En este artículo, investigamos la redundancia por capas en los MLLMs mediante la introducción de una nueva métrica, la Contribución de Capa (LC, por sus siglas en inglés), que cuantifica el impacto de las transformaciones de una capa en los tokens visuales y de texto, respectivamente. El cálculo de LC implica medir la divergencia en la salida del modelo que resulta de eliminar las transformaciones de la capa en los tokens especificados. Nuestro experimento piloto revela que muchas capas de los MLLMs muestran una contribución mínima durante el procesamiento de tokens visuales. Motivados por esta observación, proponemos ShortV, un método sin entrenamiento que aprovecha LC para identificar capas ineficaces y congela las actualizaciones de tokens visuales en estas capas. Los experimentos muestran que ShortV puede congelar tokens visuales en aproximadamente el 60\% de las capas de los MLLMs, reduciendo drásticamente los costos computacionales relacionados con la actualización de tokens visuales. Por ejemplo, logra una reducción del 50\% en FLOPs en LLaVA-NeXT-13B mientras mantiene un rendimiento superior. El código estará disponible públicamente en https://github.com/icip-cas/ShortV.

FreSca: Revelando el Espacio de Escalado en Modelos de Difusión
FreSca: Unveiling the Scaling Space in Diffusion Models

Apr 2

ByChao Huang, Susan Liang, Yunlong Tang, Li Ma, Yapeng Tian, Chenliang Xu

Los modelos de difusión ofrecen un control impresionante para tareas de imagen, principalmente a través de predicciones de ruido que codifican información específica de la tarea y una guía libre de clasificadores que permite un escalado ajustable. Este mecanismo de escalado define implícitamente un "espacio de escalado", cuyo potencial para la manipulación semántica de grano fino sigue siendo poco explorado. Investigamos este espacio, comenzando con la edición basada en inversión, donde la diferencia entre las predicciones de ruido condicionales e incondicionales contiene información semántica clave. Nuestra contribución principal surge de un análisis de Fourier de las predicciones de ruido, revelando que sus componentes de baja y alta frecuencia evolucionan de manera diferente a lo largo de la difusión. Basándonos en esta idea, presentamos FreSca, un método sencillo que aplica el escalado de guía de forma independiente a diferentes bandas de frecuencia en el dominio de Fourier. FreSca mejora notablemente los métodos existentes de edición de imágenes sin necesidad de reentrenamiento. De manera emocionante, su efectividad se extiende a tareas de comprensión de imágenes, como la estimación de profundidad, obteniendo ganancias cuantitativas en múltiples conjuntos de datos.

Selección Eficiente de Modelos para Pronósticos de Series Temporales mediante LLMs
Efficient Model Selection for Time Series Forecasting via LLMs

Apr 2

ByWang Wei, Tiankai Yang, Hongjie Chen, Ryan A. Rossi, Yue Zhao, Franck Dernoncourt, Hoda Eldardiry

La selección de modelos es un paso crítico en la predicción de series temporales, que tradicionalmente requiere evaluaciones exhaustivas de rendimiento en diversos conjuntos de datos. Los enfoques de metaaprendizaje buscan automatizar este proceso, pero suelen depender de matrices de rendimiento preconstruidas, cuya creación es costosa. En este trabajo, proponemos aprovechar los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) como una alternativa ligera para la selección de modelos. Nuestro método elimina la necesidad de matrices de rendimiento explícitas al utilizar el conocimiento inherente y las capacidades de razonamiento de los LLMs. A través de experimentos exhaustivos con LLaMA, GPT y Gemini, demostramos que nuestro enfoque supera las técnicas tradicionales de metaaprendizaje y los métodos heurísticos de referencia, al tiempo que reduce significativamente la sobrecarga computacional. Estos hallazgos subrayan el potencial de los LLMs en la selección eficiente de modelos para la predicción de series temporales.

OpenCodeReasoning: Avanzando en la Destilación de Datos para la Programación Competitiva
OpenCodeReasoning: Advancing Data Distillation for Competitive Coding

Apr 2

ByWasi Uddin Ahmad, Sean Narenthiran, Somshubra Majumdar, Aleksander Ficek, Siddhartha Jain, Jocelyn Huang, Vahid Noroozi, Boris Ginsburg

Desde el surgimiento de los modelos de lenguaje de gran escala basados en razonamiento, muchos han logrado un gran éxito al destilar capacidades de razonamiento en modelos estudiantiles. Dichas técnicas han reducido significativamente la brecha entre el razonamiento y los LLM estándar en tareas de codificación. A pesar de esto, gran parte del progreso en la destilación de modelos de razonamiento sigue estando limitado por conjuntos de datos propietarios o carece de detalles sobre la curación, filtrado y entrenamiento posterior de los datos. Para abordar esto, construimos un conjunto de datos superior de ajuste fino supervisado (SFT) que utilizamos para lograr resultados de capacidad de codificación de vanguardia en modelos de diversos tamaños. Nuestros modelos destilados utilizan únicamente SFT para alcanzar un 61.8% en LiveCodeBench y un 24.6% en CodeContests, superando a alternativas entrenadas con aprendizaje por refuerzo. Luego, realizamos un análisis sobre las fuentes de datos utilizadas para construir nuestro conjunto de datos, el impacto del filtrado por ejecución de código y la importancia de la diversidad de instrucciones/soluciones. Observamos que el filtrado por ejecución afectó negativamente la precisión en los benchmarks, lo que nos llevó a priorizar la diversidad de instrucciones sobre la corrección de las soluciones. Finalmente, también analizamos la eficiencia de tokens y los patrones de razonamiento utilizados por estos modelos. Pondremos a disposición de la comunidad estos conjuntos de datos y modelos destilados como código abierto.

GenPRM: Escalando el Cómputo en Tiempo de Prueba de Modelos de Recompensa de Procesos mediante Razonamiento Generativo
GenPRM: Scaling Test-Time Compute of Process Reward Models via Generative Reasoning

Apr 1

ByJian Zhao, Runze Liu, Kaiyan Zhang, Zhimu Zhou, Junqi Gao, Dong Li, Jiafei Lyu, Zhouyi Qian, Biqing Qi, Xiu Li, Bowen Zhou

Los avances recientes en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado que es prometedor utilizar Modelos de Recompensa de Procesos (PRMs, por sus siglas en inglés) como verificadores para mejorar el rendimiento de los LLMs. Sin embargo, los PRMs actuales enfrentan tres desafíos clave: (1) capacidades limitadas de supervisión y generalización de procesos, (2) dependencia de la predicción de valores escalares sin aprovechar las habilidades generativas de los LLMs, y (3) incapacidad para escalar el cómputo en tiempo de prueba de los PRMs. En este trabajo, presentamos GenPRM, un modelo de recompensa de procesos generativo que realiza un razonamiento explícito de Cadena de Pensamiento (CoT, por sus siglas en inglés) con verificación de código antes de proporcionar un juicio para cada paso del razonamiento. Para obtener etiquetas de supervisión de procesos y datos de justificación de alta calidad, proponemos la Estimación de Progreso Relativo (RPE, por sus siglas en inglés) y un marco de síntesis de justificación que incorpora la verificación de código. Los resultados experimentales en ProcessBench y varias tareas de razonamiento matemático muestran que GenPRM supera significativamente a los PRMs anteriores con solo 23K datos de entrenamiento del conjunto de datos MATH. A través del escalado en tiempo de prueba, un GenPRM de 1.5B supera a GPT-4o, y un GenPRM de 7B supera a Qwen2.5-Math-PRM-72B en ProcessBench. Además, GenPRM demuestra una fuerte capacidad para servir como modelo crítico para el refinamiento de modelos de políticas. Este trabajo establece un nuevo paradigma para la supervisión de procesos que cierra la brecha entre los PRMs y los modelos críticos en los LLMs. Nuestro código, modelo y datos estarán disponibles en https://ryanliu112.github.io/GenPRM.

Leyes de Escalabilidad en el Descubrimiento Científico con IA y Científicos Robóticos
Scaling Laws in Scientific Discovery with AI and Robot Scientists

Mar 28

ByPengsong Zhang, Heng Zhang, Huazhe Xu, Renjun Xu, Zhenting Wang, Cong Wang, Animesh Garg, Zhibin Li, Arash Ajoudani, Xinyu Liu

El descubrimiento científico está preparado para avanzar rápidamente gracias a la robótica avanzada y la inteligencia artificial. Las prácticas científicas actuales enfrentan limitaciones sustanciales, ya que la experimentación manual sigue siendo lenta y requiere muchos recursos, mientras que la investigación multidisciplinaria exige la integración de conocimientos que va más allá de los límites de la experiencia de los investigadores individuales. Aquí, imaginamos un concepto de científico generalista autónomo (AGS, por sus siglas en inglés) que combina la IA agentiva y la robótica corporeizada para automatizar todo el ciclo de vida de la investigación. Este sistema podría interactuar dinámicamente tanto con entornos físicos como virtuales, al tiempo que facilita la integración de conocimientos en diversas disciplinas científicas. Al implementar estas tecnologías en todas las etapas de la investigación —desde la revisión de literatura, la generación de hipótesis y la experimentación hasta la redacción de manuscritos— e incorporar la reflexión interna junto con la retroalimentación externa, este sistema tiene como objetivo reducir significativamente el tiempo y los recursos necesarios para el descubrimiento científico. Basándose en la evolución desde científicos de IA virtuales hasta científicos robóticos generalistas basados en IA, el AGS promete un potencial revolucionario. A medida que estos sistemas autónomos se integran cada vez más en el proceso de investigación, planteamos la hipótesis de que el descubrimiento científico podría seguir nuevas leyes de escalabilidad, potencialmente moldeadas por el número y las capacidades de estos sistemas autónomos, ofreciendo perspectivas novedosas sobre cómo se genera y evoluciona el conocimiento. La adaptabilidad de los robots corporeizados a entornos extremos, junto con el efecto volante de la acumulación de conocimiento científico, promete empujar continuamente más allá de las fronteras tanto físicas como intelectuales.

Interpretación de la Planificación Emergente en el Aprendizaje por Refuerzo sin Modelo
Interpreting Emergent Planning in Model-Free Reinforcement Learning

Apr 2

ByThomas Bush, Stephen Chung, Usman Anwar, Adrià Garriga-Alonso, David Krueger

Presentamos la primera evidencia mecanicista de que los agentes de aprendizaje por refuerzo sin modelo pueden aprender a planificar. Esto se logra aplicando una metodología basada en interpretabilidad conceptual a un agente sin modelo en Sokoban, un punto de referencia comúnmente utilizado para estudiar la planificación. Específicamente, demostramos que DRC, un agente sin modelo genérico introducido por Guez et al. (2019), utiliza representaciones de conceptos aprendidos para formular internamente planes que predicen los efectos a largo plazo de las acciones en el entorno e influyen en la selección de acciones. Nuestra metodología incluye: (1) sondear conceptos relevantes para la planificación, (2) investigar la formación de planes dentro de las representaciones del agente, y (3) verificar que los planes descubiertos (en las representaciones del agente) tienen un efecto causal en el comportamiento del agente mediante intervenciones. También mostramos que la aparición de estos planes coincide con la emergencia de una propiedad similar a la planificación: la capacidad de beneficiarse de un cómputo adicional durante las pruebas. Finalmente, realizamos un análisis cualitativo del algoritmo de planificación aprendido por el agente y descubrimos un fuerte parecido con la búsqueda bidireccional paralelizada. Nuestros hallazgos avanzan en la comprensión de los mecanismos internos que subyacen al comportamiento de planificación en los agentes, lo cual es importante dada la reciente tendencia de capacidades emergentes de planificación y razonamiento en los LLM a través del RL.

NeuralGS: Uniendo campos neuronales y splatting de Gaussianas 3D para representaciones 3D compactas
NeuralGS: Bridging Neural Fields and 3D Gaussian Splatting for Compact 3D Representations

Mar 29

ByZhenyu Tang, Chaoran Feng, Xinhua Cheng, Wangbo Yu, Junwu Zhang, Yuan Liu, Xiaoxiao Long, Wenping Wang, Li Yuan

El método 3D Gaussian Splatting (3DGS) demuestra una calidad superior y una velocidad de renderizado excepcional, pero con millones de Gaussianas 3D y costos significativos de almacenamiento y transmisión. Los métodos recientes de compresión de 3DGS se centran principalmente en comprimir Scaffold-GS, logrando un rendimiento impresionante pero con una estructura de vóxeles adicional y una estrategia compleja de codificación y cuantización. En este artículo, nuestro objetivo es desarrollar un método simple pero efectivo llamado NeuralGS que explore una alternativa para comprimir el 3DGS original en una representación compacta sin la estructura de vóxeles ni las estrategias complejas de cuantización. Nuestra observación es que los campos neuronales, como NeRF, pueden representar escenas 3D complejas con redes neuronales de perceptrón multicapa (MLP) utilizando solo unos pocos megabytes. Por lo tanto, NeuralGS adopta eficazmente la representación de campos neuronales para codificar los atributos de las Gaussianas 3D con MLPs, requiriendo un tamaño de almacenamiento pequeño incluso para escenas a gran escala. Para lograrlo, implementamos una estrategia de agrupamiento y ajustamos las Gaussianas con diferentes MLPs pequeños para cada grupo, basándonos en puntuaciones de importancia de las Gaussianas como pesos de ajuste. Experimentamos en múltiples conjuntos de datos, logrando una reducción promedio del tamaño del modelo de 45 veces sin afectar la calidad visual. El rendimiento de compresión de nuestro método en el 3DGS original es comparable a los métodos de compresión dedicados basados en Scaffold-GS, lo que demuestra el enorme potencial de comprimir directamente el 3DGS original con campos neuronales.

Los Autoencoders Dispersos Aprenden Características Monosemánticas en Modelos de Visión-Lenguaje
Sparse Autoencoders Learn Monosemantic Features in Vision-Language Models

Apr 3

ByMateusz Pach, Shyamgopal Karthik, Quentin Bouniot, Serge Belongie, Zeynep Akata

Los Autoencoders Dispersos (SAEs, por sus siglas en inglés) han demostrado recientemente mejorar la interpretabilidad y la capacidad de direccionamiento en los Modelos de Lenguaje de Gran Escala (LLMs). En este trabajo, extendemos la aplicación de los SAEs a los Modelos de Visión-Lenguaje (VLMs), como CLIP, e introducimos un marco integral para evaluar la monosemanticidad en las representaciones visuales. Nuestros resultados experimentales revelan que los SAEs entrenados en VLMs mejoran significativamente la monosemanticidad de las neuronas individuales, al mismo tiempo que exhiben representaciones jerárquicas que se alinean bien con estructuras definidas por expertos (por ejemplo, la taxonomía de iNaturalist). Más notablemente, demostramos que la aplicación de SAEs para intervenir en un codificador visual de CLIP permite direccionar directamente la salida de LLMs multimodales (por ejemplo, LLaVA) sin necesidad de realizar modificaciones en el modelo subyacente. Estos hallazgos destacan la practicidad y eficacia de los SAEs como un enfoque no supervisado para mejorar tanto la interpretabilidad como el control de los VLMs.

Whisper-LM: Mejora de modelos de reconocimiento automático del habla con modelos de lenguaje para idiomas de bajos recursos
Whisper-LM: Improving ASR Models with Language Models for Low-Resource Languages

Mar 30

ByXabier de Zuazo, Eva Navas, Ibon Saratxaga, Inma Hernáez Rioja

Los sistemas de reconocimiento automático del habla han avanzado sin duda con la integración de modelos multilingües y multitarea como Whisper, los cuales han demostrado una capacidad prometedora para comprender y procesar el habla en una amplia gama de idiomas. A pesar de su robustez, estos modelos a menudo no logran manejar las distinciones lingüísticas de las lenguas minoritarias. Este estudio aborda esta brecha al integrar modelos lingüísticos tradicionales y novedosos con modelos Whisper ajustados finamente para mejorar su rendimiento en idiomas menos estudiados. A través de un ajuste fino riguroso y evaluación en múltiples conjuntos de datos, demostramos mejoras sustanciales en la tasa de error de palabras, particularmente en escenarios de bajos recursos. Nuestro enfoque no solo aprovecha los extensos datos con los que Whisper fue preentrenado, sino que también complementa su adaptabilidad lingüística al incorporar modelos de lenguaje. Obtuvimos mejoras de hasta el 51\% para conjuntos de datos dentro de la distribución y hasta el 34\% para oraciones fuera de la distribución utilizando modelos de lenguaje estadísticos, mientras que los modelos de lenguaje grandes proporcionaron mejoras moderadas pero consistentemente robustas en diversos contextos lingüísticos. Los hallazgos revelan que, aunque la integración beneficia de manera confiable a todos los tamaños de modelos, el grado de mejora varía, destacando la importancia de optimizar los parámetros de los modelos de lenguaje. Finalmente, enfatizamos la importancia de seleccionar parámetros de evaluación apropiados al reportar los resultados utilizando modelos ASR basados en transformadores. En resumen, esta investigación allana el camino para tecnologías ASR más inclusivas que funcionan mejor en diversos idiomas al enriquecer su conocimiento lingüístico. Para más detalles de implementación de este estudio, la documentación técnica y el código fuente están disponibles en http://www.github.com/hitz-zentroa/whisper-lm.

Generación de Parámetros de Redes Neuronales Autoregresivas Guiadas por Instrucciones
Instruction-Guided Autoregressive Neural Network Parameter Generation

Apr 2

BySoro Bedionita, Bruno Andreis, Song Chong, Sung Ju Hwang

Aprender a generar parámetros de redes neuronales condicionados a descripciones de tareas y especificaciones de arquitectura es fundamental para avanzar en la adaptabilidad de modelos y el aprendizaje por transferencia. Los métodos existentes, especialmente aquellos basados en modelos de difusión, presentan limitaciones en su escalabilidad a arquitecturas grandes, rigidez para manejar profundidades de red variables y generación de parámetros desarticulada que socava la coherencia entre capas. En este trabajo, proponemos IGPG (Generación de Parámetros Guiada por Instrucciones), un marco autoregresivo que unifica la síntesis de parámetros en diversas tareas y arquitecturas. IGPG aprovecha un VQ-VAE y un modelo autoregresivo para generar parámetros de redes neuronales, condicionados por instrucciones de tarea, conjuntos de datos y detalles de arquitectura. Al generar de manera autoregresiva los tokens de los pesos de la red neuronal, IGPG asegura la coherencia entre capas y permite una adaptación eficiente entre modelos y conjuntos de datos. Al operar a nivel de tokens, IGPG captura efectivamente distribuciones complejas de parámetros agregadas a partir de un amplio espectro de modelos preentrenados. Experimentos exhaustivos en múltiples conjuntos de datos de visión demuestran que IGPG consolida diversos modelos preentrenados en un único marco generativo flexible. Los parámetros sintetizados logran un rendimiento competitivo o superior en comparación con métodos de vanguardia, especialmente en términos de escalabilidad y eficiencia cuando se aplican a arquitecturas grandes. Estos resultados subrayan el potencial de IGPG como una herramienta poderosa para la recuperación de pesos preentrenados, selección de modelos y ajuste fino rápido específico para tareas.

Segmentación Panóptica No Supervisada Centrada en Escenas
Scene-Centric Unsupervised Panoptic Segmentation

Apr 2

ByOliver Hahn, Christoph Reich, Nikita Araslanov, Daniel Cremers, Christian Rupprecht, Stefan Roth

La segmentación panóptica no supervisada tiene como objetivo dividir una imagen en regiones semánticamente significativas e instancias de objetos distintas sin entrenamiento en datos anotados manualmente. A diferencia de trabajos previos sobre comprensión panóptica de escenas no supervisada, eliminamos la necesidad de datos de entrenamiento centrados en objetos, permitiendo la comprensión no supervisada de escenas complejas. Para ello, presentamos el primer método panóptico no supervisado que se entrena directamente en imágenes centradas en escenas. En particular, proponemos un enfoque para obtener etiquetas pseudo panópticas de alta resolución en datos complejos centrados en escenas, combinando representaciones visuales, profundidad y señales de movimiento. La utilización tanto del entrenamiento con etiquetas pseudo como de una estrategia de autoentrenamiento panóptico da como resultado un enfoque novedoso que predice con precisión la segmentación panóptica de escenas complejas sin requerir anotaciones humanas. Nuestro enfoque mejora significativamente la calidad panóptica, superando, por ejemplo, el estado del arte reciente en segmentación panóptica no supervisada en Cityscapes en 9.4 puntos porcentuales en PQ.

Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Avances y Desafíos en Agentes Fundamentales: Desde la Inteligencia Inspirada en el Cerebro Hacia Sistemas Evolutivos, Colaborativos y Seguros
Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems

Mar 31

301

ZClip: Mitigación Adaptativa de Picos para el Preentrenamiento de Modelos de Lenguaje de Gran Escala
ZClip: Adaptive Spike Mitigation for LLM Pre-Training

Apr 3

ByAbhay Kumar, Louis Owen, Nilabhra Roy Chowdhury, Fabian Güra

Imaginando más allá de los píxeles: Evaluación de la edición visual basada en razonamiento
Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing

Apr 3

ByXiangyu Zhao, Peiyuan Zhang, Kexian Tang, Hao Li, Zicheng Zhang, Guangtao Zhai, Junchi Yan, Hua Yang, Xue Yang, Haodong Duan

Escalado en Tiempo de Inferencia para Modelado de Recompensas Generalista
Inference-Time Scaling for Generalist Reward Modeling

Apr 3

ByZijun Liu, Peiyi Wang, Runxin Xu, Shirong Ma, Chong Ruan, Peng Li, Yang Liu, Yu Wu

GPT-ImgEval: Un Benchmark Integral para Diagnosticar GPT4o en la Generación de Imágenes
GPT-ImgEval: A Comprehensive Benchmark for Diagnosing GPT4o in Image Generation

Apr 3

ByZhiyuan Yan, Junyan Ye, Weijia Li, Zilong Huang, Shenghai Yuan, Xiangyang He, Kaiqing Lin, Jun He, Conghui He, Li Yuan

JavisDiT: Transformador de Difusión Conjunta Audio-Video con Sincronización Jerárquica de Prioridades Espacio-Temporales
JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization

Mar 30

ByKai Liu, Wei Li, Lai Chen, Shengqiong Wu, Yanhao Zheng, Jiayi Ji, Fan Zhou, Rongxin Jiang, Jiebo Luo, Hao Fei, Tat-Seng Chua

Difusión de Video Controlada Audiovisual con Modelado de Espacios de Estado Selectivo Enmascarado para la Generación de Cabezas Parlantes Naturales
Audio-visual Controlled Video Diffusion with Masked Selective State Spaces Modeling for Natural Talking Head Generation

Apr 3

ByFa-Ting Hong, Zunnan Xu, Zixiang Zhou, Jun Zhou, Xiu Li, Qin Lin, Qinglin Lu, Dan Xu

SkyReels-A2: Compón cualquier cosa en Transformadores de Difusión de Video
SkyReels-A2: Compose Anything in Video Diffusion Transformers

Apr 3

ByZhengcong Fei, Debang Li, Di Qiu, Jiahua Wang, Yikun Dou, Rui Wang, Jingtao Xu, Mingyuan Fan, Guibin Chen, Yang Li, Yahui Zhou

WikiVideo: Generación de Artículos a partir de Múltiples Videos
WikiVideo: Article Generation from Multiple Videos

Apr 1

ByAlexander Martin, Reno Kriz, William Gantt Walden, Kate Sanders, Hannah Recknor, Eugene Yang, Francis Ferraro, Benjamin Van Durme

Replanteando la Escalabilidad de RL para Modelos de Visión y Lenguaje: Un Marco Transparente desde Cero y un Esquema de Evaluación Integral
Rethinking RL Scaling for Vision Language Models: A Transparent, From-Scratch Framework and Comprehensive Evaluation Scheme

Apr 3

ByYan Ma, Steffi Chern, Xuyang Shen, Yiran Zhong, Pengfei Liu

Análisis de Escalabilidad de Modelos de Lenguaje Intercalados de Habla y Texto
Scaling Analysis of Interleaved Speech-Text Language Models

Apr 3

ByGallil Maimon, Michael Hassid, Amit Roth, Yossi Adi

ShortV: Modelos Multimodales de Lenguaje Grande Eficientes mediante la Congelación de Tokens Visuales en Capas Inefectivas
ShortV: Efficient Multimodal Large Language Models by Freezing Visual Tokens in Ineffective Layers

Apr 1

ByQianhao Yuan, Qingyu Zhang, Yanjiang Liu, Jiawei Chen, Yaojie Lu, Hongyu Lin, Jia Zheng, Xianpei Han, Le Sun

FreSca: Revelando el Espacio de Escalado en Modelos de Difusión
FreSca: Unveiling the Scaling Space in Diffusion Models

Apr 2

ByChao Huang, Susan Liang, Yunlong Tang, Li Ma, Yapeng Tian, Chenliang Xu

Selección Eficiente de Modelos para Pronósticos de Series Temporales mediante LLMs
Efficient Model Selection for Time Series Forecasting via LLMs

Apr 2

ByWang Wei, Tiankai Yang, Hongjie Chen, Ryan A. Rossi, Yue Zhao, Franck Dernoncourt, Hoda Eldardiry

OpenCodeReasoning: Avanzando en la Destilación de Datos para la Programación Competitiva
OpenCodeReasoning: Advancing Data Distillation for Competitive Coding

Apr 2

ByWasi Uddin Ahmad, Sean Narenthiran, Somshubra Majumdar, Aleksander Ficek, Siddhartha Jain, Jocelyn Huang, Vahid Noroozi, Boris Ginsburg

GenPRM: Escalando el Cómputo en Tiempo de Prueba de Modelos de Recompensa de Procesos mediante Razonamiento Generativo
GenPRM: Scaling Test-Time Compute of Process Reward Models via Generative Reasoning

Apr 1

ByJian Zhao, Runze Liu, Kaiyan Zhang, Zhimu Zhou, Junqi Gao, Dong Li, Jiafei Lyu, Zhouyi Qian, Biqing Qi, Xiu Li, Bowen Zhou

Leyes de Escalabilidad en el Descubrimiento Científico con IA y Científicos Robóticos
Scaling Laws in Scientific Discovery with AI and Robot Scientists

Mar 28

ByPengsong Zhang, Heng Zhang, Huazhe Xu, Renjun Xu, Zhenting Wang, Cong Wang, Animesh Garg, Zhibin Li, Arash Ajoudani, Xinyu Liu

Interpretación de la Planificación Emergente en el Aprendizaje por Refuerzo sin Modelo
Interpreting Emergent Planning in Model-Free Reinforcement Learning

Apr 2

ByThomas Bush, Stephen Chung, Usman Anwar, Adrià Garriga-Alonso, David Krueger

NeuralGS: Uniendo campos neuronales y splatting de Gaussianas 3D para representaciones 3D compactas
NeuralGS: Bridging Neural Fields and 3D Gaussian Splatting for Compact 3D Representations

Mar 29

ByZhenyu Tang, Chaoran Feng, Xinhua Cheng, Wangbo Yu, Junwu Zhang, Yuan Liu, Xiaoxiao Long, Wenping Wang, Li Yuan

Los Autoencoders Dispersos Aprenden Características Monosemánticas en Modelos de Visión-Lenguaje
Sparse Autoencoders Learn Monosemantic Features in Vision-Language Models

Apr 3

ByMateusz Pach, Shyamgopal Karthik, Quentin Bouniot, Serge Belongie, Zeynep Akata

Whisper-LM: Mejora de modelos de reconocimiento automático del habla con modelos de lenguaje para idiomas de bajos recursos
Whisper-LM: Improving ASR Models with Language Models for Low-Resource Languages

Mar 30

ByXabier de Zuazo, Eva Navas, Ibon Saratxaga, Inma Hernáez Rioja

Generación de Parámetros de Redes Neuronales Autoregresivas Guiadas por Instrucciones
Instruction-Guided Autoregressive Neural Network Parameter Generation

Apr 2

BySoro Bedionita, Bruno Andreis, Song Chong, Sung Ju Hwang

Segmentación Panóptica No Supervisada Centrada en Escenas
Scene-Centric Unsupervised Panoptic Segmentation

Apr 2

ByOliver Hahn, Christoph Reich, Nikita Araslanov, Daniel Cremers, Christian Rupprecht, Stefan Roth