Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

OLMoTrace: Rastreando las Salidas de Modelos de Lenguaje hasta Billones de Tokens de Entrenamiento
OLMoTrace: Tracing Language Model Outputs Back to Trillions of Training Tokens

Apr 9

ByJiacheng Liu, Taylor Blanton, Yanai Elazar, Sewon Min, YenSung Chen, Arnavi Chheda-Kothary, Huy Tran, Byron Bischoff, Eric Marsh, Michael Schmitz, Cassidy Trier, Aaron Sarnat, Jenna James, Jon Borchardt, Bailey Kuehl, Evie Cheng, Karen Farley, Sruthi Sreeram, Taira Anderson, David Albright, Carissa Schoenick, Luca Soldaini, Dirk Groeneveld, Rock Yuren Pang, Pang Wei Koh, Noah A. Smith, Sophie Lebrecht, Yejin Choi, Hannaneh Hajishirzi, Ali Farhadi, Jesse Dodge

Presentamos OLMoTrace, el primer sistema que rastrea las salidas de los modelos de lenguaje hasta sus datos de entrenamiento completos, compuestos por billones de tokens, en tiempo real. OLMoTrace encuentra y muestra coincidencias textuales entre segmentos de la salida del modelo de lenguaje y documentos en los corpus de texto de entrenamiento. Impulsado por una versión extendida de infini-gram (Liu et al., 2024), nuestro sistema devuelve resultados de rastreo en cuestión de segundos. OLMoTrace puede ayudar a los usuarios a comprender el comportamiento de los modelos de lenguaje a través del lente de sus datos de entrenamiento. Demostramos cómo puede utilizarse para explorar la verificación de hechos, las alucinaciones y la creatividad de los modelos de lenguaje. OLMoTrace está disponible públicamente y es completamente de código abierto.

DDT: Transformador de Difusión Desacoplado
DDT: Decoupled Diffusion Transformer

Apr 8

ByShuai Wang, Zhi Tian, Weilin Huang, Limin Wang

Los transformadores de difusión han demostrado una calidad de generación notable, aunque requieren iteraciones de entrenamiento más prolongadas y numerosos pasos de inferencia. En cada paso de eliminación de ruido, los transformadores de difusión codifican las entradas ruidosas para extraer el componente semántico de baja frecuencia y luego decodifican la frecuencia más alta con módulos idénticos. Este esquema crea un dilema de optimización inherente: la codificación de semántica de baja frecuencia requiere reducir los componentes de alta frecuencia, generando tensión entre la codificación semántica y la decodificación de alta frecuencia. Para resolver este desafío, proponemos un nuevo \color{ddtD}Transformador de Difusión Desacoplado~(\color{ddtDDT}), con un diseño desacoplado que incluye un codificador de condiciones dedicado para la extracción semántica junto con un decodificador de velocidad especializado. Nuestros experimentos revelan que un codificador más robusto produce mejoras en el rendimiento a medida que aumenta el tamaño del modelo. Para ImageNet 256×256, nuestro DDT-XL/2 alcanza un nuevo rendimiento de vanguardia de {1.31 FID}~(con una convergencia de entrenamiento casi 4 veces más rápida en comparación con los transformadores de difusión anteriores). Para ImageNet 512×512, nuestro DDT-XL/2 logra un nuevo FID de vanguardia de 1.28. Además, como un beneficio adicional, nuestra arquitectura desacoplada mejora la velocidad de inferencia al permitir el uso compartido de la autocondición entre pasos adyacentes de eliminación de ruido. Para minimizar la degradación del rendimiento, proponemos un novedoso enfoque de programación dinámica estadística para identificar estrategias óptimas de uso compartido.

La Falta de Premisas Exacerba la Sobreinterpretación: ¿Están Perdiendo los Modelos de Razonamiento la Habilidad de Pensamiento Crítico?
Missing Premise exacerbates Overthinking: Are Reasoning Models losing Critical Thinking Skill?

Apr 9

ByChenrui Fan, Ming Li, Lichao Sun, Tianyi Zhou

Encontramos que la longitud de las respuestas de los LLM de razonamiento, ya sean entrenados mediante aprendizaje por refuerzo o aprendizaje supervisado, aumenta drásticamente ante preguntas mal planteadas con premisas faltantes (MiP), lo que resulta en un pensamiento redundante e ineficaz. Este escenario recién introducido exacerba en gran medida el problema general de sobrepensar, al que denominamos MiP-Overthinking. Dichos fallos van en contra de la "ley de escalado en tiempo de prueba", pero se han observado ampliamente en múltiples conjuntos de datos que hemos curado con MiP, lo que indica el daño del sobrepensamiento barato y la falta de pensamiento crítico. Sorprendentemente, los LLM no específicamente entrenados para razonar muestran un rendimiento mucho mejor en el escenario MiP, produciendo respuestas mucho más cortas que identifican rápidamente consultas mal planteadas. Esto implica un defecto crítico en la receta de entrenamiento actual para los LLM de razonamiento, que no fomenta adecuadamente el pensamiento eficiente, lo que lleva al abuso de patrones de pensamiento. Para investigar más a fondo las razones detrás de estos fallos, realizamos análisis detallados de la longitud del razonamiento, los patrones de sobrepensamiento y la ubicación del pensamiento crítico en diferentes tipos de LLM. Además, nuestro estudio de ablación extendido revela que el sobrepensamiento es contagioso a través de la destilación de las respuestas de los modelos de razonamiento. Estos resultados mejoran la comprensión del sobrepensamiento y ofrecen nuevas ideas para mitigar el problema.

FantasyTalking: Generación Realista de Retratos Parlantes mediante Síntesis de Movimiento Coherente
FantasyTalking: Realistic Talking Portrait Generation via Coherent Motion Synthesis

Apr 7

ByMengchao Wang, Qiang Wang, Fan Jiang, Yaqi Fan, Yunpeng Zhang, Yonggang Qi, Kun Zhao, Mu Xu

Crear un avatar animado realista a partir de un único retrato estático sigue siendo un desafío. Los enfoques existentes a menudo tienen dificultades para capturar expresiones faciales sutiles, los movimientos corporales globales asociados y el fondo dinámico. Para abordar estas limitaciones, proponemos un marco novedoso que aprovecha un modelo de transformador de difusión de video preentrenado para generar retratos parlantes de alta fidelidad y coherentes con dinámicas de movimiento controlables. En el núcleo de nuestro trabajo se encuentra una estrategia de alineación audiovisual de dos etapas. En la primera etapa, empleamos un esquema de entrenamiento a nivel de clip para establecer un movimiento global coherente al alinear las dinámicas impulsadas por el audio en toda la escena, incluyendo el retrato de referencia, los objetos contextuales y el fondo. En la segunda etapa, refinamos los movimientos de los labios a nivel de fotograma utilizando una máscara de seguimiento labial, asegurando una sincronización precisa con las señales de audio. Para preservar la identidad sin comprometer la flexibilidad del movimiento, reemplazamos la red de referencia comúnmente utilizada con un módulo de atención cruzada centrado en el rostro que mantiene eficazmente la consistencia facial a lo largo del video. Además, integramos un módulo de modulación de intensidad de movimiento que controla explícitamente la intensidad de las expresiones y los movimientos corporales, permitiendo una manipulación controlable de los movimientos del retrato más allá del mero movimiento labial. Los resultados experimentales extensivos muestran que nuestro enfoque propuesto logra una mayor calidad con mejor realismo, coherencia, intensidad de movimiento y preservación de la identidad. Nuestra página del proyecto: https://fantasy-amap.github.io/fantasy-talking/.

Un Marco Agéntico Unificado para la Evaluación de la Generación Condicional de Imágenes
A Unified Agentic Framework for Evaluating Conditional Image Generation

Apr 9

ByJifang Wang, Xue Yang, Longyue Wang, Zhenran Xu, Yiyu Wang, Yaowei Wang, Weihua Luo, Kaifu Zhang, Baotian Hu, Min Zhang

La generación condicional de imágenes ha ganado una atención significativa por su capacidad para personalizar contenido. Sin embargo, el campo enfrenta desafíos en el desarrollo de métricas de evaluación confiables, explicables y agnósticas a la tarea. Este artículo presenta CIGEval, un marco agente unificado para la evaluación integral de tareas de generación condicional de imágenes. CIGEval utiliza modelos multimodales grandes (LMMs) como su núcleo, integrando una caja de herramientas multifuncional y estableciendo un marco de evaluación de grano fino. Además, sintetizamos trayectorias de evaluación para ajuste fino, permitiendo que LMMs más pequeños seleccionen herramientas apropiadas de manera autónoma y realicen análisis matizados basados en los resultados de las herramientas. Los experimentos en siete tareas destacadas de generación condicional de imágenes demuestran que CIGEval (versión GPT-4o) alcanza una alta correlación de 0.4625 con evaluaciones humanas, acercándose a la correlación inter-anotadores de 0.47. Además, cuando se implementa con LMMs de código abierto de 7B utilizando solo 2.3K trayectorias de entrenamiento, CIGEval supera el método anterior basado en GPT-4o de última generación. Estudios de caso sobre la generación de imágenes con GPT-4o destacan la capacidad de CIGEval para identificar problemas sutiles relacionados con la consistencia del sujeto y la adherencia a la guía de control, indicando su gran potencial para automatizar la evaluación de tareas de generación de imágenes con una confiabilidad comparable a la humana.

GenDoP: Generación auto-regresiva de trayectorias de cámara como director de fotografía
GenDoP: Auto-regressive Camera Trajectory Generation as a Director of Photography

Apr 9

ByMengchen Zhang, Tong Wu, Jing Tan, Ziwei Liu, Gordon Wetzstein, Dahua Lin

El diseño de trayectorias de cámara desempeña un papel crucial en la producción de vídeo, sirviendo como una herramienta fundamental para transmitir la intención del director y potenciar la narrativa visual. En cinematografía, los directores de fotografía elaboran meticulosamente los movimientos de cámara para lograr encuadres expresivos e intencionales. Sin embargo, los métodos existentes para la generación de trayectorias de cámara siguen siendo limitados: los enfoques tradicionales dependen de optimización geométrica o sistemas procedimentales artesanales, mientras que los métodos recientes basados en aprendizaje a menudo heredan sesgos estructurales o carecen de alineación textual, lo que restringe la síntesis creativa. En este trabajo, presentamos un modelo auto-regresivo inspirado en la experiencia de los directores de fotografía para generar trayectorias de cámara artísticas y expresivas. Primero introducimos DataDoP, un conjunto de datos multimodal a gran escala que contiene 29K tomas del mundo real con trayectorias de cámara de movimiento libre, mapas de profundidad y descripciones detalladas de movimientos específicos, interacción con la escena e intención del director. Gracias a esta base de datos exhaustiva y diversa, entrenamos un Transformer auto-regresivo de solo decodificador para la generación de movimientos de cámara de alta calidad y conscientes del contexto basados en guías textuales y entradas RGBD, denominado GenDoP. Experimentos extensivos demuestran que, en comparación con los métodos existentes, GenDoP ofrece una mejor controlabilidad, ajustes de trayectoria más detallados y una mayor estabilidad de movimiento. Creemos que nuestro enfoque establece un nuevo estándar para la cinematografía basada en aprendizaje, allanando el camino para futuros avances en el control de cámara y la realización cinematográfica. Nuestro sitio web del proyecto: https://kszpxxzmc.github.io/GenDoP/.

Una Mirada Sobria al Progreso en el Razonamiento de Modelos de Lenguaje: Obstáculos y Caminos hacia la Reproducibilidad
A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility

Apr 9

ByAndreas Hochlehnert, Hardik Bhatnagar, Vishaal Udandarao, Samuel Albanie, Ameya Prabhu, Matthias Bethge

El razonamiento ha surgido como la próxima gran frontera para los modelos de lenguaje (LMs), con avances rápidos tanto en laboratorios académicos como industriales. Sin embargo, este progreso a menudo supera el rigor metodológico, ya que muchas evaluaciones dependen de prácticas de evaluación comparativa que carecen de transparencia, robustez o fundamentación estadística. En este trabajo, realizamos un estudio empírico exhaustivo y descubrimos que los puntos de referencia actuales para el razonamiento matemático son altamente sensibles a elecciones sutiles de implementación, incluyendo parámetros de decodificación, semillas aleatorias, formato de los prompts e incluso configuraciones de hardware y software. Las mejoras de rendimiento reportadas en estudios recientes frecuentemente dependen de comparaciones poco claras o fuentes de variación no reportadas. Para abordar estos problemas, proponemos un marco de evaluación estandarizado con mejores prácticas claramente definidas y estándares de reporte. Utilizando este marco, reevaluamos métodos recientes y encontramos que los enfoques de aprendizaje por refuerzo (RL) ofrecen solo mejoras modestas, muy por debajo de afirmaciones previas, y son propensos al sobreajuste, especialmente en puntos de referencia de pequeña escala como AIME24. En contraste, los métodos de ajuste fino supervisado (SFT) muestran una generalización consistentemente más fuerte. Para fomentar la reproducibilidad, publicamos todo el código, prompts y salidas de los modelos para los puntos de referencia de razonamiento, estableciendo bases más rigurosas para trabajos futuros.

OmniCaptioner: Un Generador de Subtítulos para Gobernarlos a Todos
OmniCaptioner: One Captioner to Rule Them All

Apr 9

ByYiting Lu, Jiakang Yuan, Zhen Li, Shitian Zhao, Qi Qin, Xinyue Li, Le Zhuo, Licheng Wen, Dongyang Liu, Yuewen Cao, Xiangchao Yan, Xin Li, Botian Shi, Tao Chen, Zhibo Chen, Lei Bai, Bo Zhang, Peng Gao

Proponemos OmniCaptioner, un marco versátil para la generación de descripciones textuales detalladas en una amplia variedad de dominios visuales. A diferencia de métodos anteriores limitados a tipos específicos de imágenes (por ejemplo, imágenes naturales o visuales geométricas), nuestro marco ofrece una solución unificada para la descripción de imágenes naturales, texto visual (por ejemplo, carteles, interfaces de usuario, libros de texto) y visuales estructurados (por ejemplo, documentos, tablas, gráficos). Al convertir información de píxeles de bajo nivel en representaciones textuales semánticamente ricas, nuestro marco cierra la brecha entre las modalidades visual y textual. Nuestros resultados destacan tres ventajas clave: (i) Razonamiento Visual Mejorado con LLMs, donde descripciones de contexto largo de modalidades visuales potencian a los LLMs, particularmente la serie DeepSeek-R1, para razonar efectivamente en escenarios multimodales; (ii) Generación de Imágenes Mejorada, donde descripciones detalladas mejoran tareas como la generación de texto a imagen y la transformación de imágenes; y (iii) Ajuste Supervisado Eficiente (SFT), que permite una convergencia más rápida con menos datos. Creemos que la versatilidad y adaptabilidad de OmniCaptioner pueden ofrecer una nueva perspectiva para cerrar la brecha entre las modalidades del lenguaje y las visuales.

Modelos de Lenguaje de Autodirección
Self-Steering Language Models

Apr 9

ByGabriel Grand, Joshua B. Tenenbaum, Vikash K. Mansinghka, Alexander K. Lew, Jacob Andreas

Si bien el razonamiento en tiempo de prueba permite a los modelos de lenguaje abordar tareas complejas, la búsqueda o planificación en lenguaje natural puede ser lenta, costosa y propensa a errores. Sin embargo, incluso cuando los modelos de lenguaje (LM) tienen dificultades para emular los pasos de razonamiento precisos necesarios para resolver un problema, a menudo sobresalen en describir su estructura abstracta, tanto cómo verificar soluciones como cómo buscarlas. Este artículo presenta DisCIPL, un método para la "autodirección" de LM, donde un modelo Planificador genera un programa de inferencia específico para la tarea que es ejecutado por una población de modelos Seguidores. Nuestro enfoque dota a los LM de la capacidad de escribir procedimientos de búsqueda recursiva que guían la inferencia del LM, permitiendo nuevas formas de razonamiento verificable y eficiente. Cuando se instancia con un Seguidor pequeño (por ejemplo, Llama-3.2-1B), DisCIPL iguala (y a veces supera) a modelos mucho más grandes, incluyendo GPT-4o y o1, en tareas desafiantes de generación con restricciones. Al desacoplar la planificación de la ejecución, nuestro trabajo abre un espacio de diseño de estrategias de inferencia de Monte Carlo altamente paralelizadas que superan el muestreo estándar de mejor-de-N, no requieren ajuste fino y pueden implementarse automáticamente por LM existentes.

Captiona Cualquier Cosa en Video: Descripción Centrada en Objetos de Granularidad Fina mediante Indicación Espaciotemporal Multimodal
Caption Anything in Video: Fine-grained Object-centric Captioning via Spatiotemporal Multimodal Prompting

Apr 7

ByYunlong Tang, Jing Bi, Chao Huang, Susan Liang, Daiki Shimada, Hang Hua, Yunzhong Xiao, Yizhi Song, Pinxin Liu, Mingqian Feng, Junjia Guo, Zhuo Liu, Luchuan Song, Ali Vosoughi, Jinxi He, Liu He, Zeliang Zhang, Jiebo Luo, Chenliang Xu

Presentamos CAT-V (Caption AnyThing in Video), un marco de trabajo sin necesidad de entrenamiento para la generación de descripciones centradas en objetos en videos con un nivel de detalle fino, que permite describir de manera detallada objetos seleccionados por el usuario a lo largo del tiempo. CAT-V integra tres componentes clave: un Segmentador basado en SAMURAI para la segmentación precisa de objetos a través de los fotogramas, un Analizador Temporal impulsado por TRACE-Uni para la detección precisa de límites de eventos y el análisis temporal, y un Generador de Descripciones que utiliza InternVL-2.5 para producir descripciones detalladas centradas en objetos. Mediante indicaciones visuales espacio-temporales y razonamiento en cadena de pensamiento, nuestro marco genera descripciones detalladas y temporalmente conscientes de los atributos, acciones, estados, interacciones y contextos ambientales de los objetos, sin requerir datos de entrenamiento adicionales. CAT-V admite interacciones flexibles del usuario a través de diversas indicaciones visuales (puntos, cuadros delimitadores y regiones irregulares) y mantiene la sensibilidad temporal al rastrear los estados e interacciones de los objetos en diferentes segmentos de tiempo. Nuestro enfoque aborda las limitaciones de los métodos existentes de descripción de videos, que producen descripciones demasiado abstractas o carecen de precisión a nivel de objeto, permitiendo descripciones específicas y detalladas de objetos mientras se mantiene la coherencia temporal y la precisión espacial. El repositorio de GitHub para este proyecto está disponible en https://github.com/yunlong10/CAT-V.

VideoChat-R1: Mejora de la Percepción Espacio-Temporal mediante Ajuste Fino por Refuerzo
VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning

Apr 9

ByXinhao Li, Ziang Yan, Desen Meng, Lu Dong, Xiangyu Zeng, Yinan He, Yali Wang, Yu Qiao, Yi Wang, Limin Wang

Los avances recientes en el aprendizaje por refuerzo han mejorado significativamente las capacidades de razonamiento de los modelos de lenguaje multimodal de gran escala (MLLMs). Aunque enfoques como la Optimización de Políticas Relativas de Grupo (GRPO) y los mecanismos de recompensa basados en reglas muestran un gran potencial en los dominios de texto e imagen, su aplicación en la comprensión de videos sigue siendo limitada. Este artículo presenta una exploración sistemática del Ajuste Fino por Refuerzo (RFT) con GRPO para MLLMs de video, con el objetivo de mejorar la percepción espacio-temporal mientras se mantienen las capacidades generales. Nuestros experimentos revelan que el RFT es altamente eficiente en términos de datos para mejoras específicas de tareas. A través del RFT multitarea en objetivos de percepción espacio-temporal con muestras limitadas, desarrollamos VideoChat-R1, un potente MLLM de video que logra un rendimiento de vanguardia en tareas de percepción espacio-temporal sin sacrificar la capacidad de chat, al mismo tiempo que exhibe habilidades emergentes de razonamiento espacio-temporal. En comparación con Qwen2.5-VL-7B, VideoChat-R1 aumenta el rendimiento varias veces en tareas como la localización temporal (+31.8) y el seguimiento de objetos (+31.2). Además, mejora significativamente en benchmarks generales de preguntas y respuestas como VideoMME (+0.9), MVBench (+1.0) y Perception Test (+0.9). Nuestros hallazgos subrayan el potencial del RFT para la mejora de tareas especializadas en MLLMs de video. Esperamos que nuestro trabajo ofrezca valiosas ideas para futuras investigaciones en aprendizaje por refuerzo en MLLMs de video.

WildGS-SLAM: SLAM con Proyección Gaussiana Monocular en Entornos Dinámicos
WildGS-SLAM: Monocular Gaussian Splatting SLAM in Dynamic Environments

Apr 4

ByJianhao Zheng, Zihan Zhu, Valentin Bieri, Marc Pollefeys, Songyou Peng, Iro Armeni

Presentamos WildGS-SLAM, un sistema robusto y eficiente de SLAM monocular RGB diseñado para manejar entornos dinámicos mediante el aprovechamiento de mapeo geométrico consciente de la incertidumbre. A diferencia de los sistemas SLAM tradicionales, que asumen escenas estáticas, nuestro enfoque integra información de profundidad e incertidumbre para mejorar el rendimiento de seguimiento, mapeo y renderizado en presencia de objetos en movimiento. Introducimos un mapa de incertidumbre, predicho por un perceptrón multicapa superficial y características DINOv2, para guiar la eliminación de objetos dinámicos durante el seguimiento y el mapeo. Este mapa de incertidumbre mejora el ajuste de haz denso y la optimización del mapa Gaussiano, aumentando la precisión de la reconstrucción. Nuestro sistema es evaluado en múltiples conjuntos de datos y demuestra síntesis de vistas libre de artefactos. Los resultados muestran el rendimiento superior de WildGS-SLAM en entornos dinámicos en comparación con los métodos más avanzados.

DiTaiListener: Generación de Videos de Oyentes de Alta Fidelidad Controlable con Difusión
DiTaiListener: Controllable High Fidelity Listener Video Generation with Diffusion

Apr 5

ByMaksim Siniukov, Di Chang, Minh Tran, Hongkun Gong, Ashutosh Chaubey, Mohammad Soleymani

Generar movimientos de escucha naturalistas y matizados para interacciones prolongadas sigue siendo un problema abierto. Los métodos existentes a menudo dependen de códigos de movimiento de baja dimensión para la generación de comportamiento facial, seguidos de renderizado fotorrealista, lo que limita tanto la fidelidad visual como la riqueza expresiva. Para abordar estos desafíos, presentamos DiTaiListener, impulsado por un modelo de difusión de video con condiciones multimodales. Nuestro enfoque primero genera segmentos cortos de respuestas del oyente condicionadas por el habla y los movimientos faciales del hablante con DiTaiListener-Gen. Luego, refina los fotogramas de transición mediante DiTaiListener-Edit para lograr una transición sin interrupciones. Específicamente, DiTaiListener-Gen adapta un Transformer de Difusión (DiT) para la tarea de generación de retratos de cabeza del oyente, introduciendo un Adaptador Multimodal Temporal Causal (CTM-Adapter) para procesar las señales auditivas y visuales del hablante. CTM-Adapter integra las entradas del hablante de manera causal en el proceso de generación de video para garantizar respuestas del oyente temporalmente coherentes. Para la generación de videos de larga duración, presentamos DiTaiListener-Edit, un modelo de difusión de video a video para el refinamiento de transiciones. Este modelo fusiona segmentos de video en videos suaves y continuos, asegurando la consistencia temporal en las expresiones faciales y la calidad de la imagen al unir segmentos cortos de video producidos por DiTaiListener-Gen. Cuantitativamente, DiTaiListener logra un rendimiento de vanguardia en conjuntos de datos de referencia tanto en espacios de fotorrealismo (+73.8% en FID en RealTalk) como en representación de movimiento (+6.1% en la métrica FD en VICO). Estudios de usuarios confirman el rendimiento superior de DiTaiListener, siendo el modelo la clara preferencia en términos de retroalimentación, diversidad y suavidad, superando a los competidores por un margen significativo.

Modelado de Escenas Enmascaradas: Reduciendo la Brecha entre el Aprendizaje Supervisado y el Auto-supervisado en la Comprensión de Escenas 3D
Masked Scene Modeling: Narrowing the Gap Between Supervised and Self-Supervised Learning in 3D Scene Understanding

Apr 9

ByPedro Hermosilla, Christian Stippel, Leon Sick

El aprendizaje autosupervisado ha transformado la visión por computadora en 2D al permitir que modelos entrenados en grandes conjuntos de datos no anotados proporcionen características versátiles listas para usar, que funcionan de manera similar a los modelos entrenados con etiquetas. Sin embargo, en la comprensión de escenas 3D, los métodos autosupervisados suelen utilizarse únicamente como un paso de inicialización de pesos para el ajuste específico de tareas, lo que limita su utilidad para la extracción de características de propósito general. Este artículo aborda esta limitación al proponer un protocolo de evaluación robusto diseñado específicamente para evaluar la calidad de las características autosupervisadas en la comprensión de escenas 3D. Nuestro protocolo utiliza muestreo de características multi-resolución en modelos jerárquicos para crear representaciones ricas a nivel de puntos que capturan las capacidades semánticas del modelo y, por lo tanto, son adecuadas para su evaluación mediante métodos de sondeo lineal y vecinos más cercanos. Además, presentamos el primer modelo autosupervisado que funciona de manera similar a los modelos supervisados cuando solo se utilizan características listas para usar en una configuración de sondeo lineal. En particular, nuestro modelo se entrena de forma nativa en 3D con un enfoque autosupervisado novedoso basado en un objetivo de Modelado de Escenas Enmascaradas (Masked Scene Modeling), que reconstruye características profundas de parches enmascarados de manera ascendente y está específicamente adaptado a modelos jerárquicos 3D. Nuestros experimentos no solo demuestran que nuestro método alcanza un rendimiento competitivo frente a los modelos supervisados, sino que también supera a los enfoques autosupervisados existentes por un amplio margen. El modelo y el código de entrenamiento están disponibles en nuestro repositorio de Github (https://github.com/phermosilla/msm).

¿Hemos terminado con el aprendizaje centrado en objetos?
Are We Done with Object-Centric Learning?

Apr 9

ByAlexander Rubinstein, Ameya Prabhu, Matthias Bethge, Seong Joon Oh

El aprendizaje centrado en objetos (Object-Centric Learning, OCL) busca aprender representaciones que codifiquen únicamente un objeto, aislado de otros objetos o señales del fondo en una escena. Este enfoque sustenta diversos objetivos, como la generalización fuera de distribución (out-of-distribution, OOD), la composición eficiente en muestras y el modelado de entornos estructurados. La mayoría de las investigaciones se ha centrado en desarrollar mecanismos no supervisados que separan objetos en espacios discretos dentro del espacio de representación, evaluados mediante descubrimiento no supervisado de objetos. Sin embargo, con los recientes modelos de segmentación eficientes en muestras, podemos separar objetos en el espacio de píxeles y codificarlos de manera independiente. Esto logra un rendimiento notable en pruebas de descubrimiento de objetos OOD con cero ejemplos, es escalable a modelos base y puede manejar un número variable de espacios de manera inmediata. Por lo tanto, el objetivo de los métodos OCL de obtener representaciones centradas en objetos se ha logrado en gran medida. A pesar de este avance, una pregunta clave persiste: ¿Cómo contribuye la capacidad de separar objetos dentro de una escena a objetivos más amplios del OCL, como la generalización OOD? Abordamos esto investigando el desafío de generalización OOD causado por señales espurias del fondo a través de la lente del OCL. Proponemos una sonda novedosa y sin entrenamiento llamada Clasificación Centrada en Objetos con Máscaras Aplicadas (Object-Centric Classification with Applied Masks, OCCAM), demostrando que la codificación basada en segmentación de objetos individuales supera significativamente a los métodos OCL basados en espacios. Sin embargo, persisten desafíos en aplicaciones del mundo real. Proporcionamos una caja de herramientas para que la comunidad OCL utilice representaciones centradas en objetos escalables, y nos enfocamos en aplicaciones prácticas y preguntas fundamentales, como comprender la percepción de objetos en la cognición humana. Nuestro código está disponible {aquí}https://github.com/AlexanderRubinstein/OCCAM.

RobustDexGrasp: Agarre Diestro Robusto de Objetos Generales a partir de Percepción de Vista Única
RobustDexGrasp: Robust Dexterous Grasping of General Objects from Single-view Perception

Apr 7

ByHui Zhang, Zijian Wu, Linyi Huang, Sammy Christen, Jie Song

La capacidad robusta de agarrar diversos objetos a partir de percepciones de una sola vista es fundamental para robots diestros. Trabajos anteriores suelen depender de objetos completamente observables, demostraciones expertas o poses estáticas de agarre, lo que limita su capacidad de generalización y adaptabilidad a perturbaciones externas. En este artículo, presentamos un marco basado en aprendizaje por refuerzo que permite el agarre diestro dinámico de cero disparos (zero-shot) de una amplia gama de objetos no vistos a partir de percepciones de una sola vista, mientras se realizan movimientos adaptativos a perturbaciones externas. Utilizamos una representación de objetos centrada en la mano para la extracción de características de forma que enfatiza las formas locales relevantes para la interacción, mejorando la robustez frente a variaciones e incertidumbres en la forma. Para permitir una adaptación efectiva de la mano a perturbaciones con observaciones limitadas, proponemos una estrategia de aprendizaje curricular mixto, que primero utiliza aprendizaje por imitación para destilar una política entrenada con retroalimentación visual-táctil en tiempo real privilegiada, y luego transfiere gradualmente al aprendizaje por refuerzo para aprender movimientos adaptativos bajo perturbaciones causadas por ruidos en las observaciones y aleatorización dinámica. Nuestros experimentos demuestran una fuerte generalización en el agarre de objetos no vistos con poses aleatorias, logrando tasas de éxito del 97.0% en 247,786 objetos simulados y del 94.6% en 512 objetos reales. También demostramos la robustez de nuestro método frente a diversas perturbaciones, incluyendo movimientos no observados de objetos y fuerzas externas, mediante evaluaciones cuantitativas y cualitativas. Página del proyecto: https://zdchan.github.io/Robust_DexGrasp/

Preentrenamiento de Modelos de Lenguaje para el Descubrimiento de Cambios Lingüísticos Diacrónicos
Pretraining Language Models for Diachronic Linguistic Change Discovery

Apr 7

ByElisabeth Fittschen, Sabrina Li, Tom Lippincott, Leshem Choshen, Craig Messner

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado potencial como herramientas para el descubrimiento científico. Esto ha generado un creciente interés en su uso en disciplinas humanísticas, como la lingüística histórica y los estudios literarios. Estos campos suelen construir argumentos basándose en delimitaciones como el género o, de manera más rígida, el período temporal. Aunque se han realizado esfuerzos para restringir la inferencia a dominios específicos mediante ajustes finos o edición de modelos, sostenemos que la única garantía verdadera es el preentrenamiento restringido al dominio, una propuesta que suele ser costosa en términos de datos y recursos computacionales. Demostramos que las técnicas de preentrenamiento eficiente pueden producir modelos útiles sobre corpus demasiado grandes para una inspección manual sencilla, pero demasiado pequeños para los enfoques "típicos" de LLMs. Empleamos una novedosa canalización de atribución de fechas para obtener un conjunto de datos segmentado temporalmente en cinco porciones de 10 millones de palabras cada una. Entrenamos dos baterías correspondientes de cinco modelos sobre estos segmentos del corpus: una mediante preentrenamiento eficiente y otra ajustando eficientemente el modelo Llama3-8B. Encontramos que los modelos preentrenados son más rápidos de entrenar que las líneas base ajustadas y que respetan mejor las divisiones históricas de nuestro corpus. Al enfatizar la velocidad y la precisión sobre una exhaustividad ahistórica, se habilitan varios enfoques novedosos para el descubrimiento y prueba de hipótesis en nuestros campos de interés. Tomando la lingüística diacrónica como campo de prueba, demostramos que nuestro método permite detectar un conjunto diverso de fenómenos, incluyendo cambios léxicos en masa, cambios no léxicos (gramaticales y morfológicos) y la introducción/obsolescencia de sentidos de palabras. Proporcionamos una canalización lista para usar que permite extender nuestro enfoque a otros campos de interés con solo una adaptación mínima.

RuOpinionNE-2024: Extracción de Tuplas de Opinión de Textos de Noticias en Ruso
RuOpinionNE-2024: Extraction of Opinion Tuples from Russian News Texts

Apr 9

ByNatalia Loukachevitch, Natalia Tkachenko, Anna Lapanitsyna, Mikhail Tikhomirov, Nicolay Rusnachenko

En este artículo, presentamos la tarea compartida de Evaluación de Diálogos sobre la extracción de opiniones estructuradas de textos noticiosos en ruso. El objetivo del concurso es extraer tuplas de opinión para una oración dada; las tuplas están compuestas por un titular de sentimiento, su objetivo, una expresión y el sentimiento del titular hacia el objetivo. En total, la tarea recibió más de 100 propuestas. Los participantes experimentaron principalmente con modelos de lenguaje grandes en formatos zero-shot, few-shot y fine-tuning. El mejor resultado en el conjunto de prueba se obtuvo mediante el fine-tuning de un modelo de lenguaje grande. También comparamos 30 prompts y 11 modelos de lenguaje de código abierto con 3 a 32 mil millones de parámetros en configuraciones 1-shot y 10-shot, y encontramos los mejores modelos y prompts.

Generación Controlada Rápida a partir de Modelos de Lenguaje con Muestreo de Rechazo Ponderado Adaptativo
Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling

Apr 7

ByBenjamin Lipkin, Benjamin LeBrun, Jacob Hoover Vigly, João Loula, David R. MacIver, Li Du, Jason Eisner, Ryan Cotterell, Vikash Mansinghka, Timothy J. O'Donnell, Alexander K. Lew, Tim Vieira

El enfoque dominante para generar a partir de modelos de lenguaje sujetos a alguna restricción es el decodificado localmente restringido (LCD, por sus siglas en inglés), que consiste en muestrear tokens de manera incremental en cada paso de tiempo de forma que la restricción nunca se viole. Normalmente, esto se logra mediante el enmascaramiento de tokens: recorriendo el vocabulario y excluyendo los tokens que no cumplen con la restricción. Este enfoque presenta dos problemas importantes. (i) Evaluar la restricción en cada token puede ser prohibitivamente costoso, ya que los vocabularios de los modelos de lenguaje suelen superar los 100,000 tokens. (ii) El LCD puede distorsionar la distribución global sobre las cadenas, muestreando tokens basados únicamente en información local, incluso si estos conducen a caminos sin salida. Este trabajo introduce un nuevo algoritmo que aborda ambos problemas. En primer lugar, para evitar evaluar una restricción sobre el vocabulario completo en cada paso de generación, proponemos un algoritmo de muestreo por rechazo adaptativo que generalmente requiere órdenes de magnitud menos evaluaciones de restricción. En segundo lugar, mostramos cómo este algoritmo puede extenderse para producir estimaciones de baja varianza y sin sesgo de los pesos de importancia a un costo adicional muy pequeño, estimaciones que pueden usarse de manera sólida dentro de algoritmos previamente propuestos de Monte Carlo secuencial para corregir el comportamiento miope de la aplicación local de restricciones. A través de una extensa evaluación empírica en dominios como texto-a-SQL, síntesis molecular, inferencia de objetivos, coincidencia de patrones y JSON, demostramos que nuestro enfoque es superior a los métodos de referencia más avanzados, admitiendo una clase más amplia de restricciones y mejorando tanto el tiempo de ejecución como el rendimiento. Análisis teóricos y empíricos adicionales muestran que la eficiencia en tiempo de ejecución de nuestro método se debe a su uso dinámico de la computación, escalando con la divergencia entre el modelo de lenguaje no restringido y el restringido, y como consecuencia, las mejoras en tiempo de ejecución son mayores para modelos mejores.

Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

OLMoTrace: Rastreando las Salidas de Modelos de Lenguaje hasta Billones de Tokens de Entrenamiento
OLMoTrace: Tracing Language Model Outputs Back to Trillions of Training Tokens

Apr 9

DDT: Transformador de Difusión Desacoplado
DDT: Decoupled Diffusion Transformer

Apr 8

ByShuai Wang, Zhi Tian, Weilin Huang, Limin Wang

La Falta de Premisas Exacerba la Sobreinterpretación: ¿Están Perdiendo los Modelos de Razonamiento la Habilidad de Pensamiento Crítico?
Missing Premise exacerbates Overthinking: Are Reasoning Models losing Critical Thinking Skill?

Apr 9

ByChenrui Fan, Ming Li, Lichao Sun, Tianyi Zhou

FantasyTalking: Generación Realista de Retratos Parlantes mediante Síntesis de Movimiento Coherente
FantasyTalking: Realistic Talking Portrait Generation via Coherent Motion Synthesis

Apr 7

ByMengchao Wang, Qiang Wang, Fan Jiang, Yaqi Fan, Yunpeng Zhang, Yonggang Qi, Kun Zhao, Mu Xu

Un Marco Agéntico Unificado para la Evaluación de la Generación Condicional de Imágenes
A Unified Agentic Framework for Evaluating Conditional Image Generation

Apr 9

ByJifang Wang, Xue Yang, Longyue Wang, Zhenran Xu, Yiyu Wang, Yaowei Wang, Weihua Luo, Kaifu Zhang, Baotian Hu, Min Zhang

GenDoP: Generación auto-regresiva de trayectorias de cámara como director de fotografía
GenDoP: Auto-regressive Camera Trajectory Generation as a Director of Photography

Apr 9

ByMengchen Zhang, Tong Wu, Jing Tan, Ziwei Liu, Gordon Wetzstein, Dahua Lin

Una Mirada Sobria al Progreso en el Razonamiento de Modelos de Lenguaje: Obstáculos y Caminos hacia la Reproducibilidad
A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility

Apr 9

ByAndreas Hochlehnert, Hardik Bhatnagar, Vishaal Udandarao, Samuel Albanie, Ameya Prabhu, Matthias Bethge

OmniCaptioner: Un Generador de Subtítulos para Gobernarlos a Todos
OmniCaptioner: One Captioner to Rule Them All

Apr 9

Modelos de Lenguaje de Autodirección
Self-Steering Language Models

Apr 9

ByGabriel Grand, Joshua B. Tenenbaum, Vikash K. Mansinghka, Alexander K. Lew, Jacob Andreas

Captiona Cualquier Cosa en Video: Descripción Centrada en Objetos de Granularidad Fina mediante Indicación Espaciotemporal Multimodal
Caption Anything in Video: Fine-grained Object-centric Captioning via Spatiotemporal Multimodal Prompting

Apr 7

VideoChat-R1: Mejora de la Percepción Espacio-Temporal mediante Ajuste Fino por Refuerzo
VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning

Apr 9

ByXinhao Li, Ziang Yan, Desen Meng, Lu Dong, Xiangyu Zeng, Yinan He, Yali Wang, Yu Qiao, Yi Wang, Limin Wang

WildGS-SLAM: SLAM con Proyección Gaussiana Monocular en Entornos Dinámicos
WildGS-SLAM: Monocular Gaussian Splatting SLAM in Dynamic Environments

Apr 4

ByJianhao Zheng, Zihan Zhu, Valentin Bieri, Marc Pollefeys, Songyou Peng, Iro Armeni

DiTaiListener: Generación de Videos de Oyentes de Alta Fidelidad Controlable con Difusión
DiTaiListener: Controllable High Fidelity Listener Video Generation with Diffusion

Apr 5

ByMaksim Siniukov, Di Chang, Minh Tran, Hongkun Gong, Ashutosh Chaubey, Mohammad Soleymani

Modelado de Escenas Enmascaradas: Reduciendo la Brecha entre el Aprendizaje Supervisado y el Auto-supervisado en la Comprensión de Escenas 3D
Masked Scene Modeling: Narrowing the Gap Between Supervised and Self-Supervised Learning in 3D Scene Understanding

Apr 9

ByPedro Hermosilla, Christian Stippel, Leon Sick

¿Hemos terminado con el aprendizaje centrado en objetos?
Are We Done with Object-Centric Learning?

Apr 9

ByAlexander Rubinstein, Ameya Prabhu, Matthias Bethge, Seong Joon Oh

RobustDexGrasp: Agarre Diestro Robusto de Objetos Generales a partir de Percepción de Vista Única
RobustDexGrasp: Robust Dexterous Grasping of General Objects from Single-view Perception

Apr 7

ByHui Zhang, Zijian Wu, Linyi Huang, Sammy Christen, Jie Song

Preentrenamiento de Modelos de Lenguaje para el Descubrimiento de Cambios Lingüísticos Diacrónicos
Pretraining Language Models for Diachronic Linguistic Change Discovery

Apr 7

ByElisabeth Fittschen, Sabrina Li, Tom Lippincott, Leshem Choshen, Craig Messner

RuOpinionNE-2024: Extracción de Tuplas de Opinión de Textos de Noticias en Ruso
RuOpinionNE-2024: Extraction of Opinion Tuples from Russian News Texts

Apr 9

ByNatalia Loukachevitch, Natalia Tkachenko, Anna Lapanitsyna, Mikhail Tikhomirov, Nicolay Rusnachenko

Generación Controlada Rápida a partir de Modelos de Lenguaje con Muestreo de Rechazo Ponderado Adaptativo
Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling

Apr 7

ByBenjamin Lipkin, Benjamin LeBrun, Jacob Hoover Vigly, João Loula, David R. MacIver, Li Du, Jason Eisner, Ryan Cotterell, Vikash Mansinghka, Timothy J. O'Donnell, Alexander K. Lew, Tim Vieira