ChatPaper.aiChatPaper.ai
Inicio

arXiv

HuggingFace

PreciosCuentaEspacio de trabajo

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

1

Perspectivas a Nivel de Características en la Detección de Texto Artificial con Autoencoders Dispersos
Feature-Level Insights into Artificial Text Detection with Sparse Autoencoders

Mar 5
ByKristian Kuznetsov, Laida Kushnareva, Polina Druzhinina, Anton Razzhigaev, Anastasia Voznyuk, Irina Piontkovskaya, Evgeny Burnaev, Serguei Barannikov
232
2

La Detección de Texto Artificial (ATD, por sus siglas en inglés) está adquiriendo una importancia creciente con el auge de los Modelos de Lenguaje de Gran Escala (LLMs). A pesar de numerosos esfuerzos, ningún algoritmo único funciona consistentemente bien en diferentes tipos de texto no visto ni garantiza una generalización efectiva hacia nuevos LLMs. La interpretabilidad juega un papel crucial para alcanzar este objetivo. En este estudio, mejoramos la interpretabilidad de la ATD utilizando Autoencoders Dispersos (SAE) para extraer características del flujo residual de Gemma-2-2b. Identificamos tanto características interpretables como eficientes, analizando su semántica y relevancia mediante estadísticas específicas del dominio y del modelo, un enfoque de direccionamiento, e interpretación manual o basada en LLMs. Nuestros métodos ofrecen valiosas perspectivas sobre cómo los textos generados por diversos modelos difieren del contenido escrito por humanos. Demostramos que los LLMs modernos tienen un estilo de escritura distintivo, especialmente en dominios con alta densidad de información, a pesar de que pueden producir resultados similares a los humanos mediante indicaciones personalizadas.

2

SEAP: Poda de Activación de Expertos Escasos sin Entrenamiento para Liberar el Potencial Intelectual de los Modelos de Lenguaje a Gran Escala
SEAP: Training-free Sparse Expert Activation Pruning Unlock the Brainpower of Large Language Models

Mar 10
ByXun Liang, Hanyu Wang, Huayi Lai, Simin Niu, Shichao Song, Jiawei Yang, Jihao Zhao, Feiyu Xiong, Bo Tang, Zhiyu Li
68
1

Los Modelos de Lenguaje a Gran Escala han logrado un éxito notable en diversas tareas de procesamiento de lenguaje natural, aunque su alto costo computacional durante la inferencia sigue siendo un cuello de botella importante. Este artículo presenta Sparse Expert Activation Pruning (SEAP), un método de poda que no requiere entrenamiento y que retiene selectivamente los parámetros relevantes para la tarea, reduciendo así la sobrecarga de inferencia. Inspirado por los patrones de agrupamiento de los estados ocultos y las activaciones en los modelos de lenguaje, SEAP identifica patrones de activación específicos de la tarea y poda el modelo mientras preserva el rendimiento de la tarea y mejora la eficiencia computacional. Los resultados experimentales demuestran que SEAP reduce significativamente la sobrecarga computacional manteniendo una precisión competitiva. En particular, con un 50% de poda, SEAP supera tanto a WandA como a FLAP en más de un 20%, y con un 20% de poda, incurre en solo una caída del 2.2% en el rendimiento en comparación con el modelo denso. Estos hallazgos resaltan la escalabilidad y efectividad de SEAP, convirtiéndolo en un enfoque prometedor para optimizar modelos de lenguaje a gran escala.

3

MM-Eureka: Explorando el momento "¡Ajá!" visual con aprendizaje por refuerzo a gran escala basado en reglas
MM-Eureka: Exploring Visual Aha Moment with Rule-based Large-scale Reinforcement Learning

Mar 10
ByFanqing Meng, Lingxiao Du, Zongkai Liu, Zhixiang Zhou, Quanfeng Lu, Daocheng Fu, Botian Shi, Wenhai Wang, Junjun He, Kaipeng Zhang, Ping Luo, Yu Qiao, Qiaosheng Zhang, Wenqi Shao
61
2

Presentamos MM-Eureka, un modelo de razonamiento multimodal que extiende exitosamente el aprendizaje por refuerzo (RL) basado en reglas a gran escala al razonamiento multimodal. Si bien el RL basado en reglas ha demostrado un éxito notable en mejorar las capacidades de razonamiento de los LLMs en dominios textuales, su aplicación en entornos multimodales ha seguido siendo un desafío. Nuestro trabajo reproduce características clave de los sistemas de RL basados en texto, como DeepSeek-R1, en el espacio multimodal, incluyendo aumentos constantes en la recompensa de precisión y la longitud de las respuestas, así como la aparición de comportamientos de reflexión. Demostramos que tanto los modelos ajustados por instrucción como los preentrenados pueden desarrollar fuertes capacidades de razonamiento multimodal a través del RL basado en reglas sin necesidad de ajuste fino supervisado, mostrando una eficiencia de datos superior en comparación con enfoques alternativos. Hacemos público nuestro pipeline completo para fomentar más investigaciones en esta área. Liberamos todos nuestros códigos, modelos, datos, etc. en https://github.com/ModalMinds/MM-EUREKA.

4

VACE: Creación y Edición de Video Todo en Uno
VACE: All-in-One Video Creation and Editing

Mar 10
ByZeyinzi Jiang, Zhen Han, Chaojie Mao, Jingfeng Zhang, Yulin Pan, Yu Liu
57
8

El Transformer de Difusión ha demostrado una capacidad y escalabilidad potentes en la generación de imágenes y videos de alta calidad. Avanzar hacia la unificación de tareas de generación y edición ha logrado un progreso significativo en el ámbito de la creación de contenido visual. Sin embargo, debido a las demandas intrínsecas de consistencia tanto en las dinámicas temporales como espaciales, lograr un enfoque unificado para la síntesis de videos sigue siendo un desafío. Presentamos VACE, que permite a los usuarios realizar tareas de video dentro de un marco integral para la Creación y Edición. Estas tareas incluyen la generación de video a partir de referencias, la edición de video a video y la edición de video enmascarado. Específicamente, integramos eficazmente los requisitos de diversas tareas organizando las entradas de tareas de video, como edición, referencia y enmascaramiento, en una interfaz unificada denominada Unidad de Condición de Video (VCU). Además, al utilizar una estructura de Adaptador de Contexto, inyectamos diferentes conceptos de tareas en el modelo mediante representaciones formalizadas de dimensiones temporales y espaciales, permitiéndole manejar tareas arbitrarias de síntesis de video de manera flexible. Experimentos exhaustivos demuestran que el modelo unificado de VACE logra un rendimiento comparable con modelos específicos para tareas en varios subtareas. Simultáneamente, habilita diversas aplicaciones a través de combinaciones versátiles de tareas. Página del proyecto: https://ali-vilab.github.io/VACE-Page/.

5

Generación Automatizada de Películas mediante Planificación CoT Multiagente
Automated Movie Generation via Multi-Agent CoT Planning

Mar 10
ByWeijia Wu, Zeyu Zhu, Mike Zheng Shou
44
2

Los marcos existentes para la generación de videos de larga duración carecen de planificación automatizada, requiriendo entrada manual para tramas, escenas, cinematografía e interacciones de personajes, lo que resulta en altos costos e ineficiencias. Para abordar estos desafíos, presentamos MovieAgent, una generación automatizada de películas mediante planificación de Cadena de Pensamiento (CoT) multiagente. MovieAgent ofrece dos ventajas clave: 1) Exploramos y definimos por primera vez el paradigma de la generación automatizada de películas/videos largos. Dado un guion y un banco de personajes, nuestro MovieAgent puede generar videos de larga duración con múltiples escenas y tomas, manteniendo una narrativa coherente, consistencia de personajes, subtítulos sincronizados y audio estable a lo largo de la película. 2) MovieAgent introduce un proceso de razonamiento jerárquico basado en CoT para estructurar automáticamente escenas, configuraciones de cámara y cinematografía, reduciendo significativamente el esfuerzo humano. Al emplear múltiples agentes de LLM para simular los roles de director, guionista, artista de storyboard y gerente de locaciones, MovieAgent optimiza la línea de producción. Los experimentos demuestran que MovieAgent alcanza nuevos resultados de vanguardia en fidelidad al guion, consistencia de personajes y coherencia narrativa. Nuestro marco jerárquico da un paso adelante y ofrece nuevas perspectivas sobre la generación completamente automatizada de películas. El código y el sitio web del proyecto están disponibles en: https://github.com/showlab/MovieAgent y https://weijiawu.github.io/MovieAgent.

6

¿Tomar notas mejora la concentración? Hacia el aprendizaje de diálogos multimodales de múltiples turnos
Taking Notes Brings Focus? Towards Multi-Turn Multimodal Dialogue Learning

Mar 10
ByJiazheng Liu, Sipeng Zheng, Börje F. Karlsson, Zongqing Lu
39
2

Los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés), construidos sobre torres de visión y modelos de lenguaje preentrenados a gran escala, han demostrado grandes capacidades en la comprensión multimodal. Sin embargo, la mayoría de los MLLMs existentes se entrenan en tareas de preguntas y respuestas visuales de un solo turno, lo que no refleja con precisión las conversaciones humanas del mundo real. En este artículo, presentamos MMDiag, un conjunto de datos de diálogo multimodal de múltiples turnos. Este conjunto de datos se genera de manera colaborativa mediante reglas diseñadas deliberadamente y con la asistencia de GPT, presentando fuertes correlaciones entre preguntas, entre preguntas e imágenes, y entre diferentes regiones de la imagen; alineándose así más estrechamente con escenarios del mundo real. MMDiag sirve como un sólido punto de referencia para el aprendizaje de diálogos multimodales de múltiples turnos y plantea mayores desafíos a las capacidades de fundamentación y razonamiento de los MLLMs. Además, inspirados por el procesamiento visual humano, presentamos DiagNote, un MLLM equipado con capacidades de fundamentación y razonamiento multimodal. DiagNote consta de dos módulos (Deliberate y Gaze) que interactúan entre sí para realizar, respectivamente, cadenas de pensamiento (Chain-of-Thought) y anotaciones a lo largo de diálogos de múltiples turnos. Demostramos empíricamente las ventajas de DiagNote tanto en la fundamentación como en el procesamiento conjunto y el razonamiento con información visual y lingüística en comparación con los MLLMs existentes.

7

FedRand: Mejorando la Privacidad en el Aprendizaje Federado con Actualizaciones Aleatorias de LoRA en Subparámetros
FedRand: Enhancing Privacy in Federated Learning with Randomized LoRA Subparameter Updates

Mar 10
BySangwoo Park, Seanie Lee, Byungjoo Kim, Sung Ju Hwang
32
1

El Aprendizaje Federado (FL, por sus siglas en inglés) es un marco ampliamente utilizado para entrenar modelos de manera descentralizada, asegurando que el servidor central no tenga acceso directo a los datos de los clientes locales. Sin embargo, este enfoque puede no preservar completamente la privacidad de los datos, ya que los modelos de los clientes locales quedan expuestos al servidor central durante el proceso de agregación. Este problema se vuelve aún más crítico al entrenar modelos de visión y lenguaje (VLMs) con FL, ya que los VLMs pueden memorizar fácilmente instancias de datos de entrenamiento, haciéndolos vulnerables a ataques de inferencia de pertenencia (MIAs). Para abordar este desafío, proponemos el marco FedRand, que evita la divulgación del conjunto completo de parámetros de los clientes. En este marco, cada cliente selecciona aleatoriamente subparámetros de Adaptación de Bajo Rango (LoRA) del servidor y mantiene las contrapartes restantes de los pesos LoRA como parámetros privados. Después de entrenar ambos parámetros en el conjunto de datos privados del cliente, solo los parámetros no privados se envían de vuelta al servidor para su agregación. Este enfoque mitiga el riesgo de exponer los parámetros de los VLMs en el lado del cliente, mejorando así la privacidad de los datos. Validamos empíricamente que FedRand mejora la robustez frente a MIAs en comparación con líneas de base relevantes, al tiempo que logra una precisión comparable a los métodos que comunican parámetros LoRA completos en varios conjuntos de datos de referencia.

8

DistiLLM-2: Un enfoque contrastivo potencia la destilación de modelos de lenguaje grandes
DistiLLM-2: A Contrastive Approach Boosts the Distillation of LLMs

Mar 10
ByJongwoo Ko, Tianyi Chen, Sungnyun Kim, Tianyu Ding, Luming Liang, Ilya Zharkov, Se-Young Yun
31
3

A pesar del éxito de la destilación en los modelos de lenguaje de gran escala (LLMs), la mayoría de los trabajos previos aplican funciones de pérdida idénticas tanto a los datos generados por el profesor como por el estudiante. Estas estrategias pasan por alto la sinergia entre las formulaciones de pérdida y los tipos de datos, lo que resulta en un aumento de rendimiento subóptimo en los modelos estudiantiles. Para abordar esto, proponemos DistiLLM-2, un enfoque contrastivo que simultáneamente aumenta la probabilidad de las respuestas del profesor y disminuye la de las respuestas del estudiante al aprovechar esta sinergia. Nuestros extensos experimentos muestran que DistiLLM-2 no solo construye modelos estudiantiles de alto rendimiento en una amplia gama de tareas, incluyendo la seguimiento de instrucciones y la generación de código, sino que también respalda diversas aplicaciones, como la alineación de preferencias y extensiones de visión-lenguaje. Estos hallazgos resaltan el potencial de un enfoque contrastivo para mejorar la eficacia de la destilación de LLMs al alinear efectivamente los modelos del profesor y del estudiante en diversos tipos de datos.

9

Visión-R1: Incentivando la Capacidad de Razonamiento en Modelos de Lenguaje Multimodales de Gran Escala
Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

Mar 9
ByWenxuan Huang, Bohan Jia, Zijie Zhai, Shaosheng Cao, Zheyu Ye, Fei Zhao, Yao Hu, Shaohui Lin
31
2

DeepSeek-R1-Zero ha demostrado con éxito la emergencia de capacidades de razonamiento en LLMs (Modelos de Lenguaje de Gran Escala) únicamente a través del Aprendizaje por Refuerzo (RL, por sus siglas en inglés). Inspirados por este avance, exploramos cómo el RL puede ser utilizado para mejorar la capacidad de razonamiento de los MLLMs (Modelos Multimodales de Lenguaje de Gran Escala). Sin embargo, el entrenamiento directo con RL enfrenta dificultades para activar capacidades de razonamiento complejas, como el cuestionamiento y la reflexión en los MLLMs, debido a la ausencia de datos sustanciales y de alta calidad para el razonamiento multimodal. Para abordar este problema, proponemos el MLLM de razonamiento, Vision-R1, con el objetivo de mejorar la capacidad de razonamiento multimodal. Específicamente, primero construimos un conjunto de datos multimodal de alta calidad sin anotaciones humanas, aprovechando un MLLM existente y DeepSeek-R1 mediante la conexión de modalidades y el filtrado de datos, obteniendo un conjunto de datos multimodal de 200K, denominado Vision-R1-cold. Este conjunto de datos sirve como inicialización de arranque en frío para Vision-R1. Para mitigar los desafíos de optimización causados por el sobrepensamiento después del arranque en frío, proponemos la estrategia de Entrenamiento de Supresión de Pensamiento Progresivo (PTST, por sus siglas en inglés) y empleamos la Optimización de Política Relativa de Grupo (GRPO, por sus siglas en inglés) con la función de recompensa de resultados de formato duro, para refinar gradualmente la capacidad del modelo para aprender procesos de razonamiento correctos y complejos en un conjunto de datos matemáticos multimodales de 10K. Experimentos exhaustivos muestran que nuestro modelo logra una mejora promedio de ~6% en varios puntos de referencia de razonamiento matemático multimodal. Vision-R1-7B alcanza un 73.5% de precisión en el ampliamente utilizado punto de referencia MathVista, lo cual es solo un 0.4% inferior al modelo líder de razonamiento, OpenAI O1. Los conjuntos de datos y el código serán liberados en: https://github.com/Osilly/Vision-R1.

10

EasyControl: Incorporación de control eficiente y flexible para Transformadores de Difusión
EasyControl: Adding Efficient and Flexible Control for Diffusion Transformer

Mar 10
ByYuxuan Zhang, Yirui Yuan, Yiren Song, Haofan Wang, Jiaming Liu
29
2

Los recientes avances en los modelos de difusión basados en Unet, como ControlNet e IP-Adapter, han introducido mecanismos efectivos de control espacial y temático. Sin embargo, la arquitectura DiT (Diffusion Transformer) aún enfrenta dificultades para lograr un control eficiente y flexible. Para abordar este problema, proponemos EasyControl, un marco novedoso diseñado para unificar transformadores de difusión guiados por condiciones con alta eficiencia y flexibilidad. Nuestro marco se basa en tres innovaciones clave. Primero, introducimos un módulo ligero de Inyección de Condiciones LoRA. Este módulo procesa señales condicionales de forma aislada, actuando como una solución plug-and-play. Evita modificar los pesos del modelo base, asegurando compatibilidad con modelos personalizados y permitiendo la inyección flexible de diversas condiciones. Notablemente, este módulo también soporta una generalización robusta y armoniosa de múltiples condiciones en zero-shot, incluso cuando se entrena solo con datos de una sola condición. Segundo, proponemos un Paradigma de Entrenamiento Consciente de la Posición. Este enfoque estandariza las condiciones de entrada a resoluciones fijas, permitiendo la generación de imágenes con proporciones arbitrarias y resoluciones flexibles. Al mismo tiempo, optimiza la eficiencia computacional, haciendo que el marco sea más práctico para aplicaciones del mundo real. Tercero, desarrollamos un Mecanismo de Atención Causal combinado con la técnica KV Cache, adaptado para tareas de generación condicional. Esta innovación reduce significativamente la latencia de la síntesis de imágenes, mejorando la eficiencia general del marco. A través de extensos experimentos, demostramos que EasyControl logra un rendimiento excepcional en diversos escenarios de aplicación. Estas innovaciones hacen que nuestro marco sea altamente eficiente, flexible y adecuado para una amplia gama de tareas.

11

Más allá de RAG: Compresión de Caché KV Consciente de la Tarea para el Razonamiento de Conocimiento Integral
Beyond RAG: Task-Aware KV Cache Compression for Comprehensive Knowledge Reasoning

Mar 6
ByGiulio Corallo, Orion Weller, Fabio Petroni, Paolo Papotti
26
7

La incorporación de conocimiento externo en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) mejora su utilidad en diversas aplicaciones, pero los métodos existentes presentan compensaciones. La Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) obtiene evidencia mediante búsqueda por similitud, pero la información clave puede quedar fuera de los resultados mejor clasificados. Los modelos de contexto largo pueden procesar múltiples documentos, pero son computacionalmente costosos y están limitados por el tamaño de la ventana de contexto. Inspirados por los estudiantes que condensan material de estudio para exámenes de libro abierto, proponemos la compresión de caché clave-valor (KV, por sus siglas en inglés) consciente de la tarea, que comprime el conocimiento externo en un entorno de cero o pocos ejemplos. Esto permite que los LLMs razonen de manera eficiente sobre una representación compacta de toda la información relevante. Los experimentos muestran que nuestro enfoque supera tanto a RAG como a los métodos de compresión agnósticos de la tarea. En LongBench v2, mejora la precisión hasta en 7 puntos absolutos sobre RAG con una tasa de compresión de 30x, mientras reduce la latencia de inferencia de 0.43s a 0.16s. Un conjunto de datos sintético destaca que RAG funciona bien cuando la evidencia dispersa es suficiente, mientras que la compresión consciente de la tarea es superior para tareas que requieren un conocimiento amplio.

12

AlphaDrive: Liberando el Poder de los Modelos de Lenguaje Visual en la Conducción Autónoma mediante Aprendizaje por Refuerzo y Razonamiento
AlphaDrive: Unleashing the Power of VLMs in Autonomous Driving via Reinforcement Learning and Reasoning

Mar 10
ByBo Jiang, Shaoyu Chen, Qian Zhang, Wenyu Liu, Xinggang Wang
23
1

OpenAI o1 y DeepSeek R1 logran o incluso superan el rendimiento de expertos humanos en dominios complejos como las matemáticas y las ciencias, donde el aprendizaje por refuerzo (RL) y el razonamiento desempeñan un papel crucial. En la conducción autónoma, los modelos recientes de extremo a extremo han mejorado significativamente el desempeño en planificación, pero aún enfrentan problemas de cola larga debido a capacidades limitadas de sentido común y razonamiento. Algunos estudios integran modelos de visión-lenguaje (VLMs) en la conducción autónoma, pero generalmente dependen de modelos preentrenados con un ajuste fino supervisado (SFT) simple en datos de conducción, sin explorar más a fondo estrategias de entrenamiento u optimizaciones específicamente diseñadas para la planificación. En este artículo, proponemos AlphaDrive, un marco de RL y razonamiento para VLMs en conducción autónoma. AlphaDrive introduce cuatro recompensas de RL basadas en GRPO adaptadas para la planificación y emplea una estrategia de entrenamiento de razonamiento en planificación de dos etapas que combina SFT con RL. Como resultado, AlphaDrive mejora significativamente tanto el desempeño en planificación como la eficiencia del entrenamiento en comparación con el uso exclusivo de SFT o sin razonamiento. Además, también nos entusiasma descubrir que, tras el entrenamiento con RL, AlphaDrive exhibe algunas capacidades emergentes de planificación multimodal, lo cual es crítico para mejorar la seguridad y eficiencia en la conducción. Hasta donde sabemos, AlphaDrive es el primero en integrar RL basado en GRPO con razonamiento en planificación en la conducción autónoma. El código será liberado para facilitar futuras investigaciones.

13

WritingBench: Un punto de referencia integral para la escritura generativa
WritingBench: A Comprehensive Benchmark for Generative Writing

Mar 7
ByYuning Wu, Jiahao Mei, Ming Yan, Chenliang Li, SHaopeng Lai, Yuran Ren, Zijia Wang, Ji Zhang, Mengyue Wu, Qin Jin, Fei Huang
20
2

Los recientes avances en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han mejorado significativamente las capacidades de generación de texto, aunque evaluar su desempeño en la escritura generativa sigue siendo un desafío. Los puntos de referencia existentes se centran principalmente en la generación de texto genérico o en tareas de escritura limitadas, sin capturar los diversos requisitos de contenidos escritos de alta calidad en distintos dominios. Para cerrar esta brecha, presentamos WritingBench, un punto de referencia integral diseñado para evaluar LLMs en 6 dominios principales de escritura y 100 subdominios, abarcando la escritura creativa, persuasiva, informativa y técnica. Además, proponemos un marco de evaluación dependiente de consultas que permite a los LLMs generar dinámicamente criterios de evaluación específicos para cada instancia. Este marco se complementa con un modelo crítico ajustado para puntuaciones conscientes de los criterios, permitiendo evaluaciones en estilo, formato y longitud. La validez del marco se demuestra además por su capacidad de curación de datos, que permite que modelos de 7 mil millones de parámetros se acerquen al rendimiento de vanguardia (SOTA). Hacemos público el punto de referencia, junto con herramientas de evaluación y componentes modulares del marco, para impulsar el desarrollo de LLMs en la escritura.

14

FEA-Bench: Un punto de referencia para evaluar la generación de código a nivel de repositorio para la implementación de funcionalidades
FEA-Bench: A Benchmark for Evaluating Repository-Level Code Generation for Feature Implementation

Mar 9
ByWei Li, Xin Zhang, Zhongxin Guo, Shaoguang Mao, Wen Luo, Guangyue Peng, Yangyu Huang, Houfeng Wang, Scarlett Li
20
7

La implementación de nuevas funcionalidades en bases de código a nivel de repositorio es una aplicación crucial de los modelos de generación de código. Sin embargo, los puntos de referencia actuales carecen de un marco de evaluación dedicado para esta capacidad. Para llenar este vacío, presentamos FEA-Bench, un punto de referencia diseñado para evaluar la capacidad de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) para realizar desarrollo incremental dentro de repositorios de código. Recopilamos solicitudes de extracción (pull requests) de 83 repositorios de GitHub y utilizamos filtrado basado en reglas e intenciones para construir instancias de tareas centradas en el desarrollo de nuevas funcionalidades. Cada instancia de tarea que contiene cambios de código se empareja con archivos de pruebas unitarias relevantes para garantizar que la solución pueda ser verificada. La implementación de la funcionalidad requiere que los LLMs posean simultáneamente capacidades de completado de código para nuevos componentes y habilidades de edición de código para otras partes relevantes en el repositorio, proporcionando un método de evaluación más completo de las capacidades de ingeniería de software automatizada de los LLMs. Los resultados experimentales muestran que los LLMs tienen un desempeño significativamente peor en FEA-Bench, destacando desafíos considerables en este tipo de desarrollo incremental de código a nivel de repositorio.

15

Modelos de agentes: Internalización de la generación de cadenas de acción en modelos de razonamiento
Agent models: Internalizing Chain-of-Action Generation into Reasoning models

Mar 9
ByYuxiang Zhang, Yuqi Yang, Jiangming Shu, Xinyan Wen, Jitao Sang
19
3

Los flujos de trabajo agentes tradicionales dependen de indicaciones externas para gestionar las interacciones con herramientas y el entorno, lo que limita la autonomía de los modelos de razonamiento. Nos posicionamos con los Modelos de Agentes a Gran Escala (LAMs, por sus siglas en inglés) que internalizan la generación de Cadenas de Acción (CoA, por sus siglas en inglés), permitiendo que el modelo decida de manera autónoma cuándo y cómo utilizar herramientas externas. Nuestro marco propuesto, AutoCoA, combina ajuste fino supervisado (SFT) y aprendizaje por refuerzo (RL), permitiendo que el modelo cambie sin problemas entre razonamiento y acción mientras gestiona eficientemente las interacciones con el entorno. Los componentes principales incluyen la activación de acciones a nivel de paso, la optimización de CoA a nivel de trayectoria y un modelo interno del mundo para reducir los costos de interacción con el entorno real. Las evaluaciones en tareas de preguntas y respuestas de dominio abierto demuestran que los modelos agentes entrenados con AutoCoA superan significativamente a los flujos de trabajo basados en ReAct en la finalización de tareas, especialmente en aquellas que requieren razonamiento a largo plazo y acciones de múltiples pasos. El código y el conjunto de datos están disponibles en https://github.com/ADaM-BJTU/AutoCoA.

16

SurveyForge: Sobre las heurísticas de esquematización, la generación basada en memoria y la evaluación multidimensional para la escritura automatizada de encuestas
SurveyForge: On the Outline Heuristics, Memory-Driven Generation, and Multi-dimensional Evaluation for Automated Survey Writing

Mar 6
ByXiangchao Yan, Shiyang Feng, Jiakang Yuan, Renqiu Xia, Bin Wang, Bo Zhang, Lei Bai
18
2

Los artículos de revisión desempeñan un papel crucial en la investigación científica, especialmente dado el rápido crecimiento de las publicaciones de investigación. Recientemente, los investigadores han comenzado a utilizar LLMs (modelos de lenguaje de gran escala) para automatizar la generación de revisiones con el fin de mejorar la eficiencia. Sin embargo, la brecha de calidad entre las revisiones generadas por LLMs y las escritas por humanos sigue siendo significativa, particularmente en términos de la calidad del esquema y la precisión de las citas. Para cerrar estas brechas, presentamos SurveyForge, que primero genera el esquema analizando la estructura lógica de los esquemas escritos por humanos y consultando los artículos relacionados con el dominio que ha recuperado. Posteriormente, aprovechando los artículos de alta calidad recuperados de la memoria por nuestro agente de navegación académica, SurveyForge puede generar y refinar automáticamente el contenido del artículo generado. Además, para lograr una evaluación exhaustiva, construimos SurveyBench, que incluye 100 artículos de revisión escritos por humanos para comparar la tasa de éxito y evalúa los artículos de revisión generados por IA en tres dimensiones: referencia, calidad del esquema y calidad del contenido. Los experimentos demuestran que SurveyForge puede superar trabajos anteriores como AutoSurvey.

17

MedAgentsBench: Evaluación de Modelos de Pensamiento y Marcos de Agentes para el Razonamiento Médico Complejo
MedAgentsBench: Benchmarking Thinking Models and Agent Frameworks for Complex Medical Reasoning

Mar 10
ByXiangru Tang, Daniel Shao, Jiwoong Sohn, Jiapeng Chen, Jiayi Zhang, Jinyu Xiang, Fang Wu, Yilun Zhao, Chenglin Wu, Wenqi Shi, Arman Cohan, Mark Gerstein
16
3

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado un rendimiento impresionante en los benchmarks existentes de preguntas y respuestas médicas. Este alto rendimiento dificulta cada vez más la evaluación significativa y la diferenciación de métodos avanzados. Presentamos MedAgentsBench, un benchmark que se centra en preguntas médicas desafiantes que requieren razonamiento clínico de múltiples pasos, formulación de diagnósticos y planificación de tratamientos, escenarios en los que los modelos actuales aún tienen dificultades a pesar de su fuerte rendimiento en pruebas estándar. Basándonos en siete conjuntos de datos médicos establecidos, nuestro benchmark aborda tres limitaciones clave en las evaluaciones existentes: (1) la prevalencia de preguntas directas en las que incluso los modelos base logran un alto rendimiento, (2) protocolos de muestreo y evaluación inconsistentes entre estudios, y (3) la falta de análisis sistemático de la interacción entre rendimiento, costo y tiempo de inferencia. A través de experimentos con varios modelos base y métodos de razonamiento, demostramos que los últimos modelos de pensamiento, DeepSeek R1 y OpenAI o3, exhiben un rendimiento excepcional en tareas complejas de razonamiento médico. Además, los métodos avanzados basados en agentes de búsqueda ofrecen relaciones prometedoras entre rendimiento y costo en comparación con enfoques tradicionales. Nuestro análisis revela brechas sustanciales de rendimiento entre familias de modelos en preguntas complejas e identifica selecciones óptimas de modelos para diferentes restricciones computacionales. Nuestro benchmark y marco de evaluación están disponibles públicamente en https://github.com/gersteinlab/medagents-benchmark.

18

Desbloqueando el Potencial de los Modelos de Lenguaje de Gran Escala para la Generación de Texto a Imagen mediante Alineación Autoregresiva de Representaciones
Unleashing the Potential of Large Language Models for Text-to-Image Generation through Autoregressive Representation Alignment

Mar 10
ByXing Xie, Jiawei Liu, Ziyue Lin, Huijie Fan, Zhi Han, Yandong Tang, Liangqiong Qu
16
1

Presentamos Alineación de Representación Autoregresiva (ARRA), un nuevo marco de entrenamiento que permite la generación de imágenes coherentes a nivel global a partir de texto en modelos de lenguaje autoregresivos (LLMs) sin necesidad de cambios arquitectónicos. A diferencia de trabajos anteriores que requieren rediseños arquitectónicos complejos, ARRA alinea los estados ocultos de los LLMs con representaciones visuales de modelos visuales fundamentales externos mediante una pérdida de alineación visual global y un token híbrido, <HYBNEXT>. Este token impone dobles restricciones: predicción local del siguiente token y destilación semántica global, permitiendo que los LLMs aprendan implícitamente coherencia espacial y contextual mientras mantienen su paradigma autoregresivo original. Experimentos exhaustivos validan la versatilidad plug-and-play de ARRA. Al entrenar a partir de LLMs diseñados solo para generación de texto o desde inicialización aleatoria, ARRA reduce el FID en un 25.5% (MIMIC-CXR), 8.8% (DeepEyeNet) y 7.5% (ImageNet) para LLMs autoregresivos avanzados como Chameleon y LlamaGen, todo ello sin modificaciones en el marco. Para la adaptación de dominio, ARRA alinea LLMs de propósito general con modelos especializados (por ejemplo, BioMedCLIP), logrando una reducción del 18.6% en FID sobre el ajuste fino directo en imágenes médicas (MIMIC-CXR). Al demostrar que el rediseño del objetivo de entrenamiento —no solo la innovación arquitectónica— puede resolver los desafíos de coherencia global multimodal, ARRA ofrece un paradigma complementario para avanzar en los modelos autoregresivos. El código y los modelos se liberarán para impulsar la generación de imágenes autoregresivas.

19

YOLOE: Visión en tiempo real de cualquier cosa
YOLOE: Real-Time Seeing Anything

Mar 10
ByAo Wang, Lihao Liu, Hui Chen, Zijia Lin, Jungong Han, Guiguang Ding
15
1

La detección y segmentación de objetos son ampliamente utilizadas en aplicaciones de visión por computadora, sin embargo, modelos convencionales como la serie YOLO, aunque eficientes y precisos, están limitados por categorías predefinidas, lo que dificulta su adaptabilidad en escenarios abiertos. Métodos recientes de conjunto abierto aprovechan indicaciones de texto, señales visuales o paradigmas sin indicaciones para superar esto, pero a menudo sacrifican el rendimiento y la eficiencia debido a las altas demandas computacionales o la complejidad de implementación. En este trabajo, presentamos YOLOE, que integra detección y segmentación a través de diversos mecanismos de indicación abierta dentro de un único modelo altamente eficiente, logrando ver cualquier cosa en tiempo real. Para indicaciones de texto, proponemos la estrategia de Alineación de Región-Texto Re-parametrizable (RepRTA). Esta refina incrustaciones textuales preentrenadas mediante una red auxiliar ligera re-parametrizable y mejora la alineación visual-textual con cero sobrecarga de inferencia y transferencia. Para indicaciones visuales, presentamos el Codificador de Indicación Visual Activado Semánticamente (SAVPE). Emplea ramas semánticas y de activación desacopladas para proporcionar una incrustación visual mejorada y precisión con mínima complejidad. Para escenarios sin indicaciones, introducimos la estrategia de Contraste de Región-Indicación Perezosa (LRPC). Utiliza un vocabulario grande incorporado y una incrustación especializada para identificar todos los objetos, evitando la costosa dependencia de modelos de lenguaje. Experimentos extensos muestran el excepcional rendimiento de cero disparos y transferibilidad de YOLOE con alta eficiencia de inferencia y bajo costo de entrenamiento. Notablemente, en LVIS, con 3 veces menos costo de entrenamiento y 1.4 veces más velocidad de inferencia, YOLOE-v8-S supera a YOLO-Worldv2-S por 3.5 AP. Al transferir a COCO, YOLOE-v8-L logra ganancias de 0.6 AP^b y 0.4 AP^m sobre YOLOv8-L de conjunto cerrado con casi 4 veces menos tiempo de entrenamiento. El código y los modelos están disponibles en https://github.com/THU-MIG/yoloe.

20

LLaVE: Modelos de Incrustación de Lenguaje y Visión a Gran Escala con Aprendizaje Contrastivo Ponderado por Dificultad
LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning

Mar 4
ByZhibin Lan, Liqiang Niu, Fandong Meng, Jie Zhou, Jinsong Su
15
3

Los modelos universales de incrustación multimodal desempeñan un papel crucial en tareas como la recuperación intercalada de imágenes y texto, RAG multimodal y agrupación multimodal. Sin embargo, nuestros resultados empíricos indican que los modelos de incrustación basados en LMM existentes, entrenados con la función de pérdida InfoNCE estándar, muestran un alto grado de superposición en la distribución de similitud entre pares positivos y negativos, lo que dificulta distinguir efectivamente los pares negativos difíciles. Para abordar este problema, proponemos un marco simple pero efectivo que mejora dinámicamente el aprendizaje de representaciones del modelo de incrustación para pares negativos según su dificultad discriminativa. Dentro de este marco, entrenamos una serie de modelos, denominados LLaVE, y los evaluamos en el benchmark MMEB, que abarca 4 meta-tareas y 36 conjuntos de datos. Los resultados experimentales muestran que LLaVE establece líneas base más sólidas que alcanzan un rendimiento de vanguardia (SOTA), al mismo tiempo que demuestra una fuerte escalabilidad y eficiencia. Específicamente, LLaVE-2B supera a los modelos SOTA anteriores de 7B, mientras que LLaVE-7B logra una mejora adicional de 6.2 puntos. Aunque LLaVE se entrena con datos de imágenes y texto, puede generalizar a tareas de recuperación de texto-video de manera zero-shot y lograr un rendimiento sólido, demostrando su notable potencial para transferirse a otras tareas de incrustación.

21

DreamRelation: Personalización de Videos Centrada en Relaciones
DreamRelation: Relation-Centric Video Customization

Mar 10
ByYujie Wei, Shiwei Zhang, Hangjie Yuan, Biao Gong, Longxiang Tang, Xiang Wang, Haonan Qiu, Hengjia Li, Shuai Tan, Yingya Zhang, Hongming Shan
14
1

La personalización relacional de videos se refiere a la creación de videos personalizados que representan relaciones especificadas por el usuario entre dos sujetos, una tarea crucial para comprender contenido visual del mundo real. Si bien los métodos existentes pueden personalizar las apariencias y movimientos de los sujetos, aún tienen dificultades con la personalización relacional de videos complejos, donde el modelado preciso de relaciones y una alta generalización entre categorías de sujetos son esenciales. El principal desafío surge de los intrincados arreglos espaciales, variaciones de diseño y dinámicas temporales sutiles inherentes a las relaciones; en consecuencia, los modelos actuales tienden a enfatizar en exceso detalles visuales irrelevantes en lugar de capturar interacciones significativas. Para abordar estos desafíos, proponemos DreamRelation, un enfoque novedoso que personaliza las relaciones a través de un pequeño conjunto de videos ejemplares, aprovechando dos componentes clave: Aprendizaje de Desacoplamiento Relacional y Mejora de Dinámicas Relacionales. Primero, en el Aprendizaje de Desacoplamiento Relacional, separamos las relaciones de las apariencias de los sujetos utilizando un triplete de LoRA relacional y una estrategia de entrenamiento con máscara híbrida, asegurando una mejor generalización en diversas relaciones. Además, determinamos el diseño óptimo del triplete de LoRA relacional analizando los roles distintos de las características de consulta, clave y valor dentro del mecanismo de atención de MM-DiT, convirtiendo a DreamRelation en el primer marco de generación de videos relacionales con componentes explicables. Segundo, en la Mejora de Dinámicas Relacionales, introducimos una pérdida contrastiva relacional espacio-temporal, que prioriza las dinámicas relacionales mientras minimiza la dependencia de las apariencias detalladas de los sujetos. Experimentos extensivos demuestran que DreamRelation supera a los métodos más avanzados en personalización relacional de videos. El código y los modelos estarán disponibles públicamente.

22

Seg-Zero: Segmentación Guiada por Cadenas de Razonamiento mediante Refuerzo Cognitivo
Seg-Zero: Reasoning-Chain Guided Segmentation via Cognitive Reinforcement

Mar 9
ByYuqi Liu, Bohao Peng, Zhisheng Zhong, Zihao Yue, Fanbin Lu, Bei Yu, Jiaya Jia
11
2

Los métodos tradicionales para la segmentación basada en razonamiento dependen de un ajuste fino supervisado con etiquetas categóricas y descripciones simples, lo que limita su generalización fuera del dominio y carece de procesos de razonamiento explícitos. Para abordar estas limitaciones, proponemos Seg-Zero, un marco novedoso que demuestra una generalización notable y deriva cadenas de razonamiento explícitas a través de refuerzo cognitivo. Seg-Zero introduce una arquitectura desacoplada que consta de un modelo de razonamiento y un modelo de segmentación. El modelo de razonamiento interpreta las intenciones del usuario, genera cadenas de razonamiento explícitas y produce indicaciones posicionales, que luego son utilizadas por el modelo de segmentación para generar máscaras a nivel de píxel precisas. Diseñamos un mecanismo de recompensa sofisticado que integra tanto recompensas de formato como de precisión para guiar efectivamente las direcciones de optimización. Entrenado exclusivamente mediante aprendizaje por refuerzo con GRPO y sin datos de razonamiento explícitos, Seg-Zero logra una generalización robusta en zero-shot y exhibe capacidades emergentes de razonamiento en tiempo de prueba. Los experimentos muestran que Seg-Zero-7B alcanza un rendimiento en zero-shot de 57.5 en el benchmark ReasonSeg, superando al anterior LISA-7B en un 18\%. Esta mejora significativa resalta la capacidad de Seg-Zero para generalizar entre dominios mientras presenta un proceso de razonamiento explícito. El código está disponible en https://github.com/dvlab-research/Seg-Zero.

23

Modelos Efectivos y Eficientes para la Generación de Imágenes Enmascaradas
Effective and Efficient Masked Image Generation Models

Mar 10
ByZebin You, Jingyang Ou, Xiaolu Zhang, Jun Hu, Jun Zhou, Chongxuan Li
11
2

Aunque los modelos de generación de imágenes enmascaradas y los modelos de difusión enmascarada están diseñados con motivaciones y objetivos diferentes, observamos que pueden unificarse dentro de un mismo marco conceptual. Basándonos en esta idea, exploramos detenidamente el espacio de diseño del entrenamiento y muestreo, identificando factores clave que contribuyen tanto al rendimiento como a la eficiencia. A partir de las mejoras observadas durante esta exploración, desarrollamos nuestro modelo, denominado eMIGM. Empíricamente, eMIGM demuestra un rendimiento sólido en la generación de imágenes de ImageNet, medido mediante la Distancia de Fréchet Inception (FID). En particular, en ImageNet 256x256, con un número similar de evaluaciones de función (NFE) y parámetros del modelo, eMIGM supera al seminal VAR. Además, a medida que aumentan los NFE y los parámetros del modelo, eMIGM alcanza un rendimiento comparable a los modelos de difusión continua de última generación, requiriendo menos del 40% de los NFE. Adicionalmente, en ImageNet 512x512, con solo alrededor del 60% de los NFE, eMIGM supera a los modelos de difusión continua más avanzados.

24

PE3R: Reconstrucción 3D Eficiente en Percepción
PE3R: Perception-Efficient 3D Reconstruction

Mar 10
ByJie Hu, Shizun Wang, Xinchao Wang
10
1

Los recientes avances en la percepción de 2D a 3D han mejorado significativamente la comprensión de escenas 3D a partir de imágenes 2D. Sin embargo, los métodos existentes enfrentan desafíos críticos, incluyendo una generalización limitada entre escenas, una precisión de percepción subóptima y velocidades de reconstrucción lentas. Para abordar estas limitaciones, proponemos Perception-Efficient 3D Reconstruction (PE3R), un marco novedoso diseñado para mejorar tanto la precisión como la eficiencia. PE3R emplea una arquitectura de avance directo para permitir una reconstrucción rápida del campo semántico 3D. El marco demuestra una robusta generalización zero-shot en diversas escenas y objetos, al mismo tiempo que mejora significativamente la velocidad de reconstrucción. Experimentos exhaustivos en segmentación de vocabulario abierto de 2D a 3D y reconstrucción 3D validan la efectividad y versatilidad de PE3R. El marco logra una aceleración mínima de 9 veces en la reconstrucción del campo semántico 3D, junto con mejoras sustanciales en la precisión de percepción y reconstrucción, estableciendo nuevos referentes en el campo. El código está disponible públicamente en: https://github.com/hujiecpp/PE3R.

25

¿Palabras o visión: ¿Los modelos de visión y lenguaje tienen una fe ciega en el texto?
Words or Vision: Do Vision-Language Models Have Blind Faith in Text?

Mar 4
ByAilin Deng, Tri Cao, Zhirui Chen, Bryan Hooi
8
2

Los Modelos de Visión-Lenguaje (VLMs) sobresalen en la integración de información visual y textual para tareas centradas en la visión, pero su manejo de inconsistencias entre modalidades ha sido poco explorado. Investigamos las preferencias de modalidad de los VLMs cuando se enfrentan a datos visuales y entradas textuales variadas en contextos centrados en la visión. Al introducir variaciones textuales en cuatro tareas centradas en la visión y evaluar diez Modelos de Visión-Lenguaje (VLMs), descubrimos un fenómeno de "fe ciega en el texto": los VLMs confían desproporcionadamente en los datos textuales sobre los visuales cuando surgen inconsistencias, lo que lleva a caídas significativas en el rendimiento bajo texto corrupto y plantea preocupaciones de seguridad. Analizamos factores que influyen en este sesgo hacia el texto, incluyendo instrucciones de prompt, tamaño del modelo de lenguaje, relevancia del texto, orden de tokens y la interacción entre la certeza visual y textual. Mientras que ciertos factores, como escalar el tamaño del modelo de lenguaje, mitigan ligeramente el sesgo hacia el texto, otros como el orden de tokens pueden exacerbarlo debido a sesgos posicionales heredados de los modelos de lenguaje. Para abordar este problema, exploramos el ajuste fino supervisado con aumento de texto y demostramos su efectividad para reducir el sesgo hacia el texto. Además, proporcionamos un análisis teórico que sugiere que el fenómeno de fe ciega en el texto puede originarse en un desequilibrio entre datos puramente textuales y multimodales durante el entrenamiento. Nuestros hallazgos resaltan la necesidad de un entrenamiento equilibrado y una consideración cuidadosa de las interacciones entre modalidades en los VLMs para mejorar su robustez y confiabilidad al manejar inconsistencias en datos multimodales.

26

Este es tu Doge, si te place: Explorando el engaño y la robustez en mezclas de modelos de lenguaje grandes
This Is Your Doge, If It Please You: Exploring Deception and Robustness in Mixture of LLMs

Mar 7
ByLorenz Wolf, Sangwoong Yoon, Ilija Bogunovic
7
2

Las arquitecturas de Mezcla de Agentes de Modelos de Lenguaje Grande (MoA, por sus siglas en inglés) logran un rendimiento de vanguardia en benchmarks destacados como AlpacaEval 2.0 al aprovechar la colaboración de múltiples modelos de lenguaje grande (LLMs) durante la inferencia. A pesar de estos éxitos, falta una evaluación de la seguridad y confiabilidad de MoA. Presentamos el primer estudio exhaustivo de la robustez de MoA frente a agentes LLM engañosos que proporcionan respuestas deliberadamente erróneas. Examinamos factores como la propagación de información engañosa, el tamaño del modelo y la disponibilidad de información, y descubrimos vulnerabilidades críticas. En AlpacaEval 2.0, el popular modelo LLaMA 3.1-70B alcanza una Tasa de Victoria Controlada por Longitud (LC WR) del 49.2% cuando se combina con MoA de 3 capas (6 agentes LLM). Sin embargo, demostramos que la introducción de un solo agente engañoso cuidadosamente instruido en MoA puede reducir el rendimiento al 37.9%, anulando efectivamente todas las ganancias de MoA. En QuALITY, una tarea de comprensión de opción múltiple, el impacto también es severo, con una precisión que cae en un asombroso 48.5%. Inspirados en parte por el histórico proceso de votación del Dogo de Venecia, diseñado para minimizar la influencia y el engaño, proponemos una serie de mecanismos de defensa no supervisados que recuperan la mayor parte del rendimiento perdido.

27

Zero-AVSR: Reconocimiento de Habla Audio-Visual de Cero Disparos con LLMs mediante el Aprendizaje de Representaciones de Habla Agnósticas al Idioma
Zero-AVSR: Zero-Shot Audio-Visual Speech Recognition with LLMs by Learning Language-Agnostic Speech Representations

Mar 8
ByJeong Hun Yeo, Minsu Kim, Chae Won Kim, Stavros Petridis, Yong Man Ro
6
2

Exploramos un novedoso marco de Reconocimiento de Habla Audio-Visual (AVSR) de cero disparos, denominado Zero-AVSR, que permite el reconocimiento de habla en idiomas objetivo sin requerir datos de habla audio-visual en esos idiomas. Específicamente, introducimos el Romanizador de Habla Audio-Visual (AV-Romanizer), que aprende representaciones de habla agnósticas al idioma al predecir texto en alfabeto romano. Luego, aprovechando las fuertes capacidades de modelado multilingüe de los Modelos de Lenguaje de Gran Escala (LLMs), proponemos convertir el texto romano predicho en grafemas específicos del idioma, formando el propuesto Zero-AVSR en Cascada. Yendo un paso más allá, exploramos un enfoque unificado de Zero-AVSR al integrar directamente las representaciones de habla audio-visual codificadas por el AV-Romanizer en el LLM. Esto se logra mediante el ajuste fino del adaptador y el LLM utilizando nuestro esquema propuesto de aprendizaje multitarea. Para capturar el amplio espectro de diversidad fonética y lingüística, también introducimos un Corpus Romanizado Audio-Visual Multilingüe (MARC) que consta de 2,916 horas de datos de habla audio-visual en 82 idiomas, junto con transcripciones en grafemas específicos del idioma y texto romano. Análisis y experimentos exhaustivos confirman que el marco Zero-AVSR propuesto tiene el potencial de ampliar el soporte de idiomas más allá de los idiomas vistos durante el entrenamiento del AV-Romanizer.

28

DiffCLIP: Atención Diferencial Encuentra a CLIP
DiffCLIP: Differential Attention Meets CLIP

Mar 9
ByHasan Abed Al Kader Hammoud, Bernard Ghanem
5
2

Proponemos DiffCLIP, un novedoso modelo de visión y lenguaje que extiende el mecanismo de atención diferencial a las arquitecturas CLIP. La atención diferencial fue desarrollada originalmente para modelos de lenguaje de gran escala con el fin de amplificar el contexto relevante mientras se cancela la información ruidosa. En este trabajo, integramos este mecanismo en el marco de doble codificador (imagen y texto) de CLIP. Con un mínimo de parámetros adicionales, DiffCLIP logra un rendimiento superior en tareas de comprensión de imagen-texto. En benchmarks de clasificación zero-shot, recuperación y robustez, DiffCLIP supera consistentemente a los modelos CLIP de referencia. Es notable que estas mejoras se obtienen con un sobrecosto computacional insignificante, demostrando que la atención diferencial puede mejorar significativamente las representaciones multimodales sin sacrificar la eficiencia. El código se encuentra disponible en https://github.com/hammoudhasan/DiffCLIP.

29

Afinamiento por Desplazamiento de Estado: Afinamiento Eficiente en Parámetros Basado en Estados para Modelos de Espacio de Estados
State-offset Tuning: State-based Parameter-Efficient Fine-Tuning for State Space Models

Mar 5
ByWonjun Kang, Kevin Galim, Yuchen Zeng, Minjae Lee, Hyung Il Koo, Nam Ik Cho
5
2

Los Modelos de Espacio de Estados (SSMs, por sus siglas en inglés) han surgido como alternativas eficientes a los Transformers, mitigando su costo computacional cuadrático. Sin embargo, la aplicación de métodos de Ajuste Fino Eficiente en Parámetros (PEFT, por sus siglas en inglés) a los SSMs sigue siendo en gran medida inexplorada. En particular, los métodos basados en prompts, como Prompt Tuning y Prefix-Tuning, ampliamente utilizados en Transformers, no funcionan bien en SSMs. Para abordar esto, proponemos métodos basados en estados como una alternativa superior a los métodos basados en prompts. Esta nueva familia de métodos surge naturalmente de las características arquitectónicas de los SSMs. Los métodos basados en estados ajustan directamente las características relacionadas con el estado en lugar de depender de prompts externos. Además, introducimos un nuevo método PEFT basado en estados: State-offset Tuning. En cada paso de tiempo, nuestro método afecta directamente el estado en el paso actual, lo que conduce a una adaptación más efectiva. A través de extensos experimentos en diversos conjuntos de datos, demostramos la efectividad de nuestro método. El código está disponible en https://github.com/furiosa-ai/ssm-state-tuning.

30

BlackGoose Rimer: Aprovechando RWKV-7 como un reemplazo simple pero superior a los Transformers en el modelado de series temporales a gran escala
BlackGoose Rimer: Harnessing RWKV-7 as a Simple yet Superior Replacement for Transformers in Large-Scale Time Series Modeling

Mar 8
ByLi weile, Liu Xiao
5
2

Los modelos de series temporales enfrentan desafíos significativos para escalar y manejar conjuntos de datos grandes y complejos, similares a los logrados por los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés). Las características únicas de los datos de series temporales y las demandas computacionales del escalamiento de modelos requieren enfoques innovadores. Si bien los investigadores han explorado diversas arquitecturas, como Transformers, LSTMs y GRUs, para abordar estos desafíos, proponemos una solución novedosa utilizando RWKV-7, que incorpora metaaprendizaje en su mecanismo de actualización de estados. Al integrar los componentes de mezcla temporal (time mix) y mezcla de canales (channel mix) de RWKV-7 en el modelo de series temporales basado en transformers, Timer, logramos una mejora sustancial en el rendimiento de aproximadamente 1.13 a 43.3 veces y una reducción de 4.5 veces en el tiempo de entrenamiento con 1/23 de los parámetros, todo ello utilizando menos parámetros. Nuestro código y los pesos del modelo están disponibles públicamente para su investigación y desarrollo en https://github.com/Alic-Li/BlackGoose_Rimer.

31

Técnicas de Evasión de Detección para Modelos de Lenguaje a Gran Escala
Detection Avoidance Techniques for Large Language Models

Mar 10
BySinclair Schneider, Florian Steuber, Joao A. G. Schneider, Gabi Dreo Rodosek
4
1

La creciente popularidad de los modelos de lenguaje de gran escala no solo ha llevado a su uso generalizado, sino que también ha traído consigo diversos riesgos, incluida la posibilidad de difundir noticias falsas de manera sistemática. En consecuencia, el desarrollo de sistemas de clasificación como DetectGPT se ha vuelto fundamental. Estos detectores son vulnerables a técnicas de evasión, como se demostró en una serie de experimentos: los cambios sistemáticos en la temperatura de los modelos generativos demostraron que los detectores basados en aprendizaje superficial son los menos confiables. El ajuste fino del modelo generativo mediante aprendizaje por refuerzo eludió a los detectores basados en BERT. Finalmente, la reformulación de textos permitió una evasión superior al 90\% de detectores de tipo zero-shot como DetectGPT, aunque los textos mantuvieron una alta similitud con los originales. Una comparación con trabajos existentes destaca el mejor rendimiento de los métodos presentados. Se discuten las posibles implicaciones para la sociedad y futuras investigaciones.

32

ProBench: Evaluación de Modelos Fundacionales Multimodales en Tareas Expertas Multidominio de Respuesta Abierta
ProBench: Judging Multimodal Foundation Models on Open-ended Multi-domain Expert Tasks

Mar 10
ByYan Yang, Dongxu Li, Haoning Wu, Bei Chen, Liu Liu, Liyuan Pan, Junnan Li
4
3

Resolver tareas multimodales de nivel experto es un hito clave hacia la inteligencia general. A medida que las capacidades de los modelos de lenguaje multimodal de gran escala (MLLMs) continúan mejorando, la evaluación de dicha inteligencia multimodal avanzada se vuelve necesaria, aunque desafiante. En este trabajo, presentamos ProBench, un benchmark de consultas abiertas de usuarios que requieren experiencia profesional y razonamiento avanzado. ProBench consta de 4,000 muestras de alta calidad, enviadas de manera independiente por profesionales basándose en sus demandas diarias de productividad. Abarca 10 campos y 56 subcampos, incluyendo ciencia, artes, humanidades, programación, matemáticas y escritura creativa. Experimentalmente, evaluamos y comparamos 24 de los modelos más recientes utilizando MLLM-as-a-Judge. Nuestros resultados revelan que, aunque los mejores modelos de código abierto rivalizan con los propietarios, ProBench presenta desafíos significativos en percepción visual, comprensión textual, conocimiento de dominio y razonamiento avanzado, ofreciendo así direcciones valiosas para futuros esfuerzos de investigación en IA multimodal.

33

Distilación Eficiente de Guía Libre de Clasificadores mediante Adaptadores
Efficient Distillation of Classifier-Free Guidance using Adapters

Mar 10
ByCristian Perez Jensen, Seyedmorteza Sadat
4
1

Si bien la guía sin clasificador (CFG, por sus siglas en inglés) es esencial para los modelos de difusión condicional, duplica el número de evaluaciones de funciones neuronales (NFEs, por sus siglas en inglés) por paso de inferencia. Para mitigar esta ineficiencia, introducimos la destilación de guía mediante adaptadores (AGD, por sus siglas en inglés), un enfoque novedoso que simula CFG en un único paso hacia adelante. AGD aprovecha adaptadores ligeros para aproximar CFG, duplicando efectivamente la velocidad de muestreo mientras mantiene o incluso mejora la calidad de las muestras. A diferencia de los métodos previos de destilación de guía que ajustan el modelo completo, AGD mantiene congelado el modelo base y solo entrena parámetros adicionales mínimos (∼2%), reduciendo significativamente los requisitos de recursos durante la fase de destilación. Además, este enfoque preserva los pesos originales del modelo y permite que los adaptadores se combinen sin problemas con otros puntos de control derivados del mismo modelo base. También abordamos un desajuste clave entre el entrenamiento y la inferencia en los métodos existentes de destilación de guía, entrenando en trayectorias guiadas por CFG en lugar de trayectorias estándar de difusión. A través de experimentos extensos, demostramos que AGD logra un FID comparable o superior a CFG en múltiples arquitecturas con solo la mitad de las NFEs. Notablemente, nuestro método permite la destilación de modelos grandes (∼2.6 mil millones de parámetros) en una sola GPU de consumo con 24 GB de VRAM, haciéndolo más accesible que enfoques anteriores que requieren múltiples GPUs de alta gama. Publicaremos la implementación de nuestro método.

34

El Siguiente Token es Suficiente: Evaluación Realista de la Calidad de Imagen y Estética con Modelos de Lenguaje Multimodales de Gran Escala
Next Token Is Enough: Realistic Image Quality and Aesthetic Scoring with Multimodal Large Language Model

Mar 8
ByMingxing Li, Rui Wang, Lei Sun, Yancheng Bai, Xiangxiang Chu
4
2

La rápida expansión de internet móvil ha resultado en un aumento sustancial de imágenes generadas por usuarios (UGC, por sus siglas en inglés), lo que hace que la evaluación exhaustiva de estas imágenes sea urgente y esencial. Recientemente, los modelos de lenguaje multimodal de gran escala (MLLMs) han demostrado un gran potencial en la evaluación de la calidad de imágenes (IQA) y la evaluación estética de imágenes (IAA). A pesar de este progreso, la puntuación efectiva de la calidad y estética de las imágenes UGC aún enfrenta dos desafíos principales: 1) Una sola puntuación es insuficiente para capturar la percepción humana jerárquica. 2) Cómo utilizar MLLMs para generar puntuaciones numéricas, como las puntuaciones medias de opinión (MOS), sigue siendo una pregunta abierta. Para abordar estos desafíos, presentamos un nuevo conjunto de datos, denominado Realistic image Quality and Aesthetic (RealQA), que incluye 14,715 imágenes UGC, cada una anotada con 10 atributos detallados. Estos atributos abarcan tres niveles: bajo (por ejemplo, claridad de la imagen), medio (por ejemplo, integridad del sujeto) y alto (por ejemplo, composición). Además, realizamos una serie de investigaciones profundas y exhaustivas sobre cómo predecir efectivamente puntuaciones numéricas utilizando MLLMs. Sorprendentemente, al predecir solo dos dígitos significativos adicionales, el paradigma del siguiente token puede alcanzar un rendimiento de vanguardia (SOTA). Además, con la ayuda de la cadena de pensamiento (CoT) combinada con los atributos detallados aprendidos, el método propuesto puede superar a los métodos SOTA en cinco conjuntos de datos públicos para IQA e IAA con una interpretabilidad superior y mostrar una fuerte generalización en modo cero para la evaluación de la calidad de video (VQA). El código y el conjunto de datos serán publicados.

35

WISE: Una Evaluación Semántica Informada por Conocimiento Mundial para la Generación de Texto a Imagen
WISE: A World Knowledge-Informed Semantic Evaluation for Text-to-Image Generation

Mar 10
ByYuwei Niu, Munan Ning, Mengren Zheng, Bin Lin, Peng Jin, Jiaqi Liao, Kunpeng Ning, Bin Zhu, Li Yuan
4
1

Los modelos de Texto a Imagen (T2I) son capaces de generar creaciones artísticas y contenido visual de alta calidad. Sin embargo, las investigaciones y estándares de evaluación existentes se centran predominantemente en el realismo de las imágenes y en una alineación superficial entre texto e imagen, careciendo de una evaluación integral de la comprensión semántica compleja y la integración de conocimiento del mundo en la generación de imágenes a partir de texto. Para abordar este desafío, proponemos WISE, el primer punto de referencia diseñado específicamente para la Evaluación Semántica Informada por Conocimiento del Mundo. WISE va más allá del mapeo simple de palabras a píxeles al desafiar a los modelos con 1000 indicaciones meticulosamente elaboradas en 25 subdominios que abarcan el sentido común cultural, el razonamiento espacio-temporal y las ciencias naturales. Para superar las limitaciones de la métrica CLIP tradicional, introducimos WiScore, una nueva métrica cuantitativa para evaluar la alineación entre conocimiento e imagen. A través de pruebas exhaustivas de 20 modelos (10 modelos T2I dedicados y 10 modelos multimodales unificados) utilizando 1,000 indicaciones estructuradas que abarcan 25 subdominios, nuestros hallazgos revelan limitaciones significativas en su capacidad para integrar y aplicar efectivamente el conocimiento del mundo durante la generación de imágenes, destacando vías críticas para mejorar la incorporación y aplicación de conocimiento en los modelos T2I de próxima generación. El código y los datos están disponibles en https://github.com/PKU-YuanGroup/WISE.

36

Escapando de la Caverna de Platón: Hacia la Alineación de los Espacios Latentes 3D y de Texto
Escaping Plato's Cave: Towards the Alignment of 3D and Text Latent Spaces

Mar 7
BySouhail Hadgi, Luca Moschella, Andrea Santilli, Diego Gomez, Qixing Huang, Emanuele Rodolà, Simone Melzi, Maks Ovsjanikov
4
2

Trabajos recientes han demostrado que, cuando se entrenan a gran escala, los codificadores uni-modales de visión 2D y texto convergen en características aprendidas que comparten propiedades estructurales notables, a pesar de surgir de representaciones diferentes. Sin embargo, el papel de los codificadores 3D en relación con otras modalidades sigue sin explorarse. Además, los modelos fundacionales 3D existentes que aprovechan grandes conjuntos de datos suelen entrenarse con objetivos de alineación explícitos respecto a codificadores congelados de otras representaciones. En este trabajo, investigamos la posibilidad de una alineación a posteriori de representaciones obtenidas de codificadores uni-modales 3D en comparación con espacios de características basados en texto. Mostramos que una alineación ingenua de características post-entrenamiento de codificadores uni-modales de texto y 3D resulta en un rendimiento limitado. Luego, nos enfocamos en extraer subespacios de los espacios de características correspondientes y descubrimos que, al proyectar las representaciones aprendidas en subespacios de menor dimensión bien elegidos, la calidad de la alineación aumenta significativamente, lo que conduce a una mayor precisión en tareas de emparejamiento y recuperación. Nuestro análisis arroja más luz sobre la naturaleza de estos subespacios compartidos, que separan aproximadamente entre representaciones de datos semánticos y geométricos. En general, este es el primer trabajo que ayuda a establecer una línea base para la alineación post-entrenamiento de espacios de características uni-modales 3D y de texto, y ayuda a resaltar tanto las propiedades compartidas como las únicas de los datos 3D en comparación con otras representaciones.

37

¿Qué hay en un latente? Aprovechando el espacio latente de difusión para la generalización de dominios
What's in a Latent? Leveraging Diffusion Latent Space for Domain Generalization

Mar 9
ByXavier Thomas, Deepti Ghadiyaram
4
2

La Generalización de Dominios tiene como objetivo desarrollar modelos que puedan generalizar a distribuciones de datos nuevas y no vistas. En este trabajo, estudiamos cómo las arquitecturas de modelos y los objetivos de preentrenamiento impactan en la riqueza de características y proponemos un método para aprovecharlos eficazmente para la generalización de dominios. Específicamente, dado un espacio de características preentrenado, primero descubrimos estructuras latentes de dominio, denominadas pseudo-dominios, que capturan variaciones específicas del dominio de manera no supervisada. A continuación, aumentamos los clasificadores existentes con estas representaciones complementarias de pseudo-dominios, haciéndolos más adecuados para diversos dominios de prueba no vistos. Analizamos cómo difieren los diferentes espacios de características de preentrenamiento en las variaciones específicas del dominio que capturan. Nuestros estudios empíricos revelan que las características de los modelos de difusión sobresalen en la separación de dominios en ausencia de etiquetas de dominio explícitas y capturan información específica del dominio de manera matizada. En 5 conjuntos de datos, demostramos que nuestro marco muy simple mejora la generalización a dominios no vistos con una mejora máxima en la precisión de prueba de más del 4% en comparación con la línea base estándar de Minimización del Riesgo Empírico (ERM). Crucialmente, nuestro método supera a la mayoría de los algoritmos que acceden a etiquetas de dominio durante el entrenamiento.

38

Reconocimiento de Habla Audio-Visual Adaptativo mediante Modelos de Lenguaje Multimodales Basados en Matryoshka
Adaptive Audio-Visual Speech Recognition via Matryoshka-Based Multimodal LLMs

Mar 9
ByUmberto Cappellazzo, Minsu Kim, Stavros Petridis
3
2

El Reconocimiento de Habla Audio-Visual (AVSR, por sus siglas en inglés) aprovecha tanto las modalidades de audio como visuales para mejorar la robustez del reconocimiento de habla, especialmente en entornos ruidosos. Los avances recientes en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado su eficacia en el reconocimiento de habla, incluyendo el AVSR. Sin embargo, debido a la longitud significativa de las representaciones de habla, la integración directa con los LLMs impone costos computacionales sustanciales. Enfoques previos abordan esto comprimiendo las representaciones de habla antes de alimentarlas a los LLMs. No obstante, tasas de compresión más altas a menudo conducen a una degradación del rendimiento, lo que requiere un equilibrio entre la eficiencia computacional y la precisión del reconocimiento. Para abordar este desafío, proponemos Llama-MTSK, el primer LLM multimodal basado en Matryoshka para AVSR, que permite una adaptación flexible de la asignación de tokens audio-visuales según restricciones computacionales específicas, manteniendo un alto rendimiento. Nuestro enfoque, inspirado en el Aprendizaje de Representaciones Matryoshka, codifica representaciones audio-visuales en múltiples niveles de granularidad dentro de un solo modelo, eliminando la necesidad de entrenar modelos separados para diferentes niveles de compresión. Además, para ajustar eficientemente el LLM, introducimos tres estrategias Matryoshka basadas en LoRA utilizando módulos LoRA globales y específicos de escala. Evaluaciones exhaustivas en los dos conjuntos de datos AVSR más grandes demuestran que Llama-MTSK alcanza resultados de vanguardia, igualando o superando a los modelos entrenados de manera independiente en niveles de compresión fijos.

39

Promover, Suprimir, Iterar: Cómo los Modelos de Lenguaje Responden a Consultas Factuales de Uno a Muchos
Promote, Suppress, Iterate: How Language Models Answer One-to-Many Factual Queries

Feb 27
ByTianyi Lorena Yan, Robin Jia
3
4

Para responder consultas factuales de uno a muchos (por ejemplo, listar las ciudades de un país), un modelo de lenguaje (LM, por sus siglas en inglés) debe recordar conocimiento simultáneamente y evitar repetir respuestas anteriores. ¿Cómo se implementan e integran internamente estas dos subtareas? A través de múltiples conjuntos de datos y modelos, identificamos un mecanismo de promover-y-luego-suprimir: el modelo primero recuerda todas las respuestas y luego suprime las generadas previamente. Específicamente, los LMs utilizan tanto el sujeto como los tokens de respuestas anteriores para realizar el recuerdo de conocimiento, con la atención propagando la información del sujeto y las MLPs (capas de perceptrones multicapa) promoviendo las respuestas. Luego, la atención se enfoca en y suprime los tokens de respuestas anteriores, mientras que las MLPs amplifican la señal de supresión. Nuestro mecanismo está respaldado por evidencia experimental extensa: además de utilizar decodificación temprana y trazado causal, analizamos cómo los componentes utilizan diferentes tokens mediante la introducción de Token Lens, que decodifica actualizaciones de atención agregadas desde tokens específicos, y un método de knockout que analiza cambios en las salidas de las MLPs después de eliminar la atención a tokens específicos. En general, proporcionamos nuevas perspectivas sobre cómo los componentes internos de los LMs interactúan con diferentes tokens de entrada para respaldar el recuerdo factual complejo. El código está disponible en https://github.com/Lorenayannnnn/how-lms-answer-one-to-many-factual-queries.

40

Estimación de la Pose 6D de Objetos Novedosos con una Única Vista de Referencia
Novel Object 6D Pose Estimation with a Single Reference View

Mar 7
ByJian Liu, Wei Sun, Kai Zeng, Jin Zheng, Hui Yang, Lin Wang, Hossein Rahmani, Ajmal Mian
3
2

Los métodos existentes para la estimación de la pose 6D de objetos novedosos suelen depender de modelos CAD o de vistas de referencia densas, ambos difíciles de adquirir. Utilizar solo una única vista de referencia es más escalable, pero presenta desafíos debido a grandes discrepancias en la pose y a la limitada información geométrica y espacial. Para abordar estos problemas, proponemos un método de estimación de la pose 6D de objetos novedosos basado en una única referencia (SinRef-6D). Nuestra idea clave es establecer de manera iterativa una alineación punto a punto en el sistema de coordenadas de la cámara basada en modelos de espacio de estados (SSMs, por sus siglas en inglés). Específicamente, la alineación iterativa punto a punto en el espacio de la cámara puede manejar eficazmente grandes discrepancias en la pose, mientras que nuestros SSMs propuestos para RGB y puntos pueden capturar dependencias de largo alcance e información espacial a partir de una única vista, ofreciendo complejidad lineal y una capacidad superior de modelado espacial. Una vez preentrenado en datos sintéticos, SinRef-6D puede estimar la pose 6D de un objeto novedoso utilizando solo una única vista de referencia, sin necesidad de reentrenamiento o un modelo CAD. Experimentos exhaustivos en seis conjuntos de datos populares y escenas robóticas del mundo real demuestran que logramos un rendimiento comparable con los métodos basados en CAD y en vistas de referencia densas, a pesar de operar en el entorno más desafiante de una única referencia. El código se publicará en https://github.com/CNJianLiu/SinRef-6D.

41

TRCE: Hacia la Eliminación Confiable de Conceptos Maliciosos en Modelos de Difusión de Texto a Imagen
TRCE: Towards Reliable Malicious Concept Erasure in Text-to-Image Diffusion Models

Mar 10
ByRuidong Chen, Honglin Guo, Lanjun Wang, Chenyu Zhang, Weizhi Nie, An-An Liu
3
1

Los recientes avances en los modelos de difusión de texto a imagen permiten la generación de imágenes fotorrealistas, pero también conllevan el riesgo de producir contenido malicioso, como imágenes NSFW. Para mitigar este riesgo, se estudian métodos de borrado de conceptos que facilitan que el modelo desaprenda conceptos específicos. Sin embargo, los estudios actuales tienen dificultades para borrar completamente los conceptos maliciosos que están implícitamente incrustados en las indicaciones (por ejemplo, expresiones metafóricas o indicaciones adversarias) mientras se preserva la capacidad de generación normal del modelo. Para abordar este desafío, nuestro estudio propone TRCE, utilizando una estrategia de borrado de conceptos en dos etapas para lograr un equilibrio efectivo entre el borrado confiable y la preservación del conocimiento. En primer lugar, TRCE comienza borrando la semántica maliciosa implícitamente incrustada en las indicaciones textuales. Al identificar un objetivo de mapeo crítico (es decir, la incrustación [EoT]), optimizamos las capas de atención cruzada para mapear indicaciones maliciosas a indicaciones contextualmente similares pero con conceptos seguros. Este paso evita que el modelo se vea excesivamente influenciado por la semántica maliciosa durante el proceso de eliminación de ruido. A continuación, considerando las propiedades determinísticas de la trayectoria de muestreo del modelo de difusión, TRCE dirige aún más la predicción temprana de eliminación de ruido hacia la dirección segura y lejos de la insegura mediante el aprendizaje contrastivo, evitando así aún más la generación de contenido malicioso. Finalmente, realizamos evaluaciones exhaustivas de TRCE en múltiples puntos de referencia de borrado de conceptos maliciosos, y los resultados demuestran su eficacia para borrar conceptos maliciosos mientras se preserva mejor la capacidad de generación original del modelo. El código está disponible en: http://github.com/ddgoodgood/TRCE. ADVERTENCIA: Este artículo incluye contenido generado por modelos que puede contener material ofensivo.

42

Un Enfoque Centrado en los Datos para Revisar Modelos de Visión Preentrenados en el Aprendizaje de Robots
A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning

Mar 10
ByXin Wen, Bingchen Zhao, Yilun Chen, Jiangmiao Pang, Xiaojuan Qi
3
2

Los modelos de visión preentrenados (PVMs, por sus siglas en inglés) son fundamentales para la robótica moderna, aunque su configuración óptima sigue sin estar clara. A través de una evaluación sistemática, descubrimos que, si bien DINO e iBOT superan a MAE en tareas de control visuomotor y percepción, presentan dificultades cuando se entrenan con datos no centrados en un solo objeto (NOC), una limitación fuertemente correlacionada con su capacidad reducida para aprender representaciones centradas en objetos. Esta investigación indica que la capacidad de formar representaciones centradas en objetos a partir de conjuntos de datos robóticos no centrados en objetos es clave para el éxito de los PVMs. Motivados por este hallazgo, diseñamos SlotMIM, un método que induce representaciones centradas en objetos mediante la introducción de un cuello de botella semántico para reducir el número de prototipos, fomentando así la aparición de la "objetualidad", así como una regularización de consistencia entre vistas para promover la invariancia multivista. Nuestros experimentos abarcan el preentrenamiento con datos centrados en objetos, centrados en escenas, obtenidos de la web y egocéntricos. En todos los escenarios, nuestro enfoque aprende representaciones transferibles y logra mejoras significativas respecto a trabajos anteriores en reconocimiento de imágenes, comprensión de escenas y evaluaciones de aprendizaje robótico. Cuando se escala con conjuntos de datos de millones de muestras, nuestro método también demuestra una eficiencia y escalabilidad superiores. Nuestro código y modelos están disponibles públicamente en https://github.com/CVMI-Lab/SlotMIM.

43

¿Deberían los Modelos de Lenguaje Visual (VLMs) ser Pre-entrenados con Datos de Imagen?
Should VLMs be Pre-trained with Image Data?

Mar 10
BySedrick Keh, Jean Mercat, Samir Yitzhak Gadre, Kushal Arora, Igor Vasiljevic, Benjamin Burchfiel, Shuran Song, Russ Tedrake, Thomas Kollar, Ludwig Schmidt, Achal Dave
3
1

Los LLM preentrenados que se entrenan adicionalmente con datos de imágenes obtienen buenos resultados en tareas de visión y lenguaje. Si bien la incorporación de imágenes durante una segunda fase de entrenamiento desbloquea eficazmente esta capacidad, no está claro cuánta ganancia o pérdida aporta este enfoque de dos pasos en comparación con los VLM que integran las imágenes antes en el proceso de entrenamiento. Para investigar esto, entrenamos modelos que abarcan diversos conjuntos de datos, escalas, proporciones de imagen-texto y cantidades de preentrenamiento realizadas antes de introducir tokens visuales. Luego, ajustamos estos modelos y evaluamos su rendimiento en tareas posteriores, tanto de visión y lenguaje como de solo texto. Descubrimos que el preentrenamiento con una mezcla de datos de imagen y texto permite que los modelos obtengan mejores resultados en tareas de visión y lenguaje, manteniendo al mismo tiempo un rendimiento sólido en evaluaciones de solo texto. En un promedio de 6 tareas diversas, encontramos que, para un modelo de 1B, introducir tokens visuales al 80% del preentrenamiento resulta en una mejora promedio del 2% en comparación con introducir tokens visuales en un modelo completamente preentrenado.

44

PhiloBERTA: Un análisis transformador multilingüe de léxicos griegos y latinos
PhiloBERTA: A Transformer-Based Cross-Lingual Analysis of Greek and Latin Lexicons

Mar 7
ByRumi A. Allbert, Makai L. Allbert
2
2

Presentamos PhiloBERTA, un modelo transformador multilingüe que mide las relaciones semánticas entre léxicos del griego antiguo y el latín. Mediante el análisis de pares de términos seleccionados de textos clásicos, utilizamos embeddings contextuales y métricas de similitud angular para identificar alineaciones semánticas precisas. Nuestros resultados muestran que los pares etimológicamente relacionados presentan puntajes de similitud significativamente más altos, particularmente para conceptos filosóficos abstractos como epist\=em\=e (scientia) y dikaiosyn\=e (iustitia). El análisis estadístico revela patrones consistentes en estas relaciones (p = 0.012), con pares etimológicamente relacionados mostrando una preservación semántica notablemente estable en comparación con pares de control. Estos hallazgos establecen un marco cuantitativo para examinar cómo los conceptos filosóficos se trasladaron entre las tradiciones griega y latina, ofreciendo nuevos métodos para la investigación filológica clásica.

45

HumanMM: Recuperación Global del Movimiento Humano a partir de Vídeos de Múltiples Tomas
HumanMM: Global Human Motion Recovery from Multi-shot Videos

Mar 10
ByYuhong Zhang, Guanlin Wu, Ling-Hao Chen, Zhuokai Zhao, Jing Lin, Xiaoke Jiang, Jiamin Wu, Zhuoheng Li, Hao Frank Yang, Haoqian Wang, Lei Zhang
2
1

En este artículo, presentamos un marco novedoso diseñado para reconstruir secuencias largas de movimiento humano en 3D en coordenadas mundiales a partir de videos en entornos naturales con múltiples transiciones de toma. Estas secuencias largas de movimiento en entornos naturales son altamente valiosas para aplicaciones como la generación y comprensión de movimiento, pero representan un gran desafío para su recuperación debido a las transiciones abruptas de toma, oclusiones parciales y fondos dinámicos presentes en dichos videos. Los métodos existentes se centran principalmente en videos de una sola toma, donde se mantiene la continuidad dentro de una única vista de cámara, o simplifican la alineación multi-toma únicamente en el espacio de la cámara. En este trabajo, abordamos estos desafíos integrando una estimación mejorada de la pose de la cámara con la Recuperación de Movimiento Humano (HMR), incorporando un detector de transiciones de toma y un módulo de alineación robusto para garantizar la continuidad precisa de la pose y la orientación entre tomas. Al aprovechar un integrador de movimiento personalizado, mitigamos efectivamente el problema del deslizamiento de los pies y aseguramos la consistencia temporal en la pose humana. Evaluaciones exhaustivas en nuestro conjunto de datos multi-toma creado a partir de conjuntos de datos públicos de humanos en 3D demuestran la robustez de nuestro método para reconstruir movimientos humanos realistas en coordenadas mundiales.

46

REF-VLM: Paradigma de Referencia Basado en Tripletas para la Decodificación Visual Unificada
REF-VLM: Triplet-Based Referring Paradigm for Unified Visual Decoding

Mar 10
ByYan Tai, Luhao Zhu, Zhiqiang Chen, Ynan Ding, Yiying Dong, Xiaohong Liu, Guodong Guo
2
1

Los Modelos de Lenguaje Multimodales a Gran Escala (MLLMs, por sus siglas en inglés) demuestran capacidades robustas de zero-shot en diversas tareas de visión y lenguaje tras ser entrenados con conjuntos de datos a megaescala. Sin embargo, las tareas de predicción densa, como la segmentación semántica y la detección de puntos clave, presentan desafíos significativos para los MLLMs cuando se representan únicamente como salidas de texto. Al mismo tiempo, los MLLMs actuales que utilizan embeddings latentes para la decodificación de tareas visuales generalmente muestran una adaptabilidad limitada tanto al aprendizaje multitarea como a escenarios de múltiples granularidades. En este trabajo, presentamos REF-VLM, un marco de trabajo de extremo a extremo para el entrenamiento unificado de diversas tareas de decodificación visual. Para abordar escenarios complejos de decodificación visual, introducimos el Paradigma de Referencia Basado en Tripletas (TRP, por sus siglas en inglés), que desacopla explícitamente tres dimensiones críticas en las tareas de decodificación visual a través de una estructura de triplete: conceptos, tipos de decodificación y objetivos. El TRP emplea delimitadores simbólicos para reforzar el aprendizaje de representaciones estructuradas, mejorando la capacidad de análisis y la interpretabilidad de las salidas del modelo. Además, construimos el Conjunto de Datos de Seguimiento de Instrucciones Visual-Tarea (VTInstruct), un conjunto de datos multitarea a gran escala que contiene más de 100 millones de muestras de diálogo multimodal en 25 tipos de tareas. Más allá de las entradas y salidas de texto, VT-Instruct incorpora varios indicadores visuales como puntos, cuadros, garabatos y máscaras, y genera salidas compuestas por texto y unidades visuales como cuadros, puntos clave, profundidad y máscaras. La combinación de diferentes indicadores visuales y unidades visuales genera una amplia variedad de tipos de tareas, expandiendo significativamente la aplicabilidad de REF-VLM. Tanto los experimentos cualitativos como cuantitativos demuestran que nuestro REF-VLM supera a otros MLLMs en una variedad de benchmarks estándar. El código, el conjunto de datos y la demo están disponibles en https://github.com/MacavityT/REF-VLM.

47

RePO: Optimización de Preferencias basada en ReLU
RePO: ReLU-based Preference Optimization

Mar 10
ByJunkang Wu, Kexin Huang, Xue Wang, Jinyang Gao, Bolin Ding, Jiancan Wu, Xiangnan He, Xiang Wang
2
2

Alinear los modelos de lenguaje de gran escala (LLMs) con las preferencias humanas es crucial para su implementación en el mundo real, aunque métodos existentes como RLHF enfrentan desafíos computacionales y de estabilidad. Mientras que DPO establece un paradigma offline con un único hiperparámetro beta, métodos posteriores como SimPO reintroducen complejidad mediante parámetros duales (beta, gamma). Proponemos {Optimización de Preferencias basada en ReLU (RePO)}, un algoritmo simplificado que elimina beta mediante dos avances: (1) conservar los márgenes sin referencia de SimPO pero eliminar beta mediante análisis de gradientes, y (2) adoptar una función de pérdida de margen máximo basada en ReLU que filtra naturalmente pares triviales. Teóricamente, RePO se caracteriza como el caso límite de SimPO (beta tiende a infinito), donde la ponderación logística colapsa en un umbral binario, formando una envolvente convexa de la pérdida 0-1. Los resultados empíricos en AlpacaEval 2 y Arena-Hard muestran que RePO supera a DPO y SimPO en múltiples modelos base, requiriendo solo un hiperparámetro para ajustar.

48

Mezcla Simbólica de Expertos: Enrutamiento Adaptativo Basado en Habilidades para el Razonamiento Heterogéneo
Symbolic Mixture-of-Experts: Adaptive Skill-based Routing for Heterogeneous Reasoning

Mar 7
ByJustin Chih-Yao Chen, Sukwon Yun, Elias Stengel-Eskin, Tianlong Chen, Mohit Bansal
2
2

Combinar modelos de lenguaje grandes (LLM) expertos preentrenados existentes es un enfoque prometedor para abordar de manera escalable tareas diversas y a gran escala. Sin embargo, seleccionar expertos a nivel de tarea suele ser demasiado general, ya que tareas heterogéneas pueden requerir diferentes conocimientos para cada instancia. Para permitir una mezcla adaptativa a nivel de instancia de expertos LLM preentrenados, proponemos Symbolic-MoE, un marco Mixture-of-Experts simbólico, basado en texto y libre de gradientes. Symbolic-MoE adopta un enfoque detallado en la selección, enfatizando habilidades, por ejemplo, álgebra en matemáticas o biología molecular en razonamiento biomédico. Proponemos una estrategia de reclutamiento basada en habilidades que selecciona dinámicamente el conjunto más relevante de expertos LLM para diversas tareas de razonamiento según sus fortalezas. Cada experto seleccionado genera su propio razonamiento, resultando en k salidas de k expertos, que luego se sintetizan en una respuesta final de alta calidad por un agregador elegido según su capacidad para integrar resultados de razonamiento diversos. Mostramos que la selección de expertos a nivel de instancia de Symbolic-MoE mejora el rendimiento significativamente, pero —cuando se implementa de manera ingenua— puede introducir un alto costo computacional debido a la necesidad de cargar y descargar modelos constantemente. Para abordar esto, implementamos una estrategia de inferencia por lotes que agrupa instancias según sus expertos asignados, cargando cada modelo solo una vez. Esto nos permite integrar 16 modelos expertos en 1 GPU con un costo de tiempo comparable o mejor que enfoques multiagente anteriores que usan 4 GPUs. A través de evaluaciones extensas en diversos benchmarks (MMLU-Pro, GPQA, AIME y MedMCQA), demostramos que Symbolic-MoE supera a LLM fuertes como GPT4o-mini, así como a enfoques multiagente, con una mejora absoluta promedio del 8.15% sobre el mejor baseline multiagente. Además, Symbolic-MoE elimina la necesidad de discusiones multi-ronda costosas, superando a baselines de discusión con menos computación.

49

NeuGrasp: Reconstrucción Neural Generalizable de Superficies con Prioridades de Fondo para la Detección de Agarre de Objetos Independiente del Material
NeuGrasp: Generalizable Neural Surface Reconstruction with Background Priors for Material-Agnostic Object Grasp Detection

Mar 5
ByQingyu Fan, Yinghao Cai, Chao Li, Wenzhe He, Xudong Zheng, Tao Lu, Bin Liang, Shuo Wang
2
2

La manipulación robótica en escenas con objetos transparentes y especulares presenta grandes desafíos para los métodos que dependen de información precisa de profundidad. En este artículo, presentamos NeuGrasp, un método de reconstrucción de superficies neuronales que aprovecha conocimientos previos del fondo para la detección de agarres independiente del material. NeuGrasp integra transformadores y volúmenes de conocimiento global para agregar características multivista con codificación espacial, permitiendo una reconstrucción robusta de superficies en condiciones de visión estrecha y dispersa. Al enfocarse en objetos en primer plano mediante la mejora de características residuales y refinando la percepción espacial con un volumen de ocupación previa, NeuGrasp sobresale en el manejo de objetos con superficies transparentes y especulares. Experimentos extensos en escenarios tanto simulados como del mundo real muestran que NeuGrasp supera a los métodos más avanzados en manipulación mientras mantiene una calidad de reconstrucción comparable. Más detalles están disponibles en https://neugrasp.github.io/.

50

Correctores de Feynman-Kac en Difusión: Recocido, Guiado y Producto de Expertos
Feynman-Kac Correctors in Diffusion: Annealing, Guidance, and Product of Experts

Mar 4
ByMarta Skreta, Tara Akhound-Sadegh, Viktor Ohanesian, Roberto Bondesan, Alán Aspuru-Guzik, Arnaud Doucet, Rob Brekelmans, Alexander Tong, Kirill Neklyudov
2
2

Si bien los modelos generativos basados en puntuaciones son el modelo preferido en diversos dominios, existen herramientas limitadas disponibles para controlar el comportamiento durante la inferencia de manera fundamentada, por ejemplo, para componer múltiples modelos preentrenados. Los métodos existentes de guía sin clasificador utilizan una heurística simple para mezclar puntuaciones condicionales e incondicionales y muestrear aproximadamente de distribuciones condicionales. Sin embargo, dichos métodos no aproximan las distribuciones intermedias, lo que requiere pasos adicionales de 'corrección'. En este trabajo, proporcionamos un método eficiente y fundamentado para muestrear a partir de una secuencia de distribuciones recocidas, promediadas geométricamente o producto derivadas de modelos basados en puntuaciones preentrenados. Derivamos un esquema de simulación ponderada al que llamamos Correctores de Feynman-Kac (FKCs, por sus siglas en inglés), basado en la célebre fórmula de Feynman-Kac, al considerar cuidadosamente los términos en las ecuaciones diferenciales parciales (EDPs) apropiadas. Para simular estas EDPs, proponemos algoritmos de remuestreo de Monte Carlo Secuencial (SMC, por sus siglas en inglés) que aprovechan el escalado durante la inferencia para mejorar la calidad del muestreo. Demostramos empíricamente la utilidad de nuestros métodos al proponer muestreo amortizado mediante recocido de temperatura durante la inferencia, mejorar la generación de moléculas multiobjetivo utilizando modelos preentrenados y mejorar la guía sin clasificador para la generación de imágenes a partir de texto. Nuestro código está disponible en https://github.com/martaskrt/fkc-diffusion.

Mar 10
Mar 11
Mar 12