ChatPaper.aiChatPaper.ai
Inicio

arXiv

HuggingFace

PreciosCuentaEspacio de trabajo

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

MLGym: Un Nuevo Marco de Referencia y Punto de Referencia para el Avance de los Agentes de Investigación en IA
MLGym: A New Framework and Benchmark for Advancing AI Research Agents

Feb 20, 2025
Deepak Nathani, Lovish Madaan, Nicholas Roberts, Nikolay Bashlykov, Ajay Menon, Vincent Moens, Amar Budhiraja, Despoina Magka, Vladislav Vorotilov, Gaurav Chaurasia, Dieuwke Hupkes, Ricardo Silveira Cabral, Tatiana Shavrina, Jakob Foerster, Yoram Bachrach, William Yang Wang, Roberta Raileanu
1923

Presentamos Meta MLGym y MLGym-Bench, un nuevo marco de trabajo y punto de referencia para evaluar y desarrollar agentes de modelos de lenguaje grandes (LLM) en tareas de investigación en IA. Este es el primer entorno Gym diseñado específicamente para tareas de aprendizaje automático (ML), permitiendo la investigación de algoritmos de aprendizaje por refuerzo (RL) para entrenar dichos agentes. MLGym-Bench consta de 13 tareas diversas y abiertas de investigación en IA, provenientes de dominios como visión por computadora, procesamiento de lenguaje natural, aprendizaje por refuerzo y teoría de juegos. Resolver estas tareas requiere habilidades reales de investigación en IA, como generar nuevas ideas e hipótesis, crear y procesar datos, implementar métodos de ML, entrenar modelos, ejecutar experimentos, analizar resultados e iterar este proceso para mejorar en una tarea dada. Evaluamos varios modelos de lenguaje grandes de vanguardia en nuestros puntos de referencia, como Claude-3.5-Sonnet, Llama-3.1 405B, GPT-4o, o1-preview y Gemini-1.5 Pro. Nuestro marco MLGym facilita la adición de nuevas tareas, la integración y evaluación de modelos o agentes, la generación de datos sintéticos a gran escala, así como el desarrollo de nuevos algoritmos de aprendizaje para entrenar agentes en tareas de investigación en IA. Observamos que los modelos de vanguardia actuales pueden mejorar los puntos de referencia dados, generalmente al encontrar mejores hiperparámetros, pero no generan hipótesis, algoritmos, arquitecturas o mejoras sustanciales novedosas. Hacemos público nuestro marco y punto de referencia para facilitar futuras investigaciones en el avance de las capacidades de investigación en IA de los agentes LLM.

SigLIP 2: Codificadores Multilingües de Visión y Lenguaje con Mejor Comprensión Semántica, Localización y Características Densas
SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features

Feb 20, 2025
Michael Tschannen, Alexey Gritsenko, Xiao Wang, Muhammad Ferjad Naeem, Ibrahim Alabdulmohsin, Nikhil Parthasarathy, Talfan Evans, Lucas Beyer, Ye Xia, Basil Mustafa, Olivier Hénaff, Jeremiah Harmsen, Andreas Steiner, Xiaohua Zhai
1467

Presentamos SigLIP 2, una familia de nuevos codificadores multilingües de visión y lenguaje que se basan en el éxito del SigLIP original. En esta segunda iteración, extendemos el objetivo de entrenamiento original de imagen-texto con varias técnicas previamente desarrolladas de forma independiente, integradas en una receta unificada. Esto incluye preentrenamiento basado en subtítulos, pérdidas auto-supervisadas (auto-distilación, predicción enmascarada) y curación de datos en línea. Con estos cambios, los modelos SigLIP 2 superan a sus contrapartes SigLIP en todas las escalas del modelo en capacidades fundamentales, como la clasificación zero-shot, la recuperación de imagen-texto y el rendimiento en transferencia al extraer representaciones visuales para Modelos de Visión y Lenguaje (VLMs). Además, la nueva receta de entrenamiento conduce a mejoras significativas en tareas de localización y predicción densa. También entrenamos variantes que admiten múltiples resoluciones y preservan la relación de aspecto nativa de la entrada. Finalmente, entrenamos con una mezcla de datos más diversa que incluye técnicas de desviación, lo que resulta en una comprensión multilingüe mucho mejor y una mayor equidad. Para permitir a los usuarios equilibrar el costo de inferencia con el rendimiento, publicamos puntos de control del modelo en cuatro tamaños: ViT-B (86M), L (303M), So400m (400M) y g (1B).

SuperGPQA: Escalando la Evaluación de LLM a través de 285 Disciplinas de Posgrado
SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines

Feb 20, 2025
M-A-P Team, Xinrun Du, Yifan Yao, Kaijing Ma, Bingli Wang, Tianyu Zheng, Kang Zhu, Minghao Liu, Yiming Liang, Xiaolong Jin, Zhenlin Wei, Chujie Zheng, Kaixing Deng, Shuyue Guo, Shian Jia, Sichao Jiang, Yiyan Liao, Rui Li, Qinrui Li, Sirun Li, Yizhi Li, Yunwen Li, Dehua Ma, Yuansheng Ni, Haoran Que, Qiyao Wang, Zhoufutu Wen, Siwei Wu, Tianshun Xing, Ming Xu, Zhenzhu Yang, Zekun Moore Wang, Junting Zhou, Yuelin Bai, Xingyuan Bu, Chenglin Cai, Liang Chen, Yifan Chen, Chengtuo Cheng, Tianhao Cheng, Keyi Ding, Siming Huang, Yun Huang, Yaoru Li, Yizhe Li, Zhaoqun Li, Tianhao Liang, Chengdong Lin, Hongquan Lin, Yinghao Ma, Zhongyuan Peng, Zifan Peng, Qige Qi, Shi Qiu, Xingwei Qu, Yizhou Tan, Zili Wang, Chenqing Wang, Hao Wang, Yiya Wang, Yubo Wang, Jiajun Xu, Kexin Yang, Ruibin Yuan, Yuanhao Yue, Tianyang Zhan, Chun Zhang, Jingyang Zhang, Xiyue Zhang, Xingjian Zhang, Yue Zhang, Yongchi Zhao, Xiangyu Zheng, Chenghua Zhong, Yang Gao, Zhoujun Li, Dayiheng Liu, Qian Liu, Tianyu Liu, Shiwen Ni, Junran Peng, Yujia Qin, Wenbo Su, Guoyin Wang, Shi Wang, Jian Yang, Min Yang, Meng Cao, Xiang Yue, Zhaoxiang Zhang, Wangchunshu Zhou, Jiaheng Liu, Qunshu Lin, Wenhao Huang, Ge Zhang
10510

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado una notable competencia en disciplinas académicas principales como las matemáticas, la física y la informática. Sin embargo, el conocimiento humano abarca más de 200 disciplinas especializadas, superando ampliamente el alcance de los puntos de referencia existentes. Las capacidades de los LLMs en muchos de estos campos especializados, particularmente en la industria ligera, la agricultura y las disciplinas orientadas a los servicios, siguen siendo insuficientemente evaluadas. Para abordar esta brecha, presentamos SuperGPQA, un punto de referencia integral que evalúa el conocimiento y las capacidades de razonamiento a nivel de posgrado en 285 disciplinas. Nuestro punto de referencia emplea un novedoso mecanismo de filtrado colaborativo Humano-LLM para eliminar preguntas triviales o ambiguas mediante un refinamiento iterativo basado tanto en las respuestas de los LLMs como en la retroalimentación de expertos. Nuestros resultados experimentales revelan un margen significativo de mejora en el rendimiento de los LLMs más avanzados actualmente en diversos dominios del conocimiento (por ejemplo, el modelo centrado en el razonamiento DeepSeek-R1 logró la mayor precisión del 61,82% en SuperGPQA), destacando la considerable brecha entre las capacidades actuales de los modelos y la inteligencia artificial general. Además, presentamos perspectivas integrales derivadas de nuestra gestión de un proceso de anotación a gran escala, que involucró a más de 80 anotadores expertos y un sistema interactivo de colaboración Humano-LLM, ofreciendo una valiosa orientación metodológica para futuras iniciativas de investigación de alcance comparable.

¿Cuánto conocimiento puedes empaquetar en un adaptador LoRA sin perjudicar a un modelo de lenguaje grande (LLM)?
How Much Knowledge Can You Pack into a LoRA Adapter without Harming LLM?

Feb 20, 2025
Sergey Pletenev, Maria Marina, Daniil Moskovskiy, Vasily Konovalov, Pavel Braslavski, Alexander Panchenko, Mikhail Salnikov
919

El rendimiento de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) en muchas tareas se ve significativamente limitado por el conocimiento adquirido durante el preentrenamiento y almacenado en los parámetros del modelo. La adaptación de bajo rango (LoRA, por sus siglas en inglés) es una técnica de entrenamiento popular y eficiente para actualizar o adaptar LLMs a dominios específicos. En este estudio, investigamos cómo se pueden incorporar nuevos hechos en el LLM utilizando LoRA sin comprometer el conocimiento previamente aprendido. Ajustamos el modelo Llama-3.1-8B-instruct utilizando LoRA con diferentes cantidades de conocimiento nuevo. Nuestros experimentos han demostrado que los mejores resultados se obtienen cuando los datos de entrenamiento contienen una mezcla de hechos conocidos y nuevos. Sin embargo, este enfoque sigue siendo potencialmente perjudicial, ya que el rendimiento del modelo en benchmarks externos de preguntas y respuestas disminuye después de dicho ajuste fino. Cuando los datos de entrenamiento están sesgados hacia ciertas entidades, el modelo tiende a regresar a unas pocas respuestas sobrerrepresentadas. Además, encontramos que el modelo se vuelve más confiado y se niega a proporcionar una respuesta en solo unos pocos casos. Estos hallazgos resaltan los posibles inconvenientes de las actualizaciones de LLMs basadas en LoRA y subrayan la importancia de la composición de los datos de entrenamiento y los parámetros de ajuste para equilibrar la integración de nuevo conocimiento y las capacidades generales del modelo.

S*: Escalado en Tiempo de Prueba para Generación de Código
S*: Test Time Scaling for Code Generation

Feb 20, 2025
Dacheng Li, Shiyi Cao, Chengkun Cao, Xiuyu Li, Shangyin Tan, Kurt Keutzer, Jiarong Xing, Joseph E. Gonzalez, Ion Stoica
633

El aumento del cómputo en tiempo de prueba para los LLMs muestra promesa en diversos dominios, pero sigue siendo poco explorado en la generación de código, a pesar de los extensos estudios en matemáticas. En este artículo, proponemos S*, el primer marco de escalado híbrido en tiempo de prueba que mejora sustancialmente la cobertura y precisión de selección del código generado. S* extiende el paradigma de escalado paralelo existente con escalado secuencial para impulsar los límites de rendimiento. Además, aprovecha un novedoso mecanismo de selección que genera de manera adaptativa entradas diferenciadoras para comparaciones por pares, combinado con información basada en la ejecución para identificar de manera robusta las soluciones correctas. Evaluamos en 12 Modelos de Lenguaje a Gran Escala (LLMs) y Modelos de Razonamiento a Gran Escala (LRMs) y demostramos: (1) S* mejora consistentemente el rendimiento en familias y tamaños de modelos, permitiendo que un modelo de 3B supere a GPT-4o-mini; (2) S* permite que modelos no especializados en razonamiento superen a modelos de razonamiento: GPT-4o-mini con S* supera a o1-preview en un 3.7% en LiveCodeBench; (3) S* impulsa aún más los modelos de razonamiento de última generación: DeepSeek-R1-Distill-Qwen-32B con S* alcanza un 85.7% en LiveCodeBench, acercándose a o1 (alto) con un 88.5%. El código estará disponible en https://github.com/NovaSky-AI/SkyThought.

Logic-RL: Liberando el razonamiento de LLM con aprendizaje por refuerzo basado en reglas
Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning

Feb 20, 2025
Tian Xie, Zitian Gao, Qingnan Ren, Haoming Luo, Yuqian Hong, Bryan Dai, Joey Zhou, Kai Qiu, Zhirong Wu, Chong Luo
485

Inspirados por el éxito de DeepSeek-R1, exploramos el potencial del aprendizaje por refuerzo basado en reglas (RL) en modelos de razonamiento a gran escala. Para analizar la dinámica del razonamiento, utilizamos acertijos lógicos sintéticos como datos de entrenamiento debido a su complejidad controlable y a la verificación directa de las respuestas. Realizamos contribuciones técnicas clave que conducen a un entrenamiento de RL efectivo y estable: un mensaje del sistema que enfatiza el proceso de pensamiento y respuesta, una función de recompensa de formato estricta que penaliza las salidas por tomar atajos, y una receta de entrenamiento sencilla que logra una convergencia estable. Nuestro modelo de 7B desarrolla habilidades avanzadas de razonamiento—como la reflexión, verificación y resumen—que están ausentes en el corpus lógico. Notablemente, después de entrenarse con solo 5K problemas lógicos, demuestra habilidades de generalización en los desafiantes benchmarks matemáticos AIME y AMC.

Descubrimiento de códigos cuánticos de corrección de errores altamente eficientes y de bajo peso mediante aprendizaje por refuerzo
Discovering highly efficient low-weight quantum error-correcting codes with reinforcement learning

Feb 20, 2025
Austin Yubo He, Zi-Wen Liu
364

La realización de la computación cuántica tolerante a fallos y escalable se espera que dependa de los códigos cuánticos de corrección de errores. En la búsqueda de una tolerancia a fallos cuántica más eficiente, un parámetro crítico del código es el peso de las mediciones que extraen información sobre los errores para permitir su corrección: dado que pesos de medición más altos requieren costos de implementación más elevados e introducen más errores, es importante en el diseño de códigos optimizar el peso de las mediciones. Esto subyace al creciente interés en los códigos cuánticos de paridad de baja densidad (qLDPC), cuyo estudio se ha centrado principalmente en las propiedades asintóticas (límite de códigos grandes). En este trabajo, presentamos un enfoque versátil y computacionalmente eficiente para la reducción del peso de los códigos estabilizadores basado en el aprendizaje por refuerzo (RL), el cual produce nuevos códigos de bajo peso que superan sustancialmente el estado del arte en regímenes de parámetros relevantes en la práctica, extendiéndose significativamente más allá de las distancias pequeñas previamente accesibles. Por ejemplo, nuestro enfoque demuestra ahorros en la sobrecarga de qubits físicos en comparación con los resultados existentes de 1 a 2 órdenes de magnitud para códigos de peso 6 y lleva la sobrecarga a un rango factible para experimentos en un futuro cercano. También investigamos la interacción entre los parámetros del código utilizando nuestro marco de RL, ofreciendo nuevas perspectivas sobre la eficiencia potencial y el poder de las estrategias de codificación viables en la práctica. En general, nuestros resultados demuestran cómo el RL puede avanzar efectivamente en el problema crucial pero desafiante del descubrimiento de códigos cuánticos, facilitando así un camino más rápido hacia la implementación práctica de tecnologías cuánticas tolerantes a fallos.

S^2R: Enseñando a los LLM a auto-verificarse y auto-corregirse mediante Aprendizaje por Refuerzo
S^2R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning

Feb 18, 2025
Ruotian Ma, Peisong Wang, Cheng Liu, Xingyan Liu, Jiaqi Chen, Bang Zhang, Xin Zhou, Nan Du, Jia Li
292

Estudios recientes han demostrado la efectividad del escalado en tiempo de prueba de los LLM. Sin embargo, los enfoques existentes para incentivar las habilidades de pensamiento profundo de los LLM generalmente requieren datos a gran escala o esfuerzos significativos de entrenamiento. Mientras tanto, sigue sin estar claro cómo mejorar las habilidades de pensamiento de modelos base menos potentes. En este trabajo, presentamos S^2R, un marco eficiente que mejora el razonamiento de los LLM al enseñar a los modelos a autoverificarse y autocorregirse durante la inferencia. Específicamente, primero inicializamos los LLM con comportamientos de autoverificación y autocorrección iterativos mediante ajuste fino supervisado en datos cuidadosamente seleccionados. Las habilidades de autoverificación y autocorrección se fortalecen aún más mediante el aprendizaje por refuerzo tanto a nivel de resultados como de procesos, con requisitos de recursos minimizados, lo que permite al modelo refinar de manera adaptativa su proceso de razonamiento durante la inferencia. Nuestros resultados demuestran que, con solo 3.1k muestras de inicialización de comportamientos de autoverificación y autocorrección, Qwen2.5-math-7B logra una mejora en la precisión del 51.0\% al 81.6\%, superando a los modelos entrenados con una cantidad equivalente de datos destilados de CoT largo. Experimentos extensos y análisis basados en tres modelos base en puntos de referencia tanto dentro como fuera del dominio validan la efectividad de S^2R. Nuestro código y datos están disponibles en https://github.com/NineAbyss/S2R.

¿Tiene el tiempo su lugar? Cabezales temporales: Dónde los modelos de lenguaje recuerdan información específica del tiempo
Does Time Have Its Place? Temporal Heads: Where Language Models Recall Time-specific Information

Feb 20, 2025
Yein Park, Chanwoong Yoon, Jungwoo Park, Minbyul Jeong, Jaewoo Kang
262

Si bien la capacidad de los modelos de lenguaje para evocar hechos ha sido ampliamente investigada, cómo manejan los hechos que cambian con el tiempo sigue siendo poco explorado. Descubrimos las Temporal Heads, cabezas de atención específicas principalmente responsables de procesar el conocimiento temporal mediante análisis de circuitos. Confirmamos que estas cabezas están presentes en múltiples modelos, aunque sus ubicaciones específicas pueden variar, y sus respuestas difieren según el tipo de conocimiento y los años correspondientes. Desactivar estas cabezas degrada la capacidad del modelo para recordar conocimientos específicos del tiempo, mientras mantiene sus capacidades generales sin comprometer el rendimiento en tareas invariantes en el tiempo y de respuesta a preguntas. Además, estas cabezas se activan no solo ante condiciones numéricas ("En 2004") sino también ante alias textuales ("En el año..."), lo que indica que codifican una dimensión temporal que va más allá de una simple representación numérica. Además, ampliamos el potencial de nuestros hallazgos al demostrar cómo el conocimiento temporal puede editarse ajustando los valores de estas cabezas.

LongWriter-V: Habilitando la generación ultra larga y de alta fidelidad en modelos de visión y lenguaje
LongWriter-V: Enabling Ultra-Long and High-Fidelity Generation in Vision-Language Models

Feb 20, 2025
Shangqing Tu, Yucheng Wang, Daniel Zhang-Li, Yushi Bai, Jifan Yu, Yuhao Wu, Lei Hou, Huiqin Liu, Zhiyuan Liu, Bin Xu, Juanzi Li
242

Los modelos de visión y lenguaje a gran escala (LVLMs) existentes pueden procesar entradas con longitudes de contexto de hasta 128k tokens visuales y textuales, pero tienen dificultades para generar salidas coherentes que superen las 1,000 palabras. Descubrimos que la principal limitación es la ausencia de ejemplos de salidas largas durante el ajuste fino supervisado (SFT). Para abordar este problema, presentamos LongWriter-V-22k, un conjunto de datos de SFT que incluye 22,158 ejemplos, cada uno con múltiples imágenes de entrada, una instrucción y salidas correspondientes que van desde 0 hasta 10,000 palabras. Además, para lograr salidas largas que mantengan una alta fidelidad con las imágenes de entrada, aplicamos la Optimización de Preferencias Directas (DPO) al modelo SFT. Dado el alto costo de recopilar retroalimentación humana para salidas extensas (por ejemplo, 3,000 palabras), proponemos IterDPO, que divide las salidas largas en segmentos y utiliza correcciones iterativas para formar pares de preferencia con las salidas originales. Adicionalmente, desarrollamos MMLongBench-Write, un punto de referencia que incluye seis tareas para evaluar las capacidades de generación larga de los modelos de visión y lenguaje (VLMs). Nuestro modelo de 7B parámetros, entrenado con LongWriter-V-22k e IterDPO, logra un rendimiento impresionante en este punto de referencia, superando a modelos propietarios más grandes como GPT-4o. Código y datos: https://github.com/THU-KEG/LongWriter-V

PC-Agent: Un Marco de Colaboración Jerárquico Multi-Agente para la Automatización de Tareas Complejas en PC
PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC

Feb 20, 2025
Haowei Liu, Xi Zhang, Haiyang Xu, Yuyang Wanyan, Junyang Wang, Ming Yan, Ji Zhang, Chunfeng Yuan, Changsheng Xu, Weiming Hu, Fei Huang
203

En el campo de los agentes GUI basados en MLLM, en comparación con los teléfonos inteligentes, el escenario de PC no solo presenta un entorno interactivo más complejo, sino que también involucra flujos de trabajo intra e interaplicaciones más intrincados. Para abordar estos problemas, proponemos un marco de agente jerárquico denominado PC-Agent. Específicamente, desde la perspectiva de la percepción, diseñamos un Módulo de Percepción Activa (APM) para superar las capacidades insuficientes de los MLLM actuales en la percepción del contenido de capturas de pantalla. Desde la perspectiva de la toma de decisiones, para manejar instrucciones de usuario complejas y subtareas interdependientes de manera más efectiva, proponemos una arquitectura de colaboración multiagente jerárquica que descompone los procesos de toma de decisiones en niveles de Instrucción-Subtarea-Acción. Dentro de esta arquitectura, se configuran tres agentes (es decir, Manager, Progress y Decision) para la descomposición de instrucciones, el seguimiento del progreso y la toma de decisiones paso a paso, respectivamente. Además, se adopta un agente de Reflexión para permitir una retroalimentación y ajuste de errores ascendente oportuna. También presentamos un nuevo punto de referencia, PC-Eval, con 25 instrucciones complejas del mundo real. Los resultados empíricos en PC-Eval muestran que nuestro PC-Agent logra una mejora absoluta del 32% en la tasa de éxito de tareas sobre los métodos anteriores más avanzados. El código estará disponible públicamente.

Cómo Hacer que tu Modelo de Lenguaje Grande Genere Problemas Desafiantes para Evaluación
How to Get Your LLM to Generate Challenging Problems for Evaluation

Feb 20, 2025
Arkil Patel, Siva Reddy, Dzmitry Bahdanau
182

El ritmo de evolución de los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) exige nuevos enfoques para una evaluación rigurosa y exhaustiva. La anotación humana tradicional resulta cada vez más impracticable debido a las complejidades y costos asociados con la generación de problemas desafiantes y de alta calidad. En este trabajo, presentamos CHASE, un marco unificado para generar sintéticamente problemas desafiantes utilizando LLMs sin intervención humana. Para una tarea dada, nuestro enfoque construye un problema difícil de manera ascendente a partir de componentes más simples. Además, nuestro marco descompone el proceso de generación en sub-tareas independientemente verificables, garantizando así un alto nivel de calidad y corrección. Implementamos CHASE para crear puntos de referencia de evaluación en tres dominios diversos: (1) respuesta a preguntas basadas en documentos, (2) completado de código a nivel de repositorio y (3) razonamiento matemático. El rendimiento de los LLMs más avanzados en estos puntos de referencia sintéticos se sitúa en un rango de precisión del 40-60%, demostrando así la efectividad de nuestro marco para generar problemas desafiantes. Publicamos nuestros puntos de referencia y código de manera abierta.

Personalización de Conceptos Dinámicos a partir de Vídeos Únicos
Dynamic Concepts Personalization from Single Videos

Feb 20, 2025
Rameen Abdal, Or Patashnik, Ivan Skorokhodov, Willi Menapace, Aliaksandr Siarohin, Sergey Tulyakov, Daniel Cohen-Or, Kfir Aberman
162

La personalización de modelos generativos de texto a imagen ha experimentado un progreso notable, pero extender esta personalización a modelos de texto a video presenta desafíos únicos. A diferencia de los conceptos estáticos, la personalización de modelos de texto a video tiene el potencial de capturar conceptos dinámicos, es decir, entidades definidas no solo por su apariencia, sino también por su movimiento. En este artículo, presentamos Set-and-Sequence, un marco novedoso para personalizar modelos generativos de video basados en Transformadores de Difusión (DiTs) con conceptos dinámicos. Nuestro enfoque impone un espacio de pesos espacio-temporal dentro de una arquitectura que no separa explícitamente las características espaciales y temporales. Esto se logra en dos etapas clave. Primero, ajustamos finamente las capas de Adaptación de Bajo Rango (LoRA) utilizando un conjunto desordenado de fotogramas del video para aprender una base LoRA de identidad que representa la apariencia, libre de interferencia temporal. En la segunda etapa, con las LoRAs de identidad congeladas, aumentamos sus coeficientes con Residuos de Movimiento y los ajustamos finamente en la secuencia completa del video, capturando la dinámica del movimiento. Nuestro marco Set-and-Sequence da como resultado un espacio de pesos espacio-temporal que integra efectivamente conceptos dinámicos en el dominio de salida del modelo de video, permitiendo una editabilidad y composicionalidad sin precedentes, al tiempo que establece un nuevo estándar para la personalización de conceptos dinámicos.

AlphaMaze: Mejorando la Inteligencia Espacial de los Modelos de Lenguaje de Gran Escala mediante GRPO
AlphaMaze: Enhancing Large Language Models' Spatial Intelligence via GRPO

Feb 20, 2025
Alan Dao, Dinh Bach Vu
142

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado capacidades impresionantes en el procesamiento del lenguaje, pero a menudo enfrentan dificultades en tareas que requieren un razonamiento visual espacial genuino. En este artículo, presentamos un marco de entrenamiento novedoso de dos etapas diseñado para dotar a los LLMs estándar con habilidades de razonamiento visual para la navegación en laberintos. Primero, utilizamos el Ajuste Fino Supervisado (SFT, por sus siglas en inglés) en un conjunto de datos curado de representaciones tokenizadas de laberintos para enseñar al modelo a predecir comandos de movimiento paso a paso. Luego, aplicamos la Optimización de Política Relativa de Grupo (GRPO, por sus siglas en inglés)—una técnica utilizada en DeepSeekR1—con una función de recompensa cuidadosamente diseñada para refinar la toma de decisiones secuencial del modelo y fomentar comportamientos emergentes de cadena de pensamiento. Los resultados experimentales en laberintos generados sintéticamente muestran que, mientras un modelo de referencia no logra navegar el laberinto, el modelo entrenado con SFT alcanza un 86% de precisión, y un ajuste fino adicional con GRPO aumenta la precisión al 93%. Los análisis cualitativos revelan que GRPO fomenta un razonamiento más robusto y autocorrectivo, destacando el potencial de nuestro enfoque para cerrar la brecha entre los modelos de lenguaje y las tareas visuales espaciales. Estos hallazgos ofrecen implicaciones prometedoras para aplicaciones en robótica, navegación autónoma y otros dominios que requieren un razonamiento visual y secuencial integrado.

LServe: Servicio eficiente de LLM para secuencias largas con atención dispersa unificada
LServe: Efficient Long-sequence LLM Serving with Unified Sparse Attention

Feb 20, 2025
Shang Yang, Junxian Guo, Haotian Tang, Qinghao Hu, Guangxuan Xiao, Jiaming Tang, Yujun Lin, Zhijian Liu, Yao Lu, Song Han
132

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado un potencial notable en el procesamiento de secuencias largas. Sin embargo, servir de manera eficiente estos modelos de contexto extenso sigue siendo un desafío debido a la complejidad computacional cuadrática de la atención en la etapa de prefilling y a la gran huella de memoria de la caché KV en la etapa de decodificación. Para abordar estos problemas, presentamos LServe, un sistema eficiente que acelera el servicio de LLMs de secuencias largas mediante atención híbrida dispersa. Este método unifica diferentes patrones de dispersión estructurada, compatibles con hardware, tanto para la atención en prefilling como en decodificación, en un único marco de trabajo, donde los cálculos en tokens menos importantes se omiten en bloques. LServe demuestra la compatibilidad de la dispersión estática y dinámica en la atención de LLMs de contexto extenso. Este diseño permite aceleraciones multiplicativas al combinar estas optimizaciones. Específicamente, convertimos la mitad de las cabezas de atención en cabezas de transmisión casi gratuita tanto en la etapa de prefilling como en la de decodificación. Además, descubrimos que solo se requiere un número constante de páginas KV para preservar las capacidades de contexto extenso, independientemente de la longitud del contexto. Luego, diseñamos una política jerárquica de selección de páginas KV que poda dinámicamente las páginas KV basándose en la similitud centrada en la consulta. En promedio, LServe acelera el prefilling de LLMs hasta 2.9 veces y la decodificación entre 1.3 y 2.1 veces en comparación con vLLM, manteniendo la precisión en contextos extensos. El código está disponible en https://github.com/mit-han-lab/omniserve.

Escalando la Comprensión de Imágenes con Texto mediante la Generación Sintética de Datos Multimodales Guiada por Código
Scaling Text-Rich Image Understanding via Code-Guided Synthetic Multimodal Data Generation

Feb 20, 2025
Yue Yang, Ajay Patel, Matt Deitke, Tanmay Gupta, Luca Weihs, Andrew Head, Mark Yatskar, Chris Callison-Burch, Ranjay Krishna, Aniruddha Kembhavi, Christopher Clark
132

Razonar sobre imágenes con texto enriquecido, como gráficos y documentos, es una aplicación crítica de los modelos de visión y lenguaje (VLMs). Sin embargo, los VLMs a menudo enfrentan dificultades en estos dominios debido a la escasez de datos diversos de visión y lenguaje con texto enriquecido. Para abordar este desafío, presentamos CoSyn, un marco que aprovecha las capacidades de codificación de los modelos de lenguaje grandes (LLMs) basados únicamente en texto para crear automáticamente datos multimodales sintéticos con texto enriquecido. Dado un texto de entrada que describe un dominio objetivo (por ejemplo, "etiquetas de información nutricional"), CoSyn solicita a un LLM que genere código (Python, HTML, LaTeX, etc.) para renderizar imágenes sintéticas. Con el código subyacente como representaciones textuales de las imágenes sintéticas, CoSyn puede generar datos de ajuste por instrucción de alta calidad, nuevamente confiando en un LLM basado únicamente en texto. Utilizando CoSyn, construimos un conjunto de datos que comprende 400K imágenes y 2.7M filas de datos de ajuste por instrucción de visión y lenguaje. Experimentos exhaustivos en siete benchmarks demuestran que los modelos entrenados con nuestros datos sintéticos alcanzan un rendimiento de vanguardia entre los modelos de código abierto competitivos, incluyendo Llama 3.2, y superan a modelos propietarios como GPT-4V y Gemini 1.5 Flash. Además, CoSyn puede producir datos sintéticos de apuntamiento, permitiendo que los VLMs fundamenten información dentro de las imágenes de entrada, mostrando su potencial para desarrollar agentes multimodales capaces de actuar en entornos del mundo real.

De RAG a Memoria: Aprendizaje Continuo No Paramétrico para Modelos de Lenguaje a Gran Escala
From RAG to Memory: Non-Parametric Continual Learning for Large Language Models

Feb 20, 2025
Bernal Jiménez Gutiérrez, Yiheng Shu, Weijian Qi, Sizhe Zhou, Yu Su
132

Nuestra capacidad para adquirir, organizar y aprovechar conocimientos de manera continua es una característica clave de la inteligencia humana que los sistemas de IA deben aproximar para desbloquear todo su potencial. Dados los desafíos en el aprendizaje continuo con modelos de lenguaje grandes (LLMs, por sus siglas en inglés), la generación aumentada por recuperación (RAG, por sus siglas en inglés) se ha convertido en el método dominante para introducir nueva información. Sin embargo, su dependencia de la recuperación vectorial limita su capacidad para imitar la naturaleza dinámica e interconectada de la memoria a largo plazo humana. Los enfoques recientes de RAG aumentan los embeddings vectoriales con diversas estructuras, como grafos de conocimiento, para abordar algunas de estas limitaciones, específicamente la comprensión y la asociatividad. No obstante, su rendimiento en tareas más básicas de memoria factual disminuye considerablemente en comparación con el RAG estándar. Abordamos este deterioro no intencionado y proponemos HippoRAG 2, un marco que supera al RAG estándar de manera integral en tareas de memoria factual, de comprensión y asociativa. HippoRAG 2 se basa en el algoritmo Personalized PageRank utilizado en HippoRAG y lo mejora con una integración más profunda de pasajes y un uso más efectivo en línea de un LLM. Esta combinación acerca este sistema RAG a la eficacia de la memoria a largo plazo humana, logrando una mejora del 7% en tareas de memoria asociativa sobre el modelo de embedding más avanzado, al mismo tiempo que exhibe capacidades superiores de conocimiento factual y memoria de comprensión. Este trabajo allana el camino para el aprendizaje continuo no paramétrico en LLMs. Nuestro código y datos se publicarán en https://github.com/OSU-NLP-Group/HippoRAG.

RelaCtrl: Control Eficiente Guiado por Relevancia para Transformadores de Difusión
RelaCtrl: Relevance-Guided Efficient Control for Diffusion Transformers

Feb 20, 2025
Ke Cao, Jing Wang, Ao Ma, Jiasong Feng, Zhanjie Zhang, Xuanhua He, Shanyuan Liu, Bo Cheng, Dawei Leng, Yuhui Yin, Jie Zhang
122

El Transformer de Difusión juega un papel fundamental en el avance de la generación de texto a imagen y texto a video, principalmente debido a su escalabilidad inherente. Sin embargo, los métodos existentes de transformers de difusión controlada incurren en un gasto significativo de parámetros y computación, y sufren de una asignación ineficiente de recursos debido a su incapacidad para considerar la relevancia variable de la información de control en las diferentes capas del transformer. Para abordar esto, proponemos el marco de Generación Controlada Eficiente Guiada por Relevancia, RelaCtrl, que permite una integración eficiente y optimizada en recursos de las señales de control en el Transformer de Difusión. Primero, evaluamos la relevancia de cada capa en el Transformer de Difusión con respecto a la información de control mediante la evaluación del "Puntaje de Relevancia de ControlNet", es decir, el impacto de omitir cada capa de control tanto en la calidad de la generación como en la efectividad del control durante la inferencia. Basándonos en la fuerza de la relevancia, luego adaptamos la posición, la escala de parámetros y la capacidad de modelado de las capas de control para reducir parámetros innecesarios y cálculos redundantes. Además, para mejorar aún más la eficiencia, reemplazamos la auto-atención y la FFN en el bloque de copia comúnmente utilizado con el cuidadosamente diseñado Mezclador de Barajado Bidimensional (TDSM), permitiendo una implementación eficiente tanto del mezclador de tokens como del mezclador de canales. Los resultados experimentales cualitativos y cuantitativos demuestran que nuestro enfoque logra un rendimiento superior con solo el 15% de los parámetros y la complejidad computacional en comparación con PixArt-delta. Más ejemplos están disponibles en https://relactrl.github.io/RelaCtrl/.

NAVIG: Análisis Guiado por Lenguaje Natural con Modelos de Visión y Lenguaje para la Geo-localización de Imágenes
NAVIG: Natural Language-guided Analysis with Vision Language Models for Image Geo-localization

Feb 20, 2025
Zheyuan Zhang, Runze Li, Tasnim Kabir, Jordan Boyd-Graber
112

La geo-localización de imágenes es la tarea de predecir la ubicación específica de una imagen y requiere un razonamiento complejo que abarca contextos visuales, geográficos y culturales. Si bien los modelos previos de visión y lenguaje (VLMs) han logrado la mayor precisión en esta tarea, existe una escasez de conjuntos de datos y modelos de alta calidad para el razonamiento analítico. Primero, creamos NaviClues, un conjunto de datos de alta calidad derivado de GeoGuessr, un popular juego de geografía, para proporcionar ejemplos de razonamiento experto basado en lenguaje. Utilizando este conjunto de datos, presentamos Navig, un marco integral de geo-localización de imágenes que integra información global y detallada de las imágenes. Al razonar con lenguaje, Navig reduce el error de distancia promedio en un 14% en comparación con los modelos de última generación anteriores, mientras requiere menos de 1000 muestras de entrenamiento. Nuestro conjunto de datos y código están disponibles en https://github.com/SparrowZheyuan18/Navig/.

CLIPPER: La compresión permite la generación de datos sintéticos de contexto extenso
CLIPPER: Compression enables long-context synthetic data generation

Feb 20, 2025
Chau Minh Pham, Yapei Chang, Mohit Iyyer
102

Los desarrolladores de LLM dependen cada vez más de datos sintéticos, pero generar datos de alta calidad para tareas complejas de razonamiento de contexto largo sigue siendo un desafío. Presentamos CLIPPER, un enfoque basado en compresión para generar datos sintéticos adaptados a la verificación de afirmaciones narrativas, una tarea que requiere razonar sobre un libro para verificar una afirmación dada. En lugar de generar afirmaciones directamente a partir del texto crudo del libro, lo que resulta en afirmaciones plagadas de artefactos, CLIPPER primero comprime el libro en resúmenes de capítulos y resúmenes del libro, y luego utiliza estas representaciones intermedias para generar afirmaciones complejas y cadenas de pensamiento correspondientes. En comparación con enfoques ingenuos, CLIPPER produce afirmaciones que son más válidas, fundamentadas y complejas. Utilizando CLIPPER, construimos un conjunto de datos de 19K afirmaciones sintéticas de libros emparejadas con sus textos fuente y cadenas de pensamiento, y lo usamos para ajustar tres modelos de código abierto. Nuestro mejor modelo logra resultados innovadores en la verificación de afirmaciones narrativas (de 28% a 76% de precisión en nuestro conjunto de prueba) y establece un nuevo estado del arte para modelos sub-10B en el ranking NoCha. Un análisis adicional muestra que nuestros modelos generan cadenas de pensamiento más detalladas y fundamentadas, al mismo tiempo que mejoran el rendimiento en otras tareas de comprensión narrativa (por ejemplo, NarrativeQA).

Mejorando la Cognición y Explicabilidad de Modelos Fundacionales Multimodales con Datos Autosintetizados
Enhancing Cognition and Explainability of Multimodal Foundation Models with Self-Synthesized Data

Feb 19, 2025
Yucheng Shi, Quanzheng Li, Jin Sun, Xiang Li, Ninghao Liu
83

Los modelos multimodales grandes (LMMs, por sus siglas en inglés) han demostrado capacidades impresionantes en una amplia gama de tareas visuales. Sin embargo, a menudo tienen dificultades con el razonamiento visual detallado, fallando en identificar objetivos específicos del dominio y proporcionar explicaciones justificables para sus predicciones. Para abordar esto, proponemos un novedoso marco de muestreo por rechazo visual para mejorar la cognición y la explicabilidad de los LMMs utilizando datos autosintetizados. Específicamente, el ajuste fino visual requiere imágenes, consultas y respuestas objetivo. Nuestro enfoque comienza sintetizando respuestas interpretables que incluyen características visuales verificables por humanos. Estas características se basan en conceptos definidos por expertos, cuidadosamente seleccionados según su alineación con el contenido de la imagen. Después de cada ronda de ajuste fino, aplicamos un mecanismo de filtrado sin modelo de recompensa para seleccionar las respuestas interpretables de mayor calidad para la siguiente ronda de ajuste. Este proceso iterativo de síntesis de datos y ajuste fino mejora progresivamente la capacidad del modelo para generar explicaciones precisas y razonables. Los resultados experimentales demuestran la efectividad de nuestro método para mejorar tanto la precisión como la explicabilidad en tareas especializadas de clasificación visual.

Multimodal RewardBench: Evaluación Integral de Modelos de Recompensa para Modelos de Lenguaje y Visión
Multimodal RewardBench: Holistic Evaluation of Reward Models for Vision Language Models

Feb 20, 2025
Michihiro Yasunaga, Luke Zettlemoyer, Marjan Ghazvininejad
72

Los modelos de recompensa desempeñan un papel esencial en el entrenamiento de modelos de visión y lenguaje (VLMs) al evaluar la calidad de las salidas para permitir la alineación con las preferencias humanas. A pesar de su importancia, la comunidad investigadora carece de puntos de referencia abiertos y exhaustivos para evaluar modelos de recompensa multimodal en VLMs. Para abordar esta brecha, presentamos Multimodal RewardBench, un punto de referencia anotado por expertos que abarca seis dominios: corrección general, preferencia, conocimiento, razonamiento, seguridad y respuesta a preguntas visuales. Nuestro conjunto de datos comprende 5.211 tripletas anotadas (prompt, respuesta elegida, respuesta rechazada) recopiladas de varios VLMs. Al evaluar una gama de jueces VLM, encontramos que incluso los modelos con mejor rendimiento, Gemini 1.5 Pro y Claude 3.5 Sonnet, alcanzan solo un 72% de precisión general. Es notable que la mayoría de los modelos tienen dificultades en los dominios de razonamiento y seguridad. Estos hallazgos sugieren que Multimodal RewardBench ofrece un banco de pruebas desafiante para avanzar en el desarrollo de modelos de recompensa en múltiples dominios. Publicamos el punto de referencia en https://github.com/facebookresearch/multimodal_rewardbench.

Generación de Conjuntos de Datos de Skyline para Modelos de Ciencia de Datos
Generating Skyline Datasets for Data Science Models

Feb 16, 2025
Mengying Wang, Hanchao Ma, Yiyang Bian, Yangxin Fan, Yinghui Wu
72

La preparación de conjuntos de datos de alta calidad, requeridos por diversos modelos de IA y aprendizaje automático basados en datos, se ha convertido en una tarea fundamental en el análisis impulsado por datos. Los métodos convencionales de descubrimiento de datos suelen integrar conjuntos de datos hacia una única medida de calidad predefinida, lo que puede generar sesgos en las tareas posteriores. Este artículo presenta MODis, un marco que descubre conjuntos de datos optimizando múltiples medidas de rendimiento definidas por el usuario. Dado un conjunto de fuentes de datos y un modelo, MODis selecciona e integra las fuentes de datos en un conjunto de datos "skyline", sobre el cual se espera que el modelo tenga el rendimiento deseado en todas las medidas de rendimiento. Formulamos MODis como un transductor de estado finito multiobjetivo y derivamos tres algoritmos factibles para generar conjuntos de datos skyline. Nuestro primer algoritmo adopta una estrategia de "reducción desde lo universal", que comienza con un esquema universal y elimina iterativamente datos poco prometedores. Nuestro segundo algoritmo reduce aún más el costo mediante una estrategia bidireccional que intercala la ampliación y reducción de datos. También introducimos un algoritmo de diversificación para mitigar el sesgo en los conjuntos de datos skyline. Verificamos experimentalmente la eficiencia y efectividad de nuestros algoritmos de descubrimiento de datos skyline y demostramos sus aplicaciones en la optimización de pipelines de ciencia de datos.

Gestión de Perfiles de Usuario Basada en Modelos de Lenguaje de Gran Escala para Sistemas de Recomendación
LLM-based User Profile Management for Recommender System

Feb 20, 2025
Seunghwan Bang, Hwanjun Song
62

El rápido avance de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) ha abierto nuevas oportunidades en los sistemas de recomendación al permitir recomendaciones zero-shot sin entrenamiento convencional. A pesar de su potencial, la mayoría de los trabajos existentes se basan únicamente en los historiales de compra de los usuarios, dejando un margen significativo de mejora al incorporar datos textuales generados por los usuarios, como reseñas y descripciones de productos. Para abordar esta brecha, proponemos PURE, un novedoso marco de recomendación basado en LLMs que construye y mantiene perfiles de usuario en evolución al extraer y resumir sistemáticamente información clave de las reseñas de los usuarios. PURE consta de tres componentes principales: un Extractor de Reseñas para identificar las preferencias del usuario y las características clave del producto, un Actualizador de Perfiles para refinar y actualizar los perfiles de usuario, y un Recomendador para generar recomendaciones personalizadas utilizando el perfil más actualizado. Para evaluar PURE, introducimos una tarea de recomendación secuencial continua que refleja escenarios del mundo real al agregar reseñas a lo largo del tiempo y actualizar las predicciones de manera incremental. Nuestros resultados experimentales en conjuntos de datos de Amazon demuestran que PURE supera a los métodos basados en LLMs existentes, aprovechando eficazmente la información a largo plazo de los usuarios mientras gestiona las limitaciones de tokens.

Generación de Moléculas π-Funcionales Utilizando STGG+ con Aprendizaje Activo
Generating π-Functional Molecules Using STGG+ with Active Learning

Feb 20, 2025
Alexia Jolicoeur-Martineau, Yan Zhang, Boris Knyazev, Aristide Baratin, Cheng-Hao Liu
42

Generar moléculas novedosas con propiedades fuera de distribución es un desafío importante en el descubrimiento molecular. Si bien los métodos de aprendizaje supervisado generan moléculas de alta calidad similares a las de un conjunto de datos, tienen dificultades para generalizar a propiedades fuera de distribución. El aprendizaje por refuerzo puede explorar nuevos espacios químicos, pero a menudo incurre en "hackeo de recompensas" y genera moléculas no sintetizables. En este trabajo, abordamos este problema integrando un método de aprendizaje supervisado de vanguardia, STGG+, en un ciclo de aprendizaje activo. Nuestro enfoque genera, evalúa y ajusta iterativamente STGG+ para expandir continuamente su conocimiento. Denotamos este enfoque como STGG+AL. Aplicamos STGG+AL al diseño de materiales orgánicos pi-funcionales, específicamente a dos tareas desafiantes: 1) generar moléculas altamente absorbentes caracterizadas por una alta fuerza osciladora y 2) diseñar moléculas absorbentes con una fuerza osciladora razonable en el rango del infrarrojo cercano (NIR). Las moléculas generadas se validan y racionalizan in silico mediante la teoría del funcional de la densidad dependiente del tiempo. Nuestros resultados demuestran que nuestro método es altamente efectivo para generar moléculas novedosas con alta fuerza osciladora, a diferencia de métodos existentes como los de aprendizaje por refuerzo (RL). Hacemos público nuestro código de aprendizaje activo junto con nuestro conjunto de datos Conjugated-xTB, que contiene 2.9 millones de moléculas pi-conjugadas, y la función para aproximar la fuerza osciladora y la longitud de onda de absorción (basada en sTDA-xTB).

Optimización de Contraste Visual Simétrico: Alineación de Modelos de Visión-Lenguaje con Imágenes de Contraste Mínimas
Symmetrical Visual Contrastive Optimization: Aligning Vision-Language Models with Minimal Contrastive Images

Feb 19, 2025
Shengguang Wu, Fan-Yun Sun, Kaiyue Wen, Nick Haber
42

Estudios recientes han demostrado que los Modelos de Visión y Lenguaje a Gran Escala (VLMs, por sus siglas en inglés) tienden a descuidar el contenido de las imágenes y a depender en exceso de los conocimientos previos del modelo de lenguaje, lo que resulta en errores en tareas visualmente fundamentadas y en alucinaciones. Nuestra hipótesis es que este problema surge porque los VLMs existentes no están explícitamente entrenados para generar textos que se basen con precisión en detalles finos de las imágenes. Para mejorar la retroalimentación visual durante el entrenamiento de los VLMs, proponemos S-VCO (Optimización Visual Contrastiva Simétrica), un nuevo objetivo de ajuste fino que guía al modelo hacia la captura de detalles visuales importantes y su alineación con los tokens de texto correspondientes. Para facilitar aún más esta alineación detallada, presentamos MVC, un conjunto de datos de pares imagen-texto construido mediante el filtrado y aumento automático de datos visuales contrafactuales, con el fin de desafiar al modelo con casos contrastivos difíciles que involucran Contrastes Visuales Mínimos. Los experimentos muestran que nuestro método mejora consistentemente el rendimiento de los VLMs en diversos puntos de referencia que cubren múltiples habilidades y dominios, logrando una reducción de hasta el 22% en alucinaciones y avances significativos en tareas centradas en la visión y en tareas generales. Cabe destacar que estas mejoras se vuelven más pronunciadas en puntos de referencia con mayor dependencia visual. En resumen, S-VCO ofrece una mejora significativa en el rendimiento de los VLMs en tareas dependientes de la visión, al mismo tiempo que mantiene o incluso mejora las capacidades generales del modelo. Hemos publicado nuestro código en https://s-vco.github.io/.

Geolocalización con Datos de Juego de Humanos Reales: Un Conjunto de Datos a Gran Escala y un Marco de Razonamiento Similar al Humano
Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework

Feb 19, 2025
Zirui Song, Jingpu Yang, Yuan Huang, Jonathan Tonglet, Zeyu Zhang, Tao Cheng, Meng Fang, Iryna Gurevych, Xiuying Chen
42

La geolocalización, la tarea de identificar la ubicación de una imagen, requiere un razonamiento complejo y es crucial para la navegación, el monitoreo y la preservación cultural. Sin embargo, los métodos actuales suelen producir localizaciones imprecisas, poco detalladas y no interpretables. Un desafío importante radica en la calidad y escala de los conjuntos de datos de geolocalización existentes. Estos conjuntos de datos suelen ser de pequeña escala y construidos automáticamente, lo que genera datos ruidosos y una dificultad de tarea inconsistente, con imágenes que revelan respuestas demasiado fácilmente o carecen de pistas suficientes para una inferencia confiable. Para abordar estos desafíos, presentamos un marco integral de geolocalización con tres componentes clave: GeoComp, un conjunto de datos a gran escala; GeoCoT, un método de razonamiento novedoso; y GeoEval, una métrica de evaluación, diseñados colectivamente para abordar desafíos críticos e impulsar avances en la investigación de geolocalización. En el núcleo de este marco se encuentra GeoComp (Conjunto de Datos de Competencia de Geolocalización), un conjunto de datos a gran escala recopilado de una plataforma de juegos de geolocalización que involucró a 740 mil usuarios durante dos años. Este incluye 25 millones de entradas de metadatos y 3 millones de ubicaciones geoetiquetadas que abarcan gran parte del mundo, con cada ubicación anotada miles o decenas de miles de veces por usuarios humanos. El conjunto de datos ofrece diversos niveles de dificultad para un análisis detallado y resalta brechas clave en los modelos actuales. Basándonos en este conjunto de datos, proponemos Cadena de Pensamiento Geográfica (GeoCoT), un marco de razonamiento de múltiples pasos diseñado para mejorar las capacidades de razonamiento de los Modelos de Visión a Gran Escala (LVMs) en tareas de geolocalización. GeoCoT mejora el rendimiento al integrar pistas contextuales y espaciales a través de un proceso de múltiples pasos que imita el razonamiento humano de geolocalización. Finalmente, utilizando la métrica GeoEval, demostramos que GeoCoT aumenta significativamente la precisión de la geolocalización hasta en un 25%, al tiempo que mejora la interpretabilidad.

Atribución de Evidencia No Estructurada para la Generación de Resúmenes Enfocados en Consultas de Contexto Largo
Unstructured Evidence Attribution for Long Context Query Focused Summarization

Feb 20, 2025
Dustin Wright, Zain Muhammad Mujahid, Lu Wang, Isabelle Augenstein, David Jurgens
32

Los modelos de lenguaje a gran escala (LLMs) son capaces de generar resúmenes coherentes a partir de contextos muy largos dada una consulta del usuario. Extraer y citar adecuadamente los fragmentos de evidencia podría ayudar a mejorar la transparencia y fiabilidad de estos resúmenes. Al mismo tiempo, los LLMs presentan sesgos posicionales en cuanto a qué información comprenden y a qué atienden, lo que podría afectar la citación de evidencia. Mientras que trabajos previos se han centrado en la citación de evidencia con niveles de granularidad predefinidos (por ejemplo, oración, párrafo, documento, etc.), proponemos la tarea de resumen enfocado en consultas de contexto largo con citación de evidencia no estructurada. Mostramos cómo los sistemas existentes tienen dificultades para generar y citar adecuadamente evidencia no estructurada de su contexto, y que la evidencia tiende a "perderse en el medio". Para ayudar a mitigar esto, creamos el conjunto de datos Summaries with Unstructured Evidence Text (SUnsET), un conjunto de datos sintético generado mediante una novedosa canalización independiente del dominio que puede usarse como supervisión para adaptar los LLMs a esta tarea. Demostramos, a través de 5 LLMs de diferentes tamaños y 4 conjuntos de datos con tipos y longitudes de documentos variados, que los LLMs adaptados con datos de SUnsET generan evidencia más relevante y factualmente consistente que sus modelos base, extraen evidencia de ubicaciones más diversas en su contexto y pueden generar resúmenes más relevantes y consistentes.

¿Cuánto alucinan los LLM en diferentes idiomas? Sobre la estimación multilingüe de la alucinación de LLM en entornos reales
How Much Do LLMs Hallucinate across Languages? On Multilingual Estimation of LLM Hallucination in the Wild

Feb 18, 2025
Saad Obaid ul Islam, Anne Lauscher, Goran Glavaš
32

En la era de la desinformación, la alucinación —la tendencia de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) a generar respuestas no factuales o infieles— representa el principal riesgo para su utilidad global. A pesar de que los LLMs se están volviendo cada vez más multilingües, la gran mayoría de las investigaciones sobre la detección y cuantificación de la alucinación en LLMs son (a) centradas en el inglés y (b) se enfocan en la traducción automática (MT) y la resumenización, tareas que son menos comunes "en la vida real" que la búsqueda abierta de información. En contraste, nuestro objetivo es cuantificar el alcance de la alucinación en LLMs a través de idiomas en tareas de respuesta a preguntas extensas y de conocimiento intensivo. Para ello, entrenamos un modelo multilingüe de detección de alucinaciones y realizamos un estudio a gran escala en 30 idiomas y 6 familias de LLMs de código abierto. Partimos de un conjunto de datos en inglés para la detección de alucinaciones y utilizamos la traducción automática para generar datos de entrenamiento (ruidosos) en otros idiomas. También anotamos manualmente datos de referencia para cinco idiomas de alto recurso; luego demostramos, para estos idiomas, que las estimaciones de las tasas de alucinación son similares entre los conjuntos de prueba de plata (generados por LLMs) y los de referencia, validando así el uso de datos de plata para estimar las tasas de alucinación en otros idiomas. Para la estimación final de las tasas, construimos un conjunto de datos de preguntas y respuestas de conocimiento intensivo para 30 idiomas con indicaciones generadas por LLMs y artículos de Wikipedia como referencias. Encontramos que, aunque los LLMs generan respuestas más largas con más tokens alucinados para idiomas de mayor recurso, no existe una correlación entre las tasas de alucinación normalizadas por longitud de los idiomas y su representación digital. Además, observamos que los LLMs más pequeños exhiben tasas de alucinación más altas que los modelos más grandes.

Feb 20
Feb 21
Feb 24