ChatPaper.aiChatPaper.ai
Inicio

arXiv

HuggingFace

PreciosCuentaEspacio de trabajo

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: [email protected]

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Sesgos geopolíticos en los LLM: ¿cuáles son los países "buenos" y "malos" según los modelos de lenguaje contemporáneos?
Geopolitical biases in LLMs: what are the "good" and the "bad" countries according to contemporary language models

Jun 7, 2025
Mikhail Salnikov, Dmitrii Korzh, Ivan Lazichny, Elvir Karimov, Artyom Iudin, Ivan Oseledets, Oleg Y. Rogov, Alexander Panchenko, Natalia Loukachevitch, Elena Tutubalina
622

Este artículo evalúa los sesgos geopolíticos en los modelos de lenguaje de gran escala (LLMs) con respecto a varios países mediante un análisis de su interpretación de eventos históricos con perspectivas nacionales conflictivas (EE. UU., Reino Unido, URSS y China). Introducimos un nuevo conjunto de datos con descripciones neutrales de eventos y puntos de vista contrastantes de diferentes países. Nuestros hallazgos muestran sesgos geopolíticos significativos, con modelos que favorecen narrativas nacionales específicas. Además, las indicaciones simples para reducir el sesgo tuvieron un efecto limitado en la disminución de estos sesgos. Los experimentos con etiquetas de participantes manipuladas revelan la sensibilidad de los modelos a la atribución, a veces amplificando los sesgos o reconociendo inconsistencias, especialmente con etiquetas intercambiadas. Este trabajo destaca los sesgos en las narrativas nacionales en los LLMs, cuestiona la efectividad de los métodos simples para reducir el sesgo y ofrece un marco y un conjunto de datos para futuras investigaciones sobre sesgos geopolíticos.

La Reconstrucción Visual Semántica Autoregresiva Ayuda a los VLMs a Comprender Mejor
Autoregressive Semantic Visual Reconstruction Helps VLMs Understand Better

Jun 10, 2025
Dianyi Wang, Wei Song, Yikun Wang, Siyuan Wang, Kaicheng Yu, Zhongyu Wei, Jiaqi Wang
322

Los modelos grandes de visión y lenguaje (LVLMs, por sus siglas en inglés) típicamente aplican supervisión autorregresiva únicamente a secuencias textuales, sin incorporar plenamente la modalidad visual en el proceso de aprendizaje. Esto resulta en tres limitaciones clave: (1) la incapacidad de utilizar imágenes sin subtítulos acompañantes, (2) el riesgo de que los subtítulos omitan detalles visuales críticos, y (3) el desafío de que cierto contenido centrado en la visión no pueda transmitirse adecuadamente a través del texto. Como resultado, los LVLMs actuales suelen priorizar la alineación visión-lenguaje, mientras que potencialmente pasan por alto información visual detallada. Aunque algunos trabajos previos han explorado la generación autorregresiva de imágenes, aprovechar eficazmente la supervisión visual autorregresiva para mejorar la comprensión de imágenes sigue siendo un desafío abierto. En este artículo, presentamos la Reconstrucción Visual Semántica Autorregresiva (ASVR, por sus siglas en inglés), que permite el aprendizaje conjunto de las modalidades visual y textual dentro de un marco autorregresivo unificado. Demostramos que reconstruir autorregresivamente la apariencia visual cruda de las imágenes no mejora e incluso puede perjudicar la comprensión multimodal. En contraste, reconstruir autorregresivamente la representación semántica de las imágenes mejora consistentemente la comprensión. Notablemente, encontramos que incluso cuando los modelos reciben características de imagen continuas como entrada, pueden reconstruir eficazmente tokens semánticos discretos, lo que resulta en mejoras estables y consistentes en una amplia gama de benchmarks de comprensión multimodal. Nuestro enfoque ofrece ganancias significativas de rendimiento en diversas escalas de datos (556k-2M) y tipos de backbones de LLM. Específicamente, ASVR mejora LLaVA-1.5 en un 5% en las puntuaciones promedio en 14 benchmarks multimodales. El código está disponible en https://github.com/AlenjandroWang/ASVR.

RuleReasoner: Razonamiento Basado en Reglas Reforzado mediante Muestreo Dinámico Consciente del Dominio
RuleReasoner: Reinforced Rule-based Reasoning via Domain-aware Dynamic Sampling

Jun 10, 2025
Yang Liu, Jiaqi Li, Zilong Zheng
283

El razonamiento basado en reglas ha sido reconocido como uno de los problemas fundamentales en el razonamiento, mientras que las desviaciones en los formatos, tipos y complejidad de las reglas en aplicaciones del mundo real plantean desafíos significativos. Estudios recientes han demostrado que los modelos de razonamiento de gran escala (LRMs, por sus siglas en inglés) poseen capacidades de razonamiento notables, y su rendimiento se ve sustancialmente mejorado mediante el aprendizaje por refuerzo (RL, por sus siglas en inglés). Sin embargo, sigue siendo una pregunta abierta si los modelos de razonamiento de pequeña escala (SRMs, por sus siglas en inglés) pueden aprender el razonamiento basado en reglas de manera efectiva con una generalización robusta en diversas tareas y dominios. Para abordar esto, presentamos el Razonamiento Basado en Reglas Reforzado, también conocido como RuleReasoner, un método simple pero efectivo para llevar a cabo el razonamiento basado en reglas mediante una amplia colección de tareas curadas y un novedoso enfoque de muestreo dinámico consciente del dominio. Específicamente, RuleReasoner remuestrea cada lote de entrenamiento actualizando los pesos de muestreo de diferentes dominios en función de las recompensas históricas. Esto facilita la ampliación de dominios y la implementación de horarios de aprendizaje en línea flexibles para RL, eliminando la necesidad de recetas de entrenamiento mixto predefinidas por humanos utilizadas en métodos existentes. Las evaluaciones empíricas en puntos de referencia de distribución interna (ID) y distribución externa (OOD) revelan que RuleReasoner supera a los LRMs de vanguardia por un margen significativo (Delta4.1% puntos promedio en ocho tareas ID y Delta10.4% puntos promedio en tres tareas OOD sobre OpenAI-o1). Notablemente, nuestro enfoque también exhibe una mayor eficiencia computacional en comparación con métodos de muestreo dinámico previos para RL.

Ver Voces: Generación de Video A-Roll a partir de Audio con Mirage
Seeing Voices: Generating A-Roll Video from Audio with Mirage

Jun 9, 2025
Aditi Sundararaman, Amogh Adishesha, Andrew Jaegle, Dan Bigioi, Hyoung-Kyu Song, Jon Kyl, Justin Mao, Kevin Lan, Mojtaba Komeili, ShahRukh Athar, Sheila Babayan, Stanislau Beliasau, William Buchwalter
222

Desde el cine profesional hasta el contenido generado por usuarios, creadores y consumidores han reconocido desde hace tiempo que el poder del video depende de la integración armoniosa de lo que escuchamos (la pista de audio del video) con lo que vemos (la secuencia de imágenes del video). Los enfoques actuales para la generación de video ignoran el sonido para centrarse en la generación de secuencias de imágenes de propósito general pero silenciosas, o abordan tanto los elementos visuales como los auditivos pero se enfocan en dominios de aplicación restringidos, como el redoblaje. Presentamos Mirage, un modelo base de audio a video que sobresale en la generación de imágenes realistas y expresivas desde cero a partir de una entrada de audio. Cuando se integra con métodos existentes de síntesis de voz (texto a voz, o TTS), Mirage produce videos multimodales convincentes. Cuando se entrena con material audiovisual de personas hablando (A-roll) y se condiciona con audio que contiene habla, Mirage genera videos de personas que ofrecen una interpretación creíble de la actuación implícita en el audio de entrada. Nuestra contribución técnica central es un método unificado para entrenar modelos de generación de audio a video basados en autoatención, ya sea desde cero o a partir de pesos existentes. Esta metodología permite que Mirage mantenga su generalidad como enfoque para la generación de audio a video, mientras produce resultados de calidad subjetiva superior a los métodos que incorporan arquitecturas específicas para audio o componentes de pérdida específicos para personas, habla o detalles sobre cómo se capturan las imágenes o el audio. Animamos a los lectores a ver y escuchar los resultados de Mirage por sí mismos (consulte el artículo y los comentarios para obtener enlaces).

Guía de Marcos: Orientación sin Entrenamiento para el Control a Nivel de Marcos en Modelos de Difusión de Video
Frame Guidance: Training-Free Guidance for Frame-Level Control in Video Diffusion Models

Jun 8, 2025
Sangwon Jang, Taekyung Ki, Jaehyeong Jo, Jaehong Yoon, Soo Ye Kim, Zhe Lin, Sung Ju Hwang
192

Los avances en los modelos de difusión han mejorado significativamente la calidad de los videos, enfocando la atención en la controlabilidad de detalles finos. Sin embargo, muchos métodos existentes dependen del ajuste fino de modelos de video a gran escala para tareas específicas, lo que se vuelve cada vez más impracticable a medida que los tamaños de los modelos continúan creciendo. En este trabajo, presentamos Frame Guidance, una guía sin entrenamiento para la generación controlada de videos basada en señales a nivel de fotograma, como fotogramas clave, imágenes de referencia de estilo, bocetos o mapas de profundidad. Para una guía práctica sin entrenamiento, proponemos un método simple de procesamiento latente que reduce drásticamente el uso de memoria y aplicamos una novedosa estrategia de optimización latente diseñada para la generación de videos globalmente coherentes. Frame Guidance permite un control efectivo en diversas tareas, incluyendo guía de fotogramas clave, estilización y bucles, sin necesidad de entrenamiento y compatible con cualquier modelo de video. Los resultados experimentales muestran que Frame Guidance puede producir videos controlados de alta calidad para una amplia gama de tareas y señales de entrada.

Alineación de Texto, Imágenes y Estructura 3D Token por Token
Aligning Text, Images, and 3D Structure Token-by-Token

Jun 9, 2025
Aadarsh Sahoo, Vansh Tibrewal, Georgia Gkioxari
172

Crear máquinas capaces de comprender el mundo en 3D es fundamental para asistir a diseñadores que construyen y editan entornos tridimensionales, así como a robots que navegan e interactúan dentro de un espacio tridimensional. Inspirados por los avances en el modelado de lenguaje e imágenes, investigamos el potencial de los modelos autorregresivos para una nueva modalidad: escenas 3D estructuradas. Con este fin, proponemos un marco unificado de LLM que alinea lenguaje, imágenes y escenas 3D, y proporcionamos un "manual detallado" que describe las decisiones críticas de diseño para lograr un entrenamiento y rendimiento óptimos, abordando preguntas clave relacionadas con la representación de datos, objetivos específicos de modalidad y más. Evaluamos el rendimiento en cuatro tareas principales en 3D —renderizado, reconocimiento, seguimiento de instrucciones y respuesta a preguntas— y en cuatro conjuntos de datos 3D, tanto sintéticos como del mundo real. Extendemos nuestro enfoque para reconstruir formas complejas de objetos 3D enriqueciendo nuestra modalidad 3D con codificaciones cuantizadas de formas, y demostramos la efectividad de nuestro modelo en tareas de reconocimiento de objetos 3D del mundo real. Página del proyecto: https://glab-caltech.github.io/kyvo/

Auto-forzamiento: Cerrando la brecha entre entrenamiento y prueba en difusión de video autoregresivo
Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion

Jun 9, 2025
Xun Huang, Zhengqi Li, Guande He, Mingyuan Zhou, Eli Shechtman
162

Presentamos Self Forcing, un paradigma de entrenamiento novedoso para modelos de difusión de video autorregresivos. Este enfoque aborda el problema persistente del sesgo de exposición, donde los modelos entrenados con contexto de verdad fundamental deben generar secuencias condicionadas a sus propias salidas imperfectas durante la inferencia. A diferencia de métodos anteriores que eliminan ruido en fotogramas futuros basándose en fotogramas de contexto de verdad fundamental, Self Forcing condiciona la generación de cada fotograma a salidas previamente autogeneradas mediante la ejecución autorregresiva con almacenamiento en caché de clave-valor (KV) durante el entrenamiento. Esta estrategia permite la supervisión a través de una pérdida holística a nivel de video que evalúa directamente la calidad de toda la secuencia generada, en lugar de depender únicamente de objetivos tradicionales por fotograma. Para garantizar la eficiencia del entrenamiento, empleamos un modelo de difusión de pocos pasos junto con una estrategia de truncamiento de gradiente estocástico, equilibrando efectivamente el costo computacional y el rendimiento. Además, introducimos un mecanismo de caché KV dinámico que permite la extrapolación de video autorregresiva eficiente. Experimentos exhaustivos demuestran que nuestro enfoque logra la generación de video en tiempo real con latencia de menos de un segundo en una sola GPU, igualando o incluso superando la calidad de generación de modelos de difusión significativamente más lentos y no causales. Sitio web del proyecto: http://self-forcing.github.io/

Resolución de Demostraciones de Desigualdades con Modelos de Lenguaje de Gran Escala
Solving Inequality Proofs with Large Language Models

Jun 9, 2025
Jiayi Sheng, Luna Lyu, Jikai Jin, Tony Xia, Alex Gu, James Zou, Pan Lu
162

La demostración de desigualdades, crucial en diversos campos científicos y matemáticos, pone a prueba habilidades avanzadas de razonamiento, como el descubrimiento de cotas ajustadas y la aplicación estratégica de teoremas. Esto la convierte en una frontera distintiva y exigente para los modelos de lenguaje de gran escala (LLMs), ofreciendo perspectivas más allá de la resolución general de problemas matemáticos. El progreso en esta área se ve obstaculizado por conjuntos de datos existentes que suelen ser escasos, sintéticos o excesivamente formales. Abordamos este problema proponiendo una formulación de tarea informal pero verificable, transformando la demostración de desigualdades en dos subtareas automáticamente verificables: estimación de cotas y predicción de relaciones. Basándonos en esto, lanzamos IneqMath, un conjunto de datos curado por expertos que contiene desigualdades de nivel olímpico, incluyendo un conjunto de prueba y un corpus de entrenamiento enriquecido con soluciones paso a paso y anotaciones de teoremas. También desarrollamos un marco de evaluación novedoso basado en LLM-como-juez, combinando un juez de respuesta final con cuatro jueces paso a paso diseñados para detectar errores comunes de razonamiento. Una evaluación sistemática de 29 LLMs líderes en IneqMath revela una realidad sorprendente: incluso los mejores modelos, como o1, logran menos del 10% de precisión general bajo un escrutinio paso a paso; esto representa una caída de hasta el 65,5% en comparación con su precisión al considerar solo la equivalencia de la respuesta final. Esta discrepancia expone cadenas deductivas frágiles y una brecha crítica para los LLMs actuales entre simplemente encontrar una respuesta y construir una demostración rigurosa. Escalar el tamaño del modelo y aumentar la computación en tiempo de prueba produce ganancias limitadas en la corrección general de las demostraciones. En cambio, nuestros hallazgos destacan direcciones de investigación prometedoras, como el razonamiento guiado por teoremas y la autorrefinación. El código y los datos están disponibles en https://ineqmath.github.io/.

Mira Antes de Saltar: Un Modelo GUI-Critic-R1 para el Diagnóstico de Errores Preoperatorios en la Automatización de Interfaces Gráficas
Look Before You Leap: A GUI-Critic-R1 Model for Pre-Operative Error Diagnosis in GUI Automation

Jun 5, 2025
Yuyang Wanyan, Xi Zhang, Haiyang Xu, Haowei Liu, Junyang Wang, Jiabo Ye, Yutong Kou, Ming Yan, Fei Huang, Xiaoshan Yang, Weiming Dong, Changsheng Xu
152

En los últimos años, los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han sido ampliamente utilizados para tareas de razonamiento multimodal, incluyendo la automatización de Interfaces Gráficas de Usuario (GUI). A diferencia de las tareas multimodales generales realizadas fuera de línea, la automatización de GUI se ejecuta en entornos interactivos en línea, lo que requiere una toma de decisiones paso a paso basada en el estado en tiempo real del entorno. Esta tarea tiene una menor tolerancia a errores en la toma de decisiones en cada paso, ya que cualquier error puede acumularse, interrumpir el proceso y potencialmente llevar a resultados irreversibles, como eliminaciones o pagos. Para abordar estos problemas, introducimos un mecanismo de crítica preoperativa que proporciona retroalimentación efectiva antes de la ejecución real, razonando sobre el resultado potencial y la corrección de las acciones. Específicamente, proponemos una estrategia de Optimización de Política Relativa con Gradiente Consciente de Sugerencias (S-GRPO, por sus siglas en inglés) para construir nuestro modelo de crítica preoperativa GUI-Critic-R1, incorporando una nueva recompensa de sugerencia para mejorar la confiabilidad de la retroalimentación del modelo. Además, desarrollamos una canalización de recolección de datos basada en razonamiento incremental para crear un conjunto de datos de entrenamiento (GUI-Critic-Train) y otro de prueba (GUI-Critic-Test), llenando así los vacíos existentes en los datos de crítica de GUI. Los experimentos estáticos en el conjunto GUI-Critic-Test, tanto en dominios móviles como web, revelan que nuestro GUI-Critic-R1 ofrece ventajas significativas en precisión de crítica en comparación con los MLLMs actuales. La evaluación dinámica en un punto de referencia de automatización de GUI destaca aún más la efectividad y superioridad de nuestro modelo, evidenciada por tasas de éxito mejoradas y una mayor eficiencia operativa.

Squeeze3D: Tu Modelo de Generación 3D es en Realidad un Compresor Neural Extremo
Squeeze3D: Your 3D Generation Model is Secretly an Extreme Neural Compressor

Jun 9, 2025
Rishit Dagli, Yushi Guan, Sankeerth Durvasula, Mohammadreza Mofayezi, Nandita Vijaykumar
92

Proponemos Squeeze3D, un marco novedoso que aprovecha el conocimiento previo implícito aprendido por modelos generativos 3D preentrenados existentes para comprimir datos 3D con ratios de compresión extremadamente altos. Nuestro enfoque conecta los espacios latentes entre un codificador preentrenado y un modelo generativo preentrenado a través de redes de mapeo entrenables. Cualquier modelo 3D representado como una malla, una nube de puntos o un campo de radiancia es primero codificado por el codificador preentrenado y luego transformado (es decir, comprimido) en un código latente altamente compacto. Este código latente puede utilizarse efectivamente como una representación extremadamente comprimida de la malla o la nube de puntos. Una red de mapeo transforma el código latente comprimido en el espacio latente de un potente modelo generativo, el cual luego es condicionado para recrear el modelo 3D original (es decir, descompresión). Squeeze3D se entrena completamente con datos sintéticos generados y no requiere ningún conjunto de datos 3D. La arquitectura de Squeeze3D puede utilizarse de manera flexible con codificadores 3D preentrenados existentes y modelos generativos existentes. Puede soportar de manera flexible diferentes formatos, incluyendo mallas, nubes de puntos y campos de radiancia. Nuestros experimentos demuestran que Squeeze3D alcanza ratios de compresión de hasta 2187x para mallas texturizadas, 55x para nubes de puntos y 619x para campos de radiancia, manteniendo una calidad visual comparable a muchos métodos existentes. Squeeze3D solo incurre en una pequeña latencia de compresión y descompresión, ya que no implica el entrenamiento de redes específicas para comprimir un objeto.

ECoRAG: Compresión Guiada por Evidencialidad para RAG de Contexto Largo
ECoRAG: Evidentiality-guided Compression for Long Context RAG

Jun 5, 2025
Yeonseok Jeong, Jinsu Kim, Dohyeon Lee, Seung-won Hwang
82

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado un rendimiento notable en la Respuesta a Preguntas de Dominio Abierto (ODQA, por sus siglas en inglés) al aprovechar documentos externos mediante la Generación Aumentada por Recuperación (RAG, por sus siglas en inglés). Para reducir la sobrecarga de RAG, especialmente en contextos más extensos, es necesaria la compresión del contexto. Sin embargo, los métodos de compresión previos no se centran en filtrar la información no evidencial, lo que limita el rendimiento en RAG basado en LLMs. Por ello, proponemos el marco de RAG Guiado por Evidencialidad, o ECoRAG. ECoRAG mejora el rendimiento de los LLMs al comprimir los documentos recuperados en función de la evidencialidad, asegurando que la generación de respuestas esté respaldada por la evidencia correcta. Como paso adicional, ECoRAG evalúa si el contenido comprimido proporciona evidencia suficiente y, de no ser así, recupera más información hasta alcanzar la suficiencia. Los experimentos muestran que ECoRAG mejora el rendimiento de los LLMs en tareas de ODQA, superando a los métodos de compresión existentes. Además, ECoRAG es altamente eficiente en costos, ya que no solo reduce la latencia sino que también minimiza el uso de tokens al retener únicamente la información necesaria para generar la respuesta correcta. El código está disponible en https://github.com/ldilab/ECoRAG.

ARRRASTRADOS a conflictos: Detección y abordaje de fuentes conflictivas en LLMs aumentados con búsqueda
DRAGged into Conflicts: Detecting and Addressing Conflicting Sources in Search-Augmented LLMs

Jun 10, 2025
Arie Cattan, Alon Jacovi, Ori Ram, Jonathan Herzig, Roee Aharoni, Sasha Goldshtein, Eran Ofek, Idan Szpektor, Avi Caciularu
72

La Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) es un enfoque comúnmente utilizado para mejorar los modelos de lenguaje de gran escala (LLMs) con información relevante y actualizada. Sin embargo, las fuentes recuperadas a menudo pueden contener información conflictiva, y no está claro cómo los modelos deberían abordar tales discrepancias. En este trabajo, primero proponemos una taxonomía novedosa de tipos de conflictos de conocimiento en RAG, junto con el comportamiento deseado del modelo para cada tipo. Luego, presentamos CONFLICTS, un punto de referencia de alta calidad con anotaciones expertas de tipos de conflictos en un entorno realista de RAG. CONFLICTS es el primer punto de referencia que permite rastrear el progreso sobre cómo los modelos abordan una amplia gama de conflictos de conocimiento. Realizamos experimentos extensos en este punto de referencia, mostrando que los LLMs a menudo tienen dificultades para resolver adecuadamente los conflictos entre las fuentes. Si bien el hecho de solicitar a los LLMs que razonen explícitamente sobre el potencial conflicto en los documentos recuperados mejora significativamente la calidad y la pertinencia de sus respuestas, aún queda un margen sustancial para la mejora en futuras investigaciones.

Detección Interpretable y Confiable de Imágenes Generadas por IA mediante Razonamiento Fundamentado en MLLMs
Interpretable and Reliable Detection of AI-Generated Images via Grounded Reasoning in MLLMs

Jun 8, 2025
Yikun Ji, Hong Yan, Jun Lan, Huijia Zhu, Weiqiang Wang, Qi Fan, Liqing Zhang, Jianfu Zhang
72

El rápido avance de las tecnologías de generación de imágenes intensifica la demanda de métodos de detección interpretables y robustos. Aunque los enfoques existentes suelen alcanzar una alta precisión, generalmente operan como cajas negras sin proporcionar justificaciones comprensibles para los humanos. Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs), aunque no fueron concebidos originalmente para la detección de falsificaciones, exhiben fuertes capacidades analíticas y de razonamiento. Cuando se ajustan adecuadamente, pueden identificar eficazmente imágenes generadas por IA y ofrecer explicaciones significativas. Sin embargo, los MLLMs existentes aún luchan con la alucinación y a menudo no logran alinear sus interpretaciones visuales con el contenido real de la imagen y el razonamiento humano. Para cerrar esta brecha, construimos un conjunto de datos de imágenes generadas por IA anotadas con cuadros delimitadores y descripciones que resaltan los artefactos de síntesis, estableciendo una base para un razonamiento visual-textual fundamentado y alineado con los humanos. Luego, ajustamos los MLLMs mediante una estrategia de optimización en múltiples etapas que equilibra progresivamente los objetivos de detección precisa, localización visual y explicación textual coherente. El modelo resultante logra un rendimiento superior tanto en la detección de imágenes generadas por IA como en la localización de defectos visuales, superando significativamente a los métodos de referencia.

Libros Institucionales 1.0: Un conjunto de datos de 242B tokens extraídos de las colecciones de la Biblioteca de Harvard, refinado para precisión y usabilidad
Institutional Books 1.0: A 242B token dataset from Harvard Library's collections, refined for accuracy and usability

Jun 10, 2025
Matteo Cargnelutti, Catherine Brobston, John Hess, Jack Cushman, Kristi Mukk, Aristana Scourtas, Kyle Courtney, Greg Leppert, Amanda Watson, Martha Whitehead, Jonathan Zittrain
63

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) utilizan datos para aprender sobre el mundo con el fin de producir correlaciones y predicciones significativas. Como tal, la naturaleza, escala, calidad y diversidad de los conjuntos de datos utilizados para entrenar estos modelos, o para respaldar su funcionamiento durante la inferencia, tienen un impacto directo en su calidad. El rápido desarrollo y adopción de LLMs de calidad variable ha puesto de manifiesto la escasez de datos de entrenamiento de alta calidad disponibles públicamente y ha revelado la necesidad urgente de fundamentar la gestión de estos conjuntos de datos en prácticas sostenibles con cadenas de procedencia claras. Con este fin, este informe técnico presenta Institutional Books 1.0, una gran colección de libros de dominio público originalmente digitalizados a través de la participación de la Biblioteca de Harvard en el proyecto Google Books, que comenzó en 2006. En colaboración con la Biblioteca de Harvard, extrajimos, analizamos y procesamos estos volúmenes en un conjunto de datos extensamente documentado de textos históricos. Este análisis abarca la totalidad de la colección de la Biblioteca de Harvard escaneada como parte de ese proyecto, que originalmente comprendía 1,075,899 volúmenes escritos en más de 250 idiomas diferentes, con un total de aproximadamente 250 mil millones de tokens. Como parte de esta primera publicación, el texto extraído mediante OCR (original y postprocesado), así como los metadatos (bibliográficos, de origen y generados) de los 983,004 volúmenes, o 242 mil millones de tokens, identificados como de dominio público, han sido puestos a disposición. Este informe describe los objetivos y métodos de este proyecto, así como los resultados de los análisis realizados, todo con el propósito de hacer que esta colección histórica sea más accesible y más fácil de filtrar, leer y utilizar tanto para humanos como para máquinas.

Pensar vs. Actuar: Agentes que Razonan mediante la Escalabilidad de la Interacción en Tiempo de Prueba
Thinking vs. Doing: Agents that Reason by Scaling Test-Time Interaction

Jun 9, 2025
Junhong Shen, Hao Bai, Lunjun Zhang, Yifei Zhou, Amrith Setlur, Shengbang Tong, Diego Caples, Nan Jiang, Tong Zhang, Ameet Talwalkar, Aviral Kumar
62

El paradigma actual de escalado en tiempo de prueba se basa en generar trazas de razonamiento largas ("pensar" más) antes de producir una respuesta. En problemas de agentes que requieren interacción, esto puede hacerse generando trazas de pensamiento antes de actuar en el mundo. Sin embargo, este proceso no permite que los agentes adquieran nueva información del entorno ni adapten su comportamiento con el tiempo. En este trabajo, proponemos escalar la interacción en tiempo de prueba, una dimensión inexplorada del escalado en tiempo de prueba que aumenta el horizonte de interacción del agente para permitir la ejecución de comportamientos complejos, como exploración, retroceso y replanificación dinámica, dentro de una única ejecución. Para demostrar el potencial de esta dimensión de escalado, estudiamos el dominio de los agentes web. Primero mostramos que incluso el escalado de interacción basado en prompts, sin ningún entrenamiento, puede mejorar significativamente el éxito en tareas en benchmarks web. Sobre esta base, introducimos TTI (Test-Time Interaction), un enfoque de aprendizaje por refuerzo (RL) en línea basado en un currículo que entrena a los agentes ajustando adaptativamente la duración de sus ejecuciones. Utilizando un modelo Gemma 3 12B, TTI produce agentes web de código abierto y datos abiertos de última generación en los benchmarks WebVoyager y WebArena. Además, demostramos que TTI permite a los agentes equilibrar adaptativamente la exploración y la explotación. Nuestros resultados establecen el escalado de interacción como un eje poderoso y complementario al escalado de cómputo por paso, ofreciendo nuevas vías para entrenar agentes adaptativos.

DiscoVLA: Reducción de Discrepancias en Visión, Lenguaje y Alineación para la Recuperación Eficiente en Parámetros de Vídeo-Texto
DiscoVLA: Discrepancy Reduction in Vision, Language, and Alignment for Parameter-Efficient Video-Text Retrieval

Jun 10, 2025
Leqi Shen, Guoqiang Gong, Tianxiang Hao, Tao He, Yifeng Zhang, Pengzhang Liu, Sicheng Zhao, Jungong Han, Guiguang Ding
42

La adaptación eficiente en parámetros del modelo de preentrenamiento de imagen-texto CLIP para la recuperación de video-texto es un área destacada de investigación. Mientras que CLIP se centra en la correspondencia visión-lenguaje a nivel de imagen, la recuperación de video-texto exige una comprensión integral a nivel de video. Surgen tres discrepancias clave en la transferencia de nivel de imagen a nivel de video: visión, lenguaje y alineación. Sin embargo, los métodos existentes se enfocan principalmente en la visión, descuidando el lenguaje y la alineación. En este artículo, proponemos la Reducción de Discrepancias en Visión, Lenguaje y Alineación (DiscoVLA), que mitiga simultáneamente las tres discrepancias. Específicamente, introducimos la Fusión de Características de Imagen-Video para integrar características a nivel de imagen y video, abordando efectivamente las discrepancias de visión y lenguaje. Además, generamos pseudo-leyendas de imágenes para aprender una alineación fina a nivel de imagen. Para mitigar las discrepancias de alineación, proponemos la Destilación de Alineación de Imagen a Video, que aprovecha el conocimiento de alineación a nivel de imagen para mejorar la alineación a nivel de video. Experimentos extensivos demuestran la superioridad de nuestro DiscoVLA. En particular, en MSRVTT con CLIP (ViT-B/16), DiscoVLA supera a los métodos anteriores en un 1.5% en R@1, alcanzando una puntuación final de 50.5% R@1. El código está disponible en https://github.com/LunarShen/DsicoVLA.

MoA: Mezcla Heterogénea de Adaptadores para el Ajuste Fino Eficiente en Parámetros de Modelos de Lenguaje a Gran Escala
MoA: Heterogeneous Mixture of Adapters for Parameter-Efficient Fine-Tuning of Large Language Models

Jun 6, 2025
Jie Cao, Tianwei Lin, Hongyang He, Rolan Yan, Wenqiao Zhang, Juncheng Li, Dongping Zhang, Siliang Tang, Yueting Zhuang
42

Estudios recientes integran la Adaptación de Bajo Rango (LoRA) y la Mezcla de Expertos (MoE) para mejorar aún más el rendimiento de los métodos de ajuste fino eficiente en parámetros (PEFT) en aplicaciones de Modelos de Lenguaje de Gran Escala (LLM). Los métodos existentes emplean arquitecturas MoE-LoRA homogéneas compuestas por expertos LoRA con estructuras y capacidades similares o idénticas. Sin embargo, estos enfoques suelen sufrir de colapso de representación y desequilibrio en la carga de expertos, lo que impacta negativamente el potencial de los LLM. Para abordar estos desafíos, proponemos un enfoque heterogéneo de Mezcla de Adaptadores (MoA). Este método integra dinámicamente expertos adaptadores PEFT con estructuras diversas, aprovechando sus capacidades representativas complementarias para fomentar la especialización de expertos, mejorando así la transferencia efectiva de conocimiento preentrenado a tareas posteriores. MoA admite dos variantes: (i) Soft MoA logra una integración de grano fino mediante una fusión ponderada de todas las salidas de los expertos; (ii) Sparse MoA activa los adaptadores expertos de manera dispersa según su contribución, logrando esto con una degradación de rendimiento insignificante. Los resultados experimentales demuestran que MoA heterogéneo supera a los métodos MoE-LoRA homogéneos tanto en rendimiento como en eficiencia de parámetros. Nuestro proyecto está disponible en https://github.com/DCDmllm/MoA.

Mathesis: Hacia la Demostración Formal de Teoremas a partir de Lenguajes Naturales
Mathesis: Towards Formal Theorem Proving from Natural Languages

Jun 8, 2025
Yu Xuejun, Jianyuan Zhong, Zijin Feng, Pengyi Zhai, Roozbeh Yousefzadeh, Wei Chong Ng, Haoxiong Liu, Ziyi Shou, Jing Xiong, Yudong Zhou, Claudia Beth Ong, Austen Jeremy Sugiarto, Yaoxi Zhang, Wai Ming Tai, Huan Cao, Dongcai Lu, Jiacheng Sun, Qiang Xu, Shen Xin, Zhenguo Li
32

Los avances recientes en los modelos de lenguaje de gran escala muestran un fuerte potencial para el razonamiento formal. Sin embargo, la mayoría de los demostradores de teoremas basados en LLM han estado limitados durante mucho tiempo por la necesidad de declaraciones formales escritas por expertos como entradas, lo que restringe su aplicabilidad a problemas del mundo real expresados en lenguaje natural. Abordamos esta brecha con Mathesis, la primera pipeline de demostración de teoremas de extremo a extremo que procesa enunciados informales de problemas. Contribuye con Mathesis-Autoformalizer, el primer autoformalizador que utiliza aprendizaje por refuerzo para mejorar la capacidad de formalización de problemas en lenguaje natural, apoyado por nuestro novedoso marco LeanScorer para la evaluación matizada de la calidad de la formalización. También propone un Mathesis-Prover, que genera demostraciones formales a partir de las declaraciones formalizadas. Para evaluar la aplicabilidad en el mundo real de la demostración formal de teoremas de extremo a extremo, presentamos Gaokao-Formal, un benchmark de 488 problemas complejos del examen nacional de ingreso a la universidad en China. Nuestro enfoque está cuidadosamente diseñado, con un estudio exhaustivo de cada componente. Los experimentos demuestran la efectividad de Mathesis, con el autoformalizador superando al mejor modelo de referencia en un 22% en la tasa de aprobación en Gaokao-Formal. El sistema completo supera a otras combinaciones de modelos, logrando un 64% de precisión en MiniF2F con pass@32 y un 18% de vanguardia en Gaokao-Formal.

RKEFino1: Un Modelo de Lenguaje de Gran Escala Mejorado con Conocimiento Regulatorio
RKEFino1: A Regulation Knowledge-Enhanced Large Language Model

Jun 6, 2025
Yan Wang, Yueru He, Ruoyu Xiang, Jeff Zhao
32

Los recientes avances en los modelos de lenguaje de gran escala (LLMs) ofrecen un gran potencial para aplicaciones financieras, pero introducen desafíos críticos de precisión y cumplimiento en la Presentación Digital Regulatoria (DRR). Para abordar estos problemas, proponemos RKEFino1, un modelo de razonamiento financiero mejorado con conocimiento regulatorio, construido sobre Fino1 y ajustado con conocimiento del dominio de XBRL, CDM y MOF. Formulamos dos tareas de preguntas y respuestas: basadas en conocimiento y razonamiento matemático, e introducimos una nueva tarea de Reconocimiento de Entidades Numéricas (NER) que cubre entidades financieras tanto en oraciones como en tablas. Los resultados experimentales demuestran la efectividad y capacidad de generalización de RKEFino1 en tareas financieras críticas para el cumplimiento. Hemos publicado nuestro modelo en Hugging Face.

MMRefine: Revelando los Obstáculos para un Refinamiento Robusto en Modelos de Lenguaje Multimodales de Gran Escala
MMRefine: Unveiling the Obstacles to Robust Refinement in Multimodal Large Language Models

Jun 5, 2025
Gio Paik, Geewook Kim, Jinbae Im
32

Este artículo presenta MMRefine, un benchmark de Refinamiento Multimodal diseñado para evaluar las capacidades de refinamiento de errores de los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés). A medida que el enfoque se desplaza hacia la mejora del razonamiento durante la inferencia, MMRefine proporciona un marco que evalúa las habilidades de los MLLMs para detectar y corregir errores en seis escenarios distintos, más allá de simplemente comparar la precisión final antes y después del refinamiento. Además, el benchmark analiza el rendimiento de refinamiento categorizando los errores en seis tipos. Los experimentos con diversos MLLMs abiertos y cerrados revelan cuellos de botella y factores que obstaculizan el rendimiento de refinamiento, destacando áreas de mejora en la potenciación efectiva del razonamiento. Nuestro código y conjunto de datos están disponibles públicamente en https://github.com/naver-ai/MMRefine.

QQSUM: Una Tarea y Modelo Novedosos de Resumen Cuantitativo Centrado en Consultas para la Respuesta a Preguntas sobre Productos Basada en Reseñas
QQSUM: A Novel Task and Model of Quantitative Query-Focused Summarization for Review-based Product Question Answering

Jun 4, 2025
An Quang Tang, Xiuzhen Zhang, Minh Ngoc Dinh, Zhuang Li
22

La Respuesta a Preguntas sobre Productos basada en Reseñas (PQA, por sus siglas en inglés) permite a las plataformas de comercio electrónico abordar automáticamente las consultas de los clientes aprovechando los conocimientos extraídos de las reseñas de usuarios. Sin embargo, los sistemas PQA existentes generan respuestas con una sola perspectiva, sin capturar la diversidad de opiniones de los clientes. En este artículo, presentamos una nueva tarea denominada Resumen Cuantitativo Enfocado en Consultas (QQSUM), cuyo objetivo es resumir las diversas opiniones de los clientes en Puntos Clave (KPs, por sus siglas en inglés) representativos y cuantificar su prevalencia para responder eficazmente a las consultas de los usuarios. Aunque la Generación Aumentada con Recuperación (RAG, por sus siglas en inglés) muestra potencial para PQA, las respuestas generadas aún no logran capturar la diversidad completa de puntos de vista. Para abordar este desafío, nuestro modelo QQSUM-RAG, que extiende RAG, emplea aprendizaje con pocos ejemplos para entrenar conjuntamente un recuperador orientado a KPs y un generador de resúmenes de KPs, lo que permite resúmenes basados en KPs que capturan opiniones diversas y representativas. Los resultados experimentales demuestran que QQSUM-RAG logra un rendimiento superior en comparación con los modelos RAG de última generación, tanto en la calidad textual como en la precisión de la cuantificación de opiniones. Nuestro código fuente está disponible en: https://github.com/antangrocket1312/QQSUMM.

Jun 10
Jun 11
Jun 12