HuggingFace Daily Papers

Papers Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Seleccionar fecha

15 papers found

Modelo Pequeño, Gran Lógica: La Optimización Basada en la Diversidad Despliega la Capacidad de Razonamiento de Modelos Grandes en VibeThinker-1.5B
Tiny Model, Big Logic: Diversity-Driven Optimization Elicits Large-Model Reasoning Ability in VibeThinker-1.5B

Nov 9

BySen Xu, Yi Zhou, Wei Wang, Jixin Min, Zhibin Yin, Yingwei Dai, Shixi Liu, Lianyu Pang, Yirong Chen, Junlin Zhang

125

Desafiando el consenso predominante de que los modelos pequeños carecen inherentemente de razonamiento robusto, este informe presenta VibeThinker-1.5B, un modelo denso de 1.500 millones de parámetros desarrollado mediante nuestro Principio de Espectro a Señal (SSP). Esto cuestiona el enfoque predominante de escalar parámetros del modelo para mejorar capacidades, como se observa en modelos como DeepSeek R1 (671B) y Kimi k2 (>1T). El marco SSP emplea primero una Destilación de Exploración de Diversidad en Dos Etapas (SFT) para generar un amplio espectro de soluciones, seguida de una Optimización de Políticas Guiada por Entropía Máxima (RL) para amplificar la señal correcta. Con un costo total de entrenamiento de solo $7,800, VibeThinker-1.5B demuestra capacidades de razonamiento superiores en comparación con modelos de código cerrado como Magistral Medium y Claude Opus 4, y rinde a la par con modelos de código abierto como GPT OSS-20B Medium. Notablemente, supera al 400 veces más grande DeepSeek R1 en tres benchmarks matemáticos: AIME24 (80.3 vs. 79.8), AIME25 (74.4 vs. 70.0) y HMMT25 (50.4 vs. 41.7). Esto representa una mejora sustancial respecto a su modelo base (6.7, 4.3 y 0.6, respectivamente). En LiveCodeBench V6, obtiene una puntuación de 51.1, superando los 50.3 de Magistral Medium y los 0.0 de su modelo base. Estos hallazgos demuestran que los modelos pequeños pueden lograr capacidades de razonamiento comparables a las de modelos grandes, reduciendo drásticamente los costos de entrenamiento e inferencia y democratizando así la investigación avanzada en IA.

Fundamentación de Agentes de Uso Informático en Demostraciones Humanas
Grounding Computer Use Agents on Human Demonstrations

Nov 10

ByAarash Feizi, Shravan Nayak, Xiangru Jian, Kevin Qinghong Lin, Kaixin Li, Rabiul Awal, Xing Han Lù, Johan Obando-Ceron, Juan A. Rodriguez, Nicolas Chapados, David Vazquez, Adriana Romero-Soriano, Reihaneh Rabbany, Perouz Taslakian, Christopher Pal, Spandana Gella, Sai Rajeswar

103

La construcción de agentes de uso informático confiables requiere una base sólida: conectar con precisión las instrucciones en lenguaje natural a los elementos correctos en pantalla. Si bien existen grandes conjuntos de datos para interacciones web y móviles, los recursos de alta calidad para entornos de escritorio son limitados. Para abordar esta brecha, presentamos GroundCUA, un conjunto de datos de anclaje a escritorio a gran escala construido a partir de demostraciones humanas expertas. Cubre 87 aplicaciones en 12 categorías e incluye 56K capturas de pantalla, con cada elemento en pantalla cuidadosamente anotado, sumando un total de más de 3.56 millones de anotaciones verificadas por humanos. A partir de estas demostraciones, generamos instrucciones diversas que capturan una amplia gama de tareas del mundo real, proporcionando datos de alta calidad para el entrenamiento de modelos. Utilizando GroundCUA, desarrollamos la familia de modelos GroundNext que mapean instrucciones a sus elementos de interfaz de usuario objetivo. Tanto en escalas de 3B como de 7B, GroundNext logra resultados de vanguardia en cinco puntos de referencia utilizando ajuste supervisado, mientras requiere menos de una décima parte de los datos de entrenamiento de trabajos anteriores. El entrenamiento posterior con aprendizaje por refuerzo mejora aún más el rendimiento, y cuando se evalúa en un entorno de agente en el benchmark OSWorld usando o3 como planificador, GroundNext alcanza resultados comparables o superiores a los modelos entrenados con sustancialmente más datos. Estos resultados demuestran el papel crítico de los conjuntos de datos de alta calidad y guiados por expertos en el avance de los agentes de uso informático de propósito general.

Refinamiento Adaptativo de Respuestas Multiagente en Sistemas Conversacionales
Adaptive Multi-Agent Response Refinement in Conversational Systems

Nov 11

BySoyeong Jeong, Aparna Elangovan, Emine Yilmaz, Oleg Rokhlenko

Los Modelos de Lenguaje a Gran Escala (LLM) han demostrado un éxito notable en sistemas conversacionales al generar respuestas similares a las humanas. Sin embargo, pueden presentar deficiencias, especialmente cuando se requiere tener en cuenta la personalización o conocimientos específicos. En entornos de la vida real, resulta poco práctico depender de que los usuarios detecten estos errores y soliciten una nueva respuesta. Una forma de abordar este problema es refinar la respuesta antes de devolvérsela al usuario. Si bien los enfoques existentes se centran en refinar respuestas dentro de un único LLM, este método lucha por considerar los diversos aspectos necesarios para conversaciones efectivas. En este trabajo, proponemos refinar las respuestas mediante un marco de múltiples agentes, donde cada agente asume un rol específico para cada aspecto. Nos centramos en tres aspectos clave cruciales para la calidad conversacional: factualidad, personalización y coherencia. Cada agente es responsable de revisar y refinar uno de estos aspectos, y sus aportaciones se combinan posteriormente para mejorar la respuesta general. Para mejorar la colaboración entre ellos, introducimos una estrategia de comunicación dinámica. En lugar de seguir una secuencia fija de agentes, nuestro enfoque selecciona y coordina de forma adaptativa a los agentes más relevantes según los requisitos específicos de cada consulta. Validamos nuestro marco en conjuntos de datos conversacionales complejos, demostrando que nuestro sistema supera significativamente a las líneas base relevantes, particularmente en tareas que involucran conocimiento, la personalidad del usuario, o ambas.

KLASS: Inferencia Rápida Guiada por KL en Modelos de Difusión Enmascarados
KLASS: KL-Guided Fast Inference in Masked Diffusion Models

Nov 7

BySeo Hyun Kim, Sunwoo Hong, Hojung Jung, Youngrok Park, Se-Young Yun

Los modelos de difusión enmascarada han demostrado resultados competitivos en diversas tareas, incluida la generación de lenguaje. Sin embargo, debido a su proceso de refinamiento iterativo, la inferencia suele verse limitada por una velocidad de muestreo lenta y estática. Para superar este problema, presentamos `KL-Adaptive Stability Sampling' (KLASS), un método de muestreo rápido pero eficaz que aprovecha la divergencia KL a nivel de token para identificar predicciones estables y de alta confianza. Al desenmascarar múltiples tokens en cada iteración sin necesidad de entrenamiento adicional del modelo, nuestro enfoque acelera significativamente la generación manteniendo la calidad de la muestra. En benchmarks de razonamiento, KLASS logra aceleraciones de hasta 2.78x en tiempo de ejecución, mejorando el rendimiento respecto a la decodificación codiciosa estándar y alcanzando resultados de vanguardia entre los muestreadores basados en difusión. Validamos además KLASS en diversos dominios, incluyendo generación de texto, imágenes y moléculas, demostrando su eficacia como un muestreador ampliamente aplicable en diferentes modelos.

Más allá del inglés: hacia una traducción automática multilingüe inclusiva y escalable con modelos de lenguaje grandes
Beyond English: Toward Inclusive and Scalable Multilingual Machine Translation with LLMs

Nov 10

ByYingfeng Luo, Ziqiang Xu, Yuxuan Ouyang, Murun Yang, Dingyang Lin, Kaiyan Chang, Tong Zheng, Bei Li, Peinan Feng, Quan Du, Tong Xiao, Jingbo Zhu

Los modelos de lenguaje grande han avanzado significativamente la Traducción Automática Multilingüe (TAM), sin embargo, la amplia cobertura lingüística, la calidad de traducción consistente y el sesgo centrado en el inglés siguen siendo desafíos pendientes. Para abordar estos desafíos, presentamos LMT, un conjunto de modelos de Traducción Multilingüe a Gran Escala centrados tanto en chino como en inglés, que cubre 60 idiomas y 234 direcciones de traducción. Durante el desarrollo, identificamos un fenómeno previamente pasado por alto: la degeneración direccional, donde los datos de ajuste fino multidireccionales simétricos enfatizan en exceso las direcciones inversas (X a En/Zh), conduciendo a un exceso de mapeos muchos-a-uno y a una calidad de traducción degradada. Proponemos el Muestreo Estratégico Inferior, un método simple pero efectivo para mitigar esta degeneración. Adicionalmente, diseñamos el Prompting Multilingüe Paralelo (PMP), que aprovecha idiomas auxiliares tipológicamente relacionados para mejorar la transferencia cross-lingüística. Mediante una rigurosa curación de datos y estrategias de adaptación refinadas, LMT logra un rendimiento de vanguardia entre modelos de cobertura lingüística comparable, superando nuestro modelo de 4B (LMT-60-4B) por un margen sustancial a modelos mucho más grandes como Aya-101-13B y NLLB-54B. Publicamos LMT en cuatro tamaños (0.6B/1.7B/4B/8B) para catalizar futuras investigaciones y proporcionar sólidas líneas base para una TAM inclusiva, escalable y de alta calidad \href{https://github.com/NiuTrans/LMT{https://github.com/NiuTrans/LMT}}.

El Camino No Tomado: RLVR Aprende de Manera Comprobada Fuera de los Principios Rectores
The Path Not Taken: RLVR Provably Learns Off the Principals

Nov 11

ByHanqing Zhu, Zhenyu Zhang, Hanxian Huang, DiJia Su, Zechun Liu, Jiawei Zhao, Igor Fedorov, Hamed Pirsiavash, Zhizhou Sha, Jinwon Lee, David Z. Pan, Zhangyang Wang, Yuandong Tian, Kai Sheng Tai

El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) mejora de manera confiable el rendimiento de razonamiento de los modelos de lenguaje grandes, aunque parece modificar solo una pequeña fracción de parámetros. Revisamos esta paradoja y demostramos que la dispersión es un artefacto superficial de un sesgo de optimización condicionado por el modelo: para un modelo preentrenado fijo, las actualizaciones se localizan consistentemente en regiones de parámetros preferidas, siendo altamente consistentes entre ejecuciones y en gran medida invariantes a conjuntos de datos y recetas de RL. Explicamos mecánicamente estas dinámicas con una Teoría de Tres Compuertas: la Compuerta I (Ancla KL) impone una actualización restringida por KL; la Compuerta II (Geometría del Modelo) dirige el paso fuera de las direcciones principales hacia subespacios de baja curvatura que preservan el espectro; y la Compuerta III (Precisión) oculta micro-actualizaciones en regiones no preferidas, haciendo que el sesgo fuera del espacio principal aparezca como dispersión. Luego validamos esta teoría y, por primera vez, proporcionamos una caracterización a nivel de parámetro de la dinámica de aprendizaje de RLVR: RLVR aprende fuera de las direcciones principales en el espacio de pesos, logrando ganancias mediante una deriva espectral mínima, una reducción de la rotación en el subespacio principal y una alineación de actualizaciones fuera de este. En contraste, el Fine-Tuning Supervisado (SFT) se dirige a los pesos principales, distorsiona el espectro e incluso se queda por detrás de RLVR. En conjunto, estos resultados proporcionan la primera explicación en el espacio de parámetros de la dinámica de entrenamiento de RLVR, revelando regularidades claras en cómo evolucionan los parámetros. Crucialmente, demostramos que la RL opera en un régimen de optimización distinto al del SFT, por lo que adaptar directamente métodos de fine-tuning eficiente en parámetros (PEFT) de la era del SFT puede ser erróneo, como lo evidencian nuestros estudios de caso sobre fine-tuning disperso avanzado y variantes de LoRA. Esperamos que este trabajo trace un camino hacia una comprensión de caja blanca de RLVR y el diseño de algoritmos de aprendizaje nativos para RLVR y conscientes de la geometría, en lugar de reutilizar heurísticas de la era del SFT.

Wasm: Una Canalización para la Construcción de Corpus Multimodales Árabes Estructurados con Datos Intercalados
Wasm: A Pipeline for Constructing Structured Arabic Interleaved Multimodal Corpora

Nov 10

ByKhalil Hennara, Ahmad Bastati, Muhammad Hreden, Mohamed Motasim Hamed, Zeina Aldallal, Sara Chrouf, Safwan AlModhayan

El rendimiento de los modelos de lenguaje grandes (LLM) y los modelos multimodales grandes (LMM) depende en gran medida de la calidad y escala de sus conjuntos de datos de pre-entrenamiento. Investigaciones recientes demuestran que los modelos multimodales grandes entrenados con documentos naturales donde las imágenes y el texto están intercalados superan a aquellos entrenados únicamente con pares imagen-texto en una amplia gama de benchmarks, aprovechando modelos pre-entrenados avanzados para reforzar la alineación semántica, la coherencia secuencial de imágenes y la cohesión textual. Sin embargo, para el árabe, la falta de conjuntos de datos multimodales de alta calidad que preserven la estructura de los documentos ha limitado el progreso. En este artículo, presentamos nuestro pipeline Wasm para procesar el conjunto de datos Common Crawl y crear un nuevo conjunto de datos multimodal para árabe que proporciona de forma única una salida en formato markdown. A diferencia de los corpus en árabe existentes que se centran únicamente en la extracción de texto, nuestro enfoque preserva la integridad estructural del contenido web manteniendo la flexibilidad para escenarios de pre-entrenamiento tanto de solo texto como multimodales. Ofrecemos un análisis comparativo exhaustivo de nuestro pipeline de procesamiento de datos frente a los utilizados para los principales conjuntos de datos existentes, destacando las convergencias en las estrategias de filtrado y justificando nuestras decisiones de diseño específicas. Para apoyar la investigación futura, publicamos un volcado de datos representativo junto con el pipeline de procesamiento multimodal para árabe.

VideoSSR: Aprendizaje por Refuerzo Autosupervisado para Video
VideoSSR: Video Self-Supervised Reinforcement Learning

Nov 9

ByZefeng He, Xiaoye Qu, Yafu Li, Siyuan Huang, Daizong Liu, Yu Cheng

El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) ha avanzado sustancialmente las capacidades de comprensión de vídeo de los Modelos de Lenguaje Grandes Multimodales (MLLM). Sin embargo, el rápido progreso de los MLLM está superando la complejidad de los conjuntos de datos de vídeo existentes, mientras que la anotación manual de nuevos datos de alta calidad sigue siendo prohibitivamente costosa. Este trabajo investiga una pregunta fundamental: ¿Se puede aprovechar la información intrínseca y rica dentro de los vídeos para autogenerar datos de entrenamiento de alta calidad y verificables? Para investigarlo, presentamos tres tareas de pretexto auto-supervisadas: Anclaje de Anomalías, Conteo de Objetos y Rompecabezas Temporal. Construimos el Benchmark de Comprensión Intrínseca de Vídeo (VIUBench) para validar su dificultad, revelando que los MLLM más avanzados actuales tienen dificultades significativas en estas tareas. Sobre la base de estas tareas de pretexto, desarrollamos el conjunto de datos VideoSSR-30K y proponemos VideoSSR, un novedoso marco de aprendizaje por refuerzo auto-supervisado para vídeo aplicado a RLVR. Experimentos exhaustivos en 17 benchmarks, que abarcan cuatro dominios principales de vídeo (QA de Vídeo General, QA de Vídeo Largo, Anclaje Temporal y Razonamiento Complejo), demuestran que VideoSSR mejora consistentemente el rendimiento del modelo, produciendo una mejora promedio de más del 5%. Estos resultados establecen a VideoSSR como un marco fundamental potente para desarrollar una comprensión de vídeo más avanzada en los MLLM. El código está disponible en https://github.com/lcqysl/VideoSSR.

Más allá de la recuperación de hechos: Memoria episódica para RAG con espacios semánticos generativos
Beyond Fact Retrieval: Episodic Memory for RAG with Generative Semantic Workspaces

Nov 10

ByShreyas Rajesh, Pavan Holur, Chenda Duan, David Chong, Vwani Roychowdhury

Los Modelos de Lenguaje a Gran Escala (LLM) enfrentan desafíos fundamentales en el razonamiento de contexto largo: muchos documentos exceden sus ventanas de contexto finitas, mientras que el rendimiento en textos que sí encajan se degrada con la longitud de la secuencia, lo que hace necesario su aumento con marcos de memoria externos. Las soluciones actuales, que han evolucionado desde la recuperación mediante incrustaciones semánticas hasta representaciones más sofisticadas basadas en grafos de conocimiento estructurado para mejorar la construcción de sentido y la asociatividad, están diseñadas para la recuperación basada en hechos y no logran construir las representaciones narrativas ancladas en el espacio-tiempo necesarias para rastrear entidades a través de eventos episódicos. Para cerrar esta brecha, proponemos el Espacio de Trabajo Semántico Generativo (GSW), un marco de memoria generativa de inspiración neuronal que construye representaciones estructuradas e interpretables de situaciones en evolución, permitiendo a los LLM razonar sobre roles, acciones y contextos espaciotemporales dinámicos. Nuestro marco consta de un Operador, que mapea observaciones entrantes a estructuras semánticas intermedias, y un Reconciliador, que las integra en un espacio de trabajo persistente que impone coherencia temporal, espacial y lógica. En el Benchmark de Memoria Episódica (EpBench) huet_episodic_2025, que comprende corpus con longitudes que van desde 100k hasta 1M de tokens, GSW supera a los baselines existentes basados en RAG hasta en un 20%. Además, GSW es altamente eficiente, reduciendo los tokens de contexto en tiempo de consulta en un 51% en comparación con el siguiente baseline más eficiente en tokens, lo que reduce considerablemente los costos de tiempo de inferencia. En términos más amplios, GSW ofrece un plan concreto para dotar a los LLM de una memoria episódica similar a la humana, allanando el camino para agentes más capaces que puedan razonar sobre horizontes largos.

Inteligencia por Vatio: Medición de la Eficiencia Intelectual de la IA Local
Intelligence per Watt: Measuring Intelligence Efficiency of Local AI

Nov 11

ByJon Saad-Falcon, Avanika Narayan, Hakki Orhun Akengin, J. Wes Griffin, Herumb Shandilya, Adrian Gamarra Lafuente, Medhya Goel, Rebecca Joseph, Shlok Natarajan, Etash Kumar Guha, Shang Zhu, Ben Athiwaratkun, John Hennessy, Azalia Mirhoseini, Christopher Ré

Las consultas a modelos de lenguaje grandes (LLM) se procesan predominantemente mediante modelos de vanguardia en infraestructuras de nube centralizadas. La demanda de rápido crecimiento tensiona este paradigma, y los proveedores de nube tienen dificultades para escalar la infraestructura al mismo ritmo. Dos avances nos permiten replantearnos este paradigma: los modelos de lenguaje pequeños (<=20.000 millones de parámetros activos) ahora logran un rendimiento competitivo frente a los modelos de vanguardia en muchas tareas, y los aceleradores locales (por ejemplo, Apple M4 Max) ejecutan estos modelos con latencias interactivas. Esto plantea la pregunta: ¿puede la inferencia local redistribuir de forma viable la demanda de la infraestructura centralizada? Responder a esto requiere medir si los LM locales pueden responder con precisión a consultas del mundo real y si pueden hacerlo con la suficiente eficiencia como para ser prácticos en dispositivos con limitaciones de potencia (es decir, portátiles). Proponemos la inteligencia por vatio (IPW), precisión en la tarea dividida por unidad de potencia, como métrica para evaluar la capacidad y la eficiencia de la inferencia local en pares modelo-acelerador. Realizamos un estudio empírico a gran escala con más de 20 modelos locales de última generación, 8 aceleradores y un subconjunto representativo del tráfico de LLM: 1 millón de consultas reales de chat de un solo turno y de razonamiento. Para cada consulta, medimos la precisión, la energía, la latencia y la potencia. Nuestro análisis revela 3 hallazgos. Primero, los LM locales pueden responder con precisión al 88,7% de las consultas de chat y razonamiento de un solo turno, variando la precisión según el dominio. Segundo, desde 2023 hasta 2025, el IPW mejoró 5,3 veces y la cobertura de consultas locales aumentó del 23,2% al 71,3%. Tercero, los aceleradores locales logran al menos 1,4 veces menos IPW que los aceleradores en la nube que ejecutan modelos idénticos, lo que revela un margen de optimización significativo. Estos hallazgos demuestran que la inferencia local puede redistribuir significativamente la demanda de la infraestructura centralizada, sirviendo el IPW como la métrica crítica para rastrear esta transición. Publicamos nuestro sistema de perfilado de IPW para la evaluación comparativa sistemática de la inteligencia por vatio.

DynaAct: Razonamiento con Modelos de Lenguaje Grandes en Espacios de Acción Dinámicos
DynaAct: Large Language Model Reasoning with Dynamic Action Spaces

Nov 11

ByXueliang Zhao, Wei Wu, Jian Guan, Qintong Li, Lingpeng Kong

En los sistemas modernos de toma de decisiones secuenciales, la construcción de un espacio de acciones candidato óptimo es crucial para una inferencia eficiente. Sin embargo, los enfoques existentes dependen de espacios de acción definidos manualmente que carecen de escalabilidad o utilizan espacios no estructurados que hacen que la búsqueda exhaustiva sea computacionalmente prohibitiva. En este artículo, proponemos un nuevo marco denominado DynaAct para construir automáticamente un espacio de acción compacto que mejore el razonamiento secuencial en escenarios complejos de resolución de problemas. Nuestro método primero estima un proxy del espacio de acción completo extrayendo esquemas generales observados en un corpus que abarca diversos problemas de razonamiento complejo utilizando modelos de lenguaje grandes. Luego, formulamos una función submodular que evalúa conjuntamente las acciones candidato en función de su utilidad para el estado actual y su diversidad, y empleamos un algoritmo voraz para seleccionar un conjunto candidato óptimo. Experimentos exhaustivos en seis benchmarks estándar diversos demuestran que nuestro enfoque mejora significativamente el rendimiento general, manteniendo una inferencia eficiente sin introducir una latencia sustancial. La implementación está disponible en https://github.com/zhaoxlpku/DynaAct.

Caminando por la Cuerda Floja de los LLM para el Desarrollo de Software: Una Perspectiva de los Profesionales
Walking the Tightrope of LLMs for Software Development: A Practitioners' Perspective

Nov 9

BySamuel Ferino, Rashina Hoda, John Grundy, Christoph Treude

**Antecedentes:** Los Modelos de Lenguaje a Gran Escala (LLM) surgieron con el potencial de provocar una revolución en el desarrollo de software (por ejemplo, automatizando procesos, transformando la fuerza laboral). Aunque los estudios han comenzado a investigar el impacto percibido de los LLM en el desarrollo de software, existe la necesidad de estudios empíricos para comprender cómo equilibrar los efectos positivos y negativos de su uso. **Objetivo:** Investigamos cómo impactan los LLM en el desarrollo de software y cómo gestionar dicho impacto desde la perspectiva de un desarrollador de software. **Método:** Realizamos 22 entrevistas con profesionales del software a lo largo de 3 rondas de recolección y análisis de datos, entre octubre de 2024 y septiembre de 2025. Empleamos la Teoría Fundamentada Socio-Técnica (STGT) para el análisis de datos, con el fin de analizar rigurosamente las respuestas de los participantes en las entrevistas. **Resultados:** Identificamos los beneficios (por ejemplo, mantener el flujo de desarrollo de software, mejorar el modelo mental de los desarrolladores y fomentar el espíritu empresarial) y las desventajas (por ejemplo, el impacto negativo en la personalidad de los desarrolladores y el daño a su reputación) del uso de LLM a nivel individual, de equipo, organizacional y social; así como las mejores prácticas sobre cómo adoptar los LLM. **Conclusión:** Es crucial destacar que presentamos las compensaciones (trade-offs) a las que se enfrentan los profesionales, equipos y organizaciones de software al trabajar con LLM. Nuestros hallazgos son particularmente útiles para los líderes de equipos de software y los gerentes de TI para evaluar la viabilidad de los LLM dentro de su contexto específico.

Optimización de la Diversidad y la Calidad mediante la Colaboración de Modelos Alineados con la Base
Optimizing Diversity and Quality through Base-Aligned Model Collaboration

Nov 7

ByYichen Wang, Chenghao Yang, Tenghao Huang, Muhao Chen, Jonathan May, Mina Lee

La alineación ha mejorado enormemente la calidad de las salidas de los grandes modelos de lenguaje (LLM) a costa de la diversidad, produciendo resultados muy similares entre generaciones. Proponemos Base-Aligned Model Collaboration (BACo), un marco de colaboración entre modelos a nivel de token durante la inferencia que combina dinámicamente un LLM base con su contraparte alineada para optimizar la diversidad y la calidad. Inspirado por trabajos previos (Fei et al., 2025), BACo emplea estrategias de enrutamiento que determinan, para cada token, de qué modelo decodificar basándose en la incertidumbre de la predicción del siguiente token y el rol semántico del contenido predicho. Los métodos previos para promover la diversidad, como el reentrenamiento, la ingeniería de prompts y los métodos de muestreo múltiple, mejoran la diversidad pero a menudo degradan la calidad o requieren procesos costosos de decodificación o post-entrenamiento. En contraste, BACo logra simultáneamente alta diversidad y calidad *post hoc* en una sola pasada, ofreciendo además una fuerte controlabilidad. Exploramos una familia de estrategias de enrutamiento; a través de tres tareas de generación abierta y 13 métricas que cubren diversidad y calidad, BACo supera consistentemente los métodos de última generación en el momento de inferencia. Con nuestro mejor enrutador, BACo logra una mejora conjunta del 21.3% en diversidad y calidad. Las evaluaciones humanas también reflejan estas mejoras. Los resultados sugieren que la colaboración entre modelos base y alineados puede optimizar y controlar la diversidad y la calidad.

TimeSearch-R: Búsqueda Temporal Adaptativa para la Comprensión de Videos de Larga Duración mediante Aprendizaje por Refuerzo de Autoverificación
TimeSearch-R: Adaptive Temporal Search for Long-Form Video Understanding via Self-Verification Reinforcement Learning

Nov 7

ByJunwen Pan, Qizhe Zhang, Rui Zhang, Ming Lu, Xin Wan, Yuan Zhang, Chang Liu, Qi She

La búsqueda temporal tiene como objetivo identificar un conjunto mínimo de fotogramas relevantes entre decenas de miles basándose en una consulta dada, sirviendo como base para una comprensión precisa de videos de larga duración. Los trabajos existentes intentan reducir progresivamente el espacio de búsqueda. Sin embargo, estos enfoques suelen depender de un proceso de búsqueda manualmente diseñado, careciendo de una optimización integral (end-to-end) para aprender estrategias de búsqueda óptimas. En este artículo, proponemos TimeSearch-R, que reformula la búsqueda temporal como un pensamiento intercalado texto-video, integrando de manera fluida la búsqueda de clips de video en el proceso de razonamiento mediante aprendizaje por refuerzo (RL). No obstante, aplicar métodos de entrenamiento de RL, como la Optimización de Políticas Relativas Grupales (GRPO), al razonamiento con videos puede resultar en decisiones de búsqueda intermedias no supervisadas. Esto conduce a una exploración insuficiente del contenido del video y a un razonamiento lógico inconsistente. Para abordar estos problemas, introducimos GRPO con Autoverificación de Completitud (GRPO-CSV), que reúne los fotogramas de video buscados durante el proceso de razonamiento intercalado y utiliza el mismo modelo de política para verificar la idoneidad de los fotogramas buscados, mejorando así la integridad del razonamiento visual. Adicionalmente, construimos conjuntos de datos específicamente diseñados para el arranque en frío mediante SFT y el entrenamiento RL de GRPO-CSV, filtrando muestras con dependencias temporales débiles para aumentar la dificultad de la tarea y mejorar las capacidades de búsqueda temporal. Experimentos exhaustivos demuestran que TimeSearch-R logra mejoras significativas en benchmarks de búsqueda temporal como Haystack-LVBench y Haystack-Ego4D, así como en benchmarks de comprensión de videos largos como VideoMME y MLVU. Cabe destacar que TimeSearch-R establece un nuevo estado del arte en LongVideoBench con una mejora del 4.1% sobre el modelo base Qwen2.5-VL y del 2.0% sobre el avanzado modelo de razonamiento visual Video-R1. Nuestro código está disponible en https://github.com/Time-Search/TimeSearch-R.

BiCA: Recuperación Densa Biomédica Eficaz con Negativos Duros Conscientes de las Citas
BiCA: Effective Biomedical Dense Retrieval with Citation-Aware Hard Negatives

Nov 11

ByAarush Sinha, Pavan Kumar S, Roshan Balaji, Nirav Pravinbhai Bhatt

Los ejemplos negativos difíciles son esenciales para entrenar modelos de recuperación efectivos. La minería de negativos difíciles generalmente se basa en clasificar documentos utilizando codificadores cruzados o modelos de incrustación estáticos basados en métricas de similitud como la distancia coseno. La minería de negativos difíciles se vuelve compleja en dominios biomédicos y científicos debido a la dificultad para distinguir entre el documento fuente y los documentos negativos difíciles. Sin embargo, los documentos referenciados comparten naturalmente relevancia contextual con el documento fuente sin ser duplicados, lo que los hace idóneos como negativos difíciles. En este trabajo, proponemos BiCA: Recuperación Densa Biomédica con Negativos Difíciles Conscientes de Citas, un enfoque para la minería de negativos difíciles que utiliza enlaces de citas en 20,000 artículos de PubMed para mejorar un recuperador denso pequeño específico del dominio. Ajustamos los modelos GTE_small y GTE_Base utilizando estos negativos informados por citas y observamos mejoras consistentes en la recuperación densa zero-shot utilizando nDCG@10 tanto para tareas dentro del dominio como fuera del dominio en BEIR, superando los baselines en temas de cola larga en LoTTE usando Success@5. Nuestros hallazgos resaltan el potencial de aprovechar la estructura de enlaces entre documentos para generar negativos altamente informativos, permitiendo un rendimiento de vanguardia con un ajuste mínimo y demostrando un camino hacia la adaptación de dominio altamente eficiente en datos.

Inteligencia por Vatio: Medición de la Eficiencia Intelectual de la IA Local
Intelligence per Watt: Measuring Intelligence Efficiency of Local AI

Nov 11