Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

GHOST 2.0: transferencia generativa de alta fidelidad de cabezas en una sola toma
GHOST 2.0: generative high-fidelity one shot transfer of heads

Feb 25

ByAlexander Groshev, Anastasiia Iashchenko, Pavel Paramonov, Denis Dimitrov, Andrey Kuznetsov

Kanana: Modelos de Lenguaje Bilingües con Eficiencia Computacional
Kanana: Compute-efficient Bilingual Language Models

Feb 26

ByKanana LLM Team, Yunju Bak, Hojin Lee, Minho Ryu, Jiyeon Ham, Seungjae Jung, Daniel Wontae Nam, Taegyeong Eo, Donghun Lee, Doohae Jung, Boseop Kim, Nayeon Kim, Jaesun Park, Hyunho Kim, Hyunwoong Ko, Changmin Lee, Kyoung-Woon On, Seulye Baeg, Junrae Cho, Sunghee Jung, Jieun Kang, EungGyun Kim, Eunhwa Kim, Byeongil Ko, Daniel Lee, Minchul Lee, Miok Lee, Shinbok Lee, Gaeun Seo

Presentamos Kanana, una serie de modelos de lenguaje bilingües que demuestran un rendimiento excepcional en coreano y un desempeño competitivo en inglés. El costo computacional de Kanana es significativamente menor que el de los modelos de última generación de tamaño similar. El informe detalla las técnicas empleadas durante el preentrenamiento para lograr modelos eficientes en términos de cómputo pero competitivos, incluyendo el filtrado de datos de alta calidad, el preentrenamiento por etapas, el escalado de profundidad, y la poda y destilación. Además, el informe describe las metodologías utilizadas durante el postentrenamiento de los modelos Kanana, abarcando el ajuste fino supervisado y la optimización de preferencias, con el objetivo de mejorar su capacidad para interactuar de manera fluida con los usuarios. Por último, el informe profundiza en los enfoques plausibles utilizados para la adaptación de modelos de lenguaje a escenarios específicos, como la incrustación, la generación aumentada por recuperación y la llamada a funciones. La serie de modelos Kanana abarca desde 2.1B hasta 32.5B parámetros, con modelos de 2.1B (base, instruct, embedding) liberados públicamente para fomentar la investigación en modelos de lenguaje coreanos.

Hacia un co-científico de IA
Towards an AI co-scientist

Feb 26

ByJuraj Gottweis, Wei-Hung Weng, Alexander Daryin, Tao Tu, Anil Palepu, Petar Sirkovic, Artiom Myaskovsky, Felix Weissenberger, Keran Rong, Ryutaro Tanno, Khaled Saab, Dan Popovici, Jacob Blum, Fan Zhang, Katherine Chou, Avinatan Hassidim, Burak Gokturk, Amin Vahdat, Pushmeet Kohli, Yossi Matias, Andrew Carroll, Kavita Kulkarni, Nenad Tomasev, Yuan Guan, Vikram Dhillon, Eeshit Dhaval Vaishnav, Byron Lee, Tiago R D Costa, José R Penadés, Gary Peltz, Yunhan Xu, Annalisa Pawlosky, Alan Karthikesalingam, Vivek Natarajan

El descubrimiento científico depende de que los científicos generen hipótesis novedosas que se sometan a una validación experimental rigurosa. Para potenciar este proceso, presentamos un co-científico de IA, un sistema multiagente basado en Gemini 2.0. Este co-científico de IA está diseñado para ayudar a descubrir conocimiento nuevo y original, así como para formular hipótesis y propuestas de investigación demostrablemente novedosas, basándose en evidencia previa y alineadas con los objetivos y orientaciones proporcionados por los científicos. El diseño del sistema incorpora un enfoque de generación, debate y evolución de hipótesis, inspirado en el método científico y acelerado mediante la escalabilidad del cómputo en tiempo de prueba. Las contribuciones clave incluyen: (1) una arquitectura multiagente con un marco de ejecución de tareas asíncrono para una escalabilidad flexible del cómputo; (2) un proceso de evolución por torneo para la automejora en la generación de hipótesis. Las evaluaciones automatizadas muestran beneficios continuos del cómputo en tiempo de prueba, mejorando la calidad de las hipótesis. Aunque es de propósito general, enfocamos el desarrollo y la validación en tres áreas biomédicas: reutilización de fármacos, descubrimiento de nuevos objetivos terapéuticos y explicación de los mecanismos de evolución bacteriana y resistencia antimicrobiana. Para la reutilización de fármacos, el sistema propone candidatos con hallazgos prometedores en la validación, incluyendo candidatos para la leucemia mieloide aguda que muestran inhibición tumoral in vitro a concentraciones clínicamente aplicables. Para el descubrimiento de nuevos objetivos, el co-científico de IA propuso nuevos objetivos epigenéticos para la fibrosis hepática, validados por actividad antifibrótica y regeneración de células hepáticas en organoides hepáticos humanos. Finalmente, el co-científico de IA reprodujo resultados experimentales no publicados mediante un descubrimiento in silico paralelo de un nuevo mecanismo de transferencia génica en la evolución bacteriana. Estos resultados, detallados en informes separados y simultáneos, demuestran el potencial para potenciar el descubrimiento biomédico y científico, inaugurando una era de científicos empoderados por la IA.

TheoremExplainAgent: Hacia Explicaciones Multimodales para la Comprensión de Teoremas en Modelos de Lenguaje de Gran Escala
TheoremExplainAgent: Towards Multimodal Explanations for LLM Theorem Understanding

Feb 26

ByMax Ku, Thomas Chong, Jonathan Leung, Krish Shah, Alvin Yu, Wenhu Chen

Comprender teoremas específicos de un dominio a menudo requiere más que solo razonamiento basado en texto; la comunicación efectiva a través de explicaciones visuales estructuradas es crucial para una comprensión más profunda. Si bien los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) demuestran un rendimiento sólido en el razonamiento de teoremas basado en texto, su capacidad para generar explicaciones visuales coherentes y pedagógicamente significativas sigue siendo un desafío abierto. En este trabajo, presentamos TheoremExplainAgent, un enfoque agéntico para generar videos de explicación de teoremas de larga duración (más de 5 minutos) utilizando animaciones Manim. Para evaluar sistemáticamente las explicaciones multimodales de teoremas, proponemos TheoremExplainBench, un benchmark que abarca 240 teoremas en múltiples disciplinas STEM, junto con 5 métricas de evaluación automatizadas. Nuestros resultados revelan que la planificación agéntica es esencial para generar videos detallados de larga duración, y el agente o3-mini alcanza una tasa de éxito del 93.8% y una puntuación general de 0.77. Sin embargo, nuestros estudios cuantitativos y cualitativos muestran que la mayoría de los videos producidos presentan problemas menores en la disposición de los elementos visuales. Además, las explicaciones multimodales exponen fallas de razonamiento más profundas que las explicaciones basadas en texto no logran revelar, destacando la importancia de las explicaciones multimodales.

Plutus: Evaluación de Modelos de Lenguaje de Gran Escala en Finanzas Griegas de Bajos Recursos
Plutus: Benchmarking Large Language Models in Low-Resource Greek Finance

Feb 26

ByXueqing Peng, Triantafillos Papadopoulos, Efstathia Soufleri, Polydoros Giannouris, Ruoyu Xiang, Yan Wang, Lingfei Qian, Jimin Huang, Qianqian Xie, Sophia Ananiadou

A pesar del papel fundamental de Grecia en la economía global, los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) siguen siendo poco explorados en el contexto financiero griego debido a la complejidad lingüística del griego y la escasez de conjuntos de datos específicos del dominio. Los esfuerzos previos en el procesamiento del lenguaje natural (PLN) financiero multilingüe han revelado disparidades considerables en el rendimiento, pero hasta ahora no se han desarrollado puntos de referencia financieros dedicados al griego ni LLMs financieros específicos para este idioma. Para cerrar esta brecha, presentamos Plutus-ben, el primer Punto de Referencia de Evaluación Financiera en Griego, y Plutus-8B, el pionero LLM Financiero Griego, ajustado con datos específicos del dominio griego. Plutus-ben aborda cinco tareas principales de PLN financiero en griego: reconocimiento de entidades nombradas numéricas y textuales, respuesta a preguntas, resumen abstracto y clasificación de temas, facilitando así evaluaciones sistemáticas y reproducibles de LLMs. Para respaldar estas tareas, presentamos tres nuevos conjuntos de datos financieros griegos de alta calidad, minuciosamente anotados por expertos hablantes nativos de griego, complementados por dos recursos existentes. Nuestra evaluación exhaustiva de 22 LLMs en Plutus-ben revela que el PLN financiero en griego sigue siendo un desafío debido a la complejidad lingüística, la terminología específica del dominio y las brechas en el razonamiento financiero. Estos hallazgos subrayan las limitaciones de la transferencia translingüística, la necesidad de experiencia financiera en los modelos entrenados en griego y los desafíos de adaptar los LLMs financieros al texto griego. Publicamos Plutus-ben, Plutus-8B y todos los conjuntos de datos asociados de manera pública para promover la investigación reproducible y avanzar en el PLN financiero griego, fomentando una mayor inclusión multilingüe en las finanzas.

La factualidad de los modelos de lenguaje depende del idioma de consulta.
Language Models' Factuality Depends on the Language of Inquiry

Feb 25

ByTushar Aggarwal, Kumar Tanmay, Ayush Agrawal, Kumar Ayush, Hamid Palangi, Paul Pu Liang

Se espera que los modelos de lenguaje multilingües (LM, por sus siglas en inglés) recuerden conocimientos factuales de manera consistente en todos los idiomas, pero a menudo fallan en transferir conocimientos entre idiomas, incluso cuando poseen la información correcta en uno de ellos. Por ejemplo, encontramos que un LM puede identificar correctamente a Rashed Al Shashai como originario de Arabia Saudita cuando se le pregunta en árabe, pero falla consistentemente al hacerlo cuando se le pregunta en inglés o suajili. Para investigar sistemáticamente esta limitación, introducimos un benchmark de 10,000 hechos relacionados con países en 13 idiomas y proponemos tres métricas novedosas: Puntaje de Recuerdo Factual, Puntaje de Transferibilidad de Conocimiento y Puntaje de Transferibilidad de Conocimiento Factual Translingüístico, con el fin de cuantificar el recuerdo factual y la transferibilidad de conocimiento en LM a través de diferentes idiomas. Nuestros resultados revelan debilidades fundamentales en los LM más avanzados de la actualidad, particularmente en la generalización translingüística, donde los modelos no logran transferir conocimiento de manera efectiva entre diferentes idiomas, lo que lleva a un desempeño inconsistente sensible al idioma utilizado. Nuestros hallazgos enfatizan la necesidad de que los LM reconozcan la confiabilidad factual específica de cada idioma y aprovechen la información más confiable entre idiomas. Publicamos nuestro benchmark y marco de evaluación para impulsar futuras investigaciones en la transferencia de conocimiento multilingüe.

Rank1: Cómputo en Tiempo de Prueba para Reordenamiento en Recuperación de Información
Rank1: Test-Time Compute for Reranking in Information Retrieval

Feb 25

ByOrion Weller, Kathryn Ricci, Eugene Yang, Andrew Yates, Dawn Lawrie, Benjamin Van Durme

Presentamos Rank1, el primer modelo de reordenamiento entrenado para aprovechar el cómputo en tiempo de prueba. Rank1 demuestra la aplicabilidad en la recuperación de información al utilizar un modelo de lenguaje de razonamiento (por ejemplo, o1 de OpenAI, R1 de Deepseek, etc.) para la destilación, con el fin de mejorar rápidamente el rendimiento de un modelo más pequeño. Recopilamos y publicamos un conjunto de datos de más de 600,000 ejemplos de trazas de razonamiento R1 a partir de consultas y pasajes de MS MARCO. Los modelos entrenados con este conjunto de datos muestran: (1) un rendimiento de vanguardia en conjuntos de datos avanzados de razonamiento y seguimiento de instrucciones; (2) un funcionamiento notablemente bueno fuera de distribución debido a la capacidad de responder a indicaciones de entrada del usuario; y (3) cadenas de razonamiento explicables que pueden ser proporcionadas a los usuarios o a sistemas basados en RAG. Además, demostramos que las versiones cuantizadas de estos modelos mantienen un rendimiento sólido mientras utilizan menos cómputo/memoria. En general, Rank1 muestra que el cómputo en tiempo de prueba permite un nuevo tipo fundamental de modelo de reordenamiento explicable y de alto rendimiento para la búsqueda.

¿Pueden los modelos de lenguaje de gran escala detectar errores en cadenas de razonamiento extensas?
Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning?

Feb 26

ByYancheng He, Shilong Li, Jiaheng Liu, Weixun Wang, Xingyuan Bu, Ge Zhang, Zhongyuan Peng, Zhaoxiang Zhang, Wenbo Su, Bo Zheng

Recientemente, los modelos tipo o1 han captado una atención significativa, donde estos modelos generan largas secuencias de razonamiento en cadena (Chain-of-Thought, CoT) para mejorar las capacidades de razonamiento de los modelos de lenguaje grandes (Large Language Models, LLMs) existentes. En este artículo, para comprender las cualidades de estas largas CoTs y medir las capacidades de crítica de los LLMs existentes sobre estas largas CoTs, presentamos DeltaBench, que incluye las largas CoTs generadas por diferentes modelos tipo o1 (por ejemplo, QwQ, DeepSeek-R1) para diversas tareas de razonamiento (por ejemplo, matemáticas, código, razonamiento general), con el objetivo de medir la capacidad de detectar errores en el razonamiento de largas CoTs. Basándonos en DeltaBench, primero realizamos un análisis detallado de las largas CoTs generadas para descubrir la efectividad y eficiencia de los diferentes modelos tipo o1. Luego, llevamos a cabo evaluaciones exhaustivas de los modelos de recompensa de proceso (Process Reward Models, PRMs) y modelos críticos existentes para detectar los errores en cada proceso anotado, con el fin de investigar los límites y restricciones de los PRMs y modelos críticos actuales. Finalmente, esperamos que DeltaBench pueda guiar a los desarrolladores para comprender mejor las capacidades de razonamiento de largas CoTs de sus modelos.

Modelado de Recompensas Agénticas: Integración de Preferencias Humanas con Señales de Corrección Verificables para Sistemas de Recompensas Confiables
Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems

Feb 26

ByHao Peng, Yunjia Qi, Xiaozhi Wang, Zijun Yao, Bin Xu, Lei Hou, Juanzi Li

Los modelos de recompensa (RMs) son cruciales para el entrenamiento y la ampliación en tiempo de inferencia de los grandes modelos de lenguaje (LLMs). Sin embargo, los modelos de recompensa existentes se centran principalmente en las preferencias humanas, descuidando las señales de corrección verificable que han demostrado un gran potencial en el entrenamiento de LLMs. En este artículo, proponemos el modelado de recompensas agentivo, un sistema de recompensas que combina modelos de recompensa con señales de corrección verificable desde diferentes aspectos para proporcionar recompensas confiables. Implementamos empíricamente un agente de recompensa, denominado RewardAgent, que combina recompensas basadas en preferencias humanas con dos señales verificables: factualidad y seguimiento de instrucciones, para ofrecer recompensas más confiables. Realizamos experimentos exhaustivos en benchmarks existentes de modelos de recompensa y búsquedas de mejor-de-n en tiempo de inferencia en tareas descendentes del mundo real. RewardAgent supera significativamente a los modelos de recompensa convencionales, demostrando su eficacia. Además, construimos pares de preferencias de entrenamiento utilizando RewardAgent y entrenamos un LLM con el objetivo DPO, logrando un rendimiento superior en varios benchmarks de NLP en comparación con los modelos de recompensa tradicionales. Nuestros códigos se han publicado públicamente para facilitar investigaciones futuras (https://github.com/THU-KEG/Agentic-Reward-Modeling).

Proyecto Alejandría: Hacia la Liberación del Conocimiento Científico de las Cargas del Derecho de Autor mediante Modelos de Lenguaje de Gran Escala
Project Alexandria: Towards Freeing Scientific Knowledge from Copyright Burdens via LLMs

Feb 26

ByChristoph Schuhmann, Gollam Rabby, Ameya Prabhu, Tawsif Ahmed, Andreas Hochlehnert, Huu Nguyen, Nick Akinci Heidrich, Ludwig Schmidt, Robert Kaczmarczyk, Sören Auer, Jenia Jitsev, Matthias Bethge

Los muros de pago, las licencias y las normas de derechos de autor suelen restringir la difusión amplia y la reutilización del conocimiento científico. Adoptamos la postura de que es factible tanto legal como técnicamente extraer el conocimiento científico presente en los textos académicos. Los métodos actuales, como los embeddings de texto, no logran preservar de manera confiable el contenido factual, y la simple paráfrasis puede no ser legalmente sólida. Instamos a la comunidad a adoptar una nueva idea: convertir documentos académicos en Unidades de Conocimiento utilizando LLMs. Estas unidades utilizan datos estructurados que capturan entidades, atributos y relaciones sin contenido estilístico. Proporcionamos evidencia de que las Unidades de Conocimiento: (1) constituyen un marco legalmente defendible para compartir conocimiento a partir de textos de investigación protegidos por derechos de autor, basado en análisis legales de la ley de derechos de autor alemana y la doctrina de Uso Justo de EE. UU., y (2) preservan la mayor parte (~95%) del conocimiento factual del texto original, medido por el rendimiento en preguntas de opción múltiple sobre hechos del texto original protegido por derechos de autor en cuatro dominios de investigación. Liberar el conocimiento científico de los derechos de autor promete beneficios transformadores para la investigación y la educación científica al permitir que los modelos de lenguaje reutilicen hechos importantes de textos protegidos. Para apoyar esto, compartimos herramientas de código abierto para convertir documentos de investigación en Unidades de Conocimiento. En general, nuestro trabajo plantea la viabilidad de democratizar el acceso al conocimiento científico respetando los derechos de autor.

¿Pueden los modelos de lenguaje falsificar? Evaluación del razonamiento algorítmico mediante la creación de contraejemplos
Can Language Models Falsify? Evaluating Algorithmic Reasoning with Counterexample Creation

Feb 26

ByShiven Sinha, Shashwat Goel, Ponnurangam Kumaraguru, Jonas Geiping, Matthias Bethge, Ameya Prabhu

Existe un creciente entusiasmo sobre el potencial de los Modelos de Lenguaje (LMs) para acelerar el descubrimiento científico. La falsificación de hipótesis es clave para el progreso científico, ya que permite refinar afirmaciones de manera iterativa con el tiempo. Este proceso requiere un esfuerzo significativo por parte de los investigadores, así como razonamiento e ingenio. Sin embargo, los puntos de referencia actuales para los LMs evalúan principalmente su capacidad para generar soluciones en lugar de cuestionarlas. Abogamos por el desarrollo de puntos de referencia que evalúen esta capacidad inversa: la creación de contraejemplos para soluciones sutilmente incorrectas. Para demostrar este enfoque, comenzamos con el dominio de la resolución algorítmica de problemas, donde los contraejemplos pueden evaluarse automáticamente mediante la ejecución de código. Específicamente, presentamos REFUTE, un punto de referencia de actualización dinámica que incluye problemas recientes y envíos incorrectos de competencias de programación, donde expertos humanos identificaron exitosamente contraejemplos. Nuestro análisis revela que los mejores agentes de razonamiento, incluso OpenAI o3-mini (alto) con retroalimentación de ejecución de código, solo pueden crear contraejemplos para <9% de las soluciones incorrectas en REFUTE, a pesar de que las calificaciones indican su capacidad para resolver hasta el 48% de estos problemas desde cero. Esperamos que nuestro trabajo impulse el progreso en la evaluación y mejora de la capacidad de los LMs para falsificar soluciones incorrectas, una habilidad crucial tanto para acelerar la investigación como para permitir que los modelos se auto-mejoren mediante un razonamiento reflexivo confiable.

VEM: Exploración Libre de Entorno para el Entrenamiento de Agentes de Interfaz Gráfica con Modelo de Valor de Entorno
VEM: Environment-Free Exploration for Training GUI Agent with Value Environment Model

Feb 26

ByJiani Zheng, Lu Wang, Fangkai Yang, Chaoyun Zhang, Lingrui Mei, Wenjie Yin, Qingwei Lin, Dongmei Zhang, Saravan Rajmohan, Qi Zhang

El entrenamiento de Modelos de Visión-Lenguaje (VLMs) para agentes de Interfaces Gráficas de Usuario (GUI) mediante Aprendizaje por Refuerzo (RL) enfrenta desafíos críticos: el RL basado en entorno requiere interacciones costosas, mientras que los métodos libres de entorno luchan con el cambio de distribución y la generalización de recompensas. Proponemos un marco de RL libre de entorno que desacopla la estimación de valor de la optimización de políticas mediante el uso de un Modelo de Entorno de Valor (VEM) preentrenado. El VEM predice los valores de estado-acción directamente a partir de datos fuera de línea, destilando conocimientos previos similares a los humanos sobre los resultados de la interacción con la GUI sin necesidad de predecir el siguiente estado o recibir retroalimentación del entorno. Esto evita la acumulación de errores y mejora la resiliencia a los cambios en la interfaz al centrarse en el razonamiento semántico (por ejemplo, ¿Esta acción avanza hacia el objetivo del usuario?). El marco opera en dos etapas: (1) preentrenar el VEM para estimar las utilidades de acción a largo plazo y (2) guiar la exploración de políticas con señales de VEM congeladas, permitiendo la automatización de GUI independiente del diseño. Evaluado en benchmarks de Android-in-the-Wild, el VEM logra un rendimiento de vanguardia tanto en configuraciones fuera de línea como en línea, superando significativamente a los métodos libres de entorno y equiparándose a los enfoques basados en entorno sin incurrir en costos de interacción. Es importante destacar que el VEM demuestra que la estimación de valor consciente de la semántica puede alcanzar un rendimiento comparable con los métodos entrenados en línea.

Distila Cualquier Profundidad: La Destilación Crea un Estimador de Profundidad Monocular Más Potente
Distill Any Depth: Distillation Creates a Stronger Monocular Depth Estimator

Feb 26

ByXiankang He, Dongyan Guo, Hongji Li, Ruibo Li, Ying Cui, Chi Zhang

La estimación de profundidad monocular (MDE, por sus siglas en inglés) tiene como objetivo predecir la profundidad de una escena a partir de una única imagen RGB y desempeña un papel crucial en la comprensión de escenas 3D. Los avances recientes en MDE de cero disparos aprovechan representaciones de profundidad normalizada y aprendizaje basado en destilación para mejorar la generalización en diversas escenas. Sin embargo, los métodos actuales de normalización de profundidad para destilación, que dependen de la normalización global, pueden amplificar etiquetas pseudo-ruidosas, reduciendo la efectividad de la destilación. En este artículo, analizamos sistemáticamente el impacto de diferentes estrategias de normalización de profundidad en la destilación de etiquetas pseudo. Basándonos en nuestros hallazgos, proponemos la Destilación de Contexto Cruzado, que integra señales de profundidad globales y locales para mejorar la calidad de las etiquetas pseudo. Además, introducimos un marco de destilación multi-maestro que aprovecha las fortalezas complementarias de diferentes modelos de estimación de profundidad, lo que conduce a predicciones de profundidad más robustas y precisas. Experimentos exhaustivos en conjuntos de datos de referencia demuestran que nuestro enfoque supera significativamente a los métodos más avanzados, tanto cuantitativa como cualitativamente.

Abstract Data quality is crucial for the success of machine learning models. However, defining and measuring data quality remains challenging, especially for subjective criteria that depend on human judgment. We present CritiQ, a framework that mines data quality criteria from human preferences using pairwise comparisons. CritiQ leverages active learning to efficiently query human annotators and builds a probabilistic model of their preferences. We evaluate CritiQ on three datasets across different domains, showing that it can effectively identify relevant data quality criteria and improve model performance. Our results demonstrate that CritiQ is a promising approach for incorporating human preferences into data quality assessment.CritiQ: Extracción de Criterios de Calidad de Datos a partir de Preferencias Humanas Resumen La calidad de los datos es crucial para el éxito de los modelos de aprendizaje automático. Sin embargo, definir y medir la calidad de los datos sigue siendo un desafío, especialmente para los criterios subjetivos que dependen del juicio humano. Presentamos CritiQ, un marco que extrae criterios de calidad de datos a partir de preferencias humanas utilizando comparaciones por pares. CritiQ aprovecha el aprendizaje activo para consultar de manera eficiente a anotadores humanos y construye un modelo probabilístico de sus preferencias. Evaluamos CritiQ en tres conjuntos de datos de diferentes dominios, demostrando que puede identificar de manera efectiva criterios relevantes de calidad de datos y mejorar el rendimiento del modelo. Nuestros resultados muestran que CritiQ es un enfoque prometedor para incorporar preferencias humanas en la evaluación de la calidad de los datos.
CritiQ: Mining Data Quality Criteria from Human Preferences

Feb 26

ByHonglin Guo, Kai Lv, Qipeng Guo, Tianyi Liang, Zhiheng Xi, Demin Song, Qiuyinzhe Zhang, Yu Sun, Kai Chen, Xipeng Qiu, Tao Gui

Los modelos de lenguaje dependen en gran medida de datos de alta calidad para un rendimiento óptimo. Los enfoques existentes se basan en heurísticas diseñadas manualmente, la perplejidad de modelos existentes, el entrenamiento de clasificadores o la ingeniería cuidadosa de prompts, lo que requiere una experiencia experta significativa y un esfuerzo de anotación humana, además de introducir sesgos. Presentamos CritiQ, un método novedoso de selección de datos que extrae automáticamente criterios de las preferencias humanas sobre la calidad de los datos utilizando solo 30 pares anotados por humanos y realiza una selección eficiente de datos. El componente principal, CritiQ Flow, emplea un agente gestor para evolucionar los criterios de calidad y agentes trabajadores para realizar juicios por pares. Construimos una base de conocimiento que extrae criterios de calidad de trabajos previos para potenciar CritiQ Flow. En comparación con los métodos basados en perplejidad y clasificadores, los criterios verbales son más interpretables y poseen valor reutilizable. Tras derivar los criterios, entrenamos el CritiQ Scorer para asignar puntuaciones de calidad y realizar una selección eficiente de datos. Demostramos la efectividad de nuestro método en los dominios de código, matemáticas y lógica, logrando una alta precisión en conjuntos de prueba anotados por humanos. Para validar la calidad de los datos seleccionados, entrenamos continuamente modelos Llama 3.1 y observamos un mejor rendimiento en tareas posteriores en comparación con el muestreo uniforme. Estudios de ablación validan los beneficios de la base de conocimiento y el proceso de reflexión. Analizamos cómo evolucionan los criterios y la efectividad de la votación por mayoría.

BIG-Bench Extra Difícil
BIG-Bench Extra Hard

Feb 26

ByMehran Kazemi, Bahare Fatemi, Hritik Bansal, John Palowitch, Chrysovalantis Anastasiou, Sanket Vaibhav Mehta, Lalit K. Jain, Virginia Aglietti, Disha Jindal, Peter Chen, Nishanth Dikkala, Gladys Tyen, Xin Liu, Uri Shalit, Silvia Chiappa, Kate Olszewska, Yi Tay, Vinh Q. Tran, Quoc V. Le, Orhan Firat

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se están implementando cada vez más en aplicaciones cotidianas, lo que exige capacidades de razonamiento general robustas y un conjunto diverso de habilidades de razonamiento. Sin embargo, los puntos de referencia actuales para evaluar el razonamiento de los LLMs se centran predominantemente en habilidades matemáticas y de programación, dejando un vacío en la evaluación de competencias de razonamiento más amplias. Una excepción particular es el conjunto de datos BIG-Bench, que ha servido como un punto de referencia crucial para evaluar las capacidades de razonamiento general de los LLMs, gracias a su diverso conjunto de tareas desafiantes que permitieron una evaluación integral del razonamiento general en diversas habilidades dentro de un marco unificado. No obstante, los avances recientes en los LLMs han llevado a la saturación en BIG-Bench y en su versión más difícil, BIG-Bench Hard (BBH). Los modelos de última generación alcanzan puntuaciones casi perfectas en muchas tareas de BBH, lo que reduce su utilidad. Para abordar esta limitación, presentamos BIG-Bench Extra Hard (BBEH), un nuevo punto de referencia diseñado para ampliar los límites de la evaluación del razonamiento en LLMs. BBEH reemplaza cada tarea en BBH con una tarea novedosa que explora una capacidad de razonamiento similar pero presenta un nivel de dificultad significativamente mayor. Evaluamos varios modelos en BBEH y observamos una precisión promedio (armónica) del 9,8% para el mejor modelo de propósito general y del 44,8% para el mejor modelo especializado en razonamiento, lo que indica un margen sustancial de mejora y resalta el desafío continuo de lograr un razonamiento general robusto en los LLMs. Publicamos BBEH de manera abierta en: https://github.com/google-deepmind/bbeh.

MMKE-Bench: Un Banco de Pruebas de Edición Multimodal para Conocimiento Visual Diverso
MMKE-Bench: A Multimodal Editing Benchmark for Diverse Visual Knowledge

Feb 27

ByYuntao Du, Kailin Jiang, Zhi Gao, Chenrui Shi, Zilong Zheng, Siyuan Qi, Qing Li

Las técnicas de edición de conocimiento han surgido como herramientas esenciales para actualizar el conocimiento factual de grandes modelos de lenguaje (LLMs) y modelos multimodales (LMMs), permitiéndoles corregir información desactualizada o inexacta sin necesidad de volver a entrenar desde cero. Sin embargo, los benchmarks existentes para la edición de conocimiento multimodal se centran principalmente en el conocimiento a nivel de entidad representado como tripletes simples, lo cual no logra capturar la complejidad de la información multimodal del mundo real. Para abordar este problema, presentamos MMKE-Bench, un completo Benchmark de Edición de Conocimiento MultiModal, diseñado para evaluar la capacidad de los LMMs para editar diversos conocimientos visuales en escenarios del mundo real. MMKE-Bench aborda estas limitaciones al incorporar tres tipos de tareas de edición: edición de entidades visuales, edición semántica visual y edición específica del usuario. Además, MMKE-Bench utiliza lenguaje natural de forma libre para representar y editar conocimiento, ofreciendo un formato más flexible y efectivo. El benchmark consta de 2,940 piezas de conocimiento y 8,363 imágenes en 33 categorías amplias, con preguntas de evaluación generadas automáticamente y verificadas por humanos. Evaluamos cinco métodos de edición de conocimiento de última generación en tres destacados LMMs, revelando que ningún método sobresale en todos los criterios, y que las ediciones visuales y específicas del usuario son particularmente desafiantes. MMKE-Bench establece un nuevo estándar para evaluar la robustez de las técnicas de edición de conocimiento multimodal, impulsando el progreso en este campo en constante evolución.

FSPO: Optimización de Preferencias con Pocos Ejemplos sobre Datos Sintéticos de Preferencias en Modelos de Lenguaje de Gran Escala Facilita una Personalización Efectiva para Usuarios Reales
FSPO: Few-Shot Preference Optimization of Synthetic Preference Data in LLMs Elicits Effective Personalization to Real Users

Feb 26

ByAnikait Singh, Sheryl Hsu, Kyle Hsu, Eric Mitchell, Stefano Ermon, Tatsunori Hashimoto, Archit Sharma, Chelsea Finn

La personalización efectiva de los LLM (Modelos de Lenguaje de Gran Escala) es crucial para una amplia gama de aplicaciones orientadas al usuario, como asistentes virtuales y curación de contenido. Inspirados por las sólidas capacidades de aprendizaje en contexto de los LLM, proponemos la Optimización de Preferencias con Pocos Ejemplos (FSPO, por sus siglas en inglés), que reformula el modelado de recompensas como un problema de metaaprendizaje. Bajo este marco, un LLM aprende a adaptarse rápidamente a un usuario a través de unas pocas preferencias etiquetadas de ese usuario, construyendo una función de recompensa personalizada para él. Además, dado que los datos de preferencias del mundo real son escasos y difíciles de recopilar a gran escala, proponemos decisiones de diseño cuidadosas para construir conjuntos de datos sintéticos de preferencias para la personalización, generando más de 1 millón de preferencias personalizadas sintéticas utilizando LLM disponibles públicamente. En particular, para transferir con éxito los datos sintéticos a usuarios reales, encontramos que es crucial que los datos exhiban tanto una alta diversidad como una estructura coherente y autoconsistente. Evaluamos FSPO en la generación abierta personalizada para hasta 1,500 usuarios sintéticos en tres dominios: reseñas de películas, adaptación pedagógica basada en antecedentes educativos y respuesta general a preguntas, junto con un estudio controlado con humanos. En general, FSPO logra una tasa de éxito promedio del 87% en Alpaca Eval al generar respuestas personalizadas para usuarios sintéticos y una tasa de éxito del 72% con usuarios humanos reales en la respuesta abierta a preguntas.

Adaptación del Reconocimiento Automático del Habla para Comunicaciones de Control de Tráfico Aéreo con Acento.
Adapting Automatic Speech Recognition for Accented Air Traffic Control Communications

Feb 27

ByMarcus Yu Zhe Wee, Justin Juin Hng Wong, Lynus Lim, Joe Yu Wei Tan, Prannaya Gupta, Dillion Lim, En Hao Tew, Aloysius Keng Siew Han, Yong Zhi Lim

La comunicación efectiva en el Control de Tráfico Aéreo (ATC) es fundamental para mantener la seguridad de la aviación, sin embargo, los desafíos planteados por el inglés con acento siguen siendo en gran medida no abordados en los sistemas de Reconocimiento Automático del Habla (ASR). Los modelos existentes tienen dificultades con la precisión de transcripción para el habla con acento del Sudeste Asiático (acento SEA), especialmente en entornos ruidosos de ATC. Este estudio presenta el desarrollo de modelos ASR ajustados específicamente para acentos del Sudeste Asiático utilizando un conjunto de datos recién creado. Nuestra investigación logra mejoras significativas, alcanzando una Tasa de Error de Palabras (WER) de 0.0982 o 9.82% en el habla con acento SEA en el ATC. Además, el documento destaca la importancia de conjuntos de datos específicos de la región y entrenamiento centrado en el acento, ofreciendo un camino para implementar sistemas ASR en operaciones militares con recursos limitados. Los hallazgos enfatizan la necesidad de técnicas de entrenamiento robustas al ruido y conjuntos de datos específicos de la región para mejorar la precisión de transcripción para acentos no occidentales en las comunicaciones de ATC.

Drop-Upcycling: Entrenamiento de Mezclas Escasas de Expertos con Reinicialización Parcial
Drop-Upcycling: Training Sparse Mixture of Experts with Partial Re-initialization

Feb 26

ByTaishi Nakamura, Takuya Akiba, Kazuki Fujii, Yusuke Oda, Rio Yokota, Jun Suzuki

La arquitectura Mixture of Experts (MoE) reduce significativamente los costos de entrenamiento e inferencia en comparación con un modelo denso de capacidad equivalente. El reciclaje (upcycling) es un enfoque que inicializa y entrena un modelo MoE utilizando un modelo denso preentrenado. Si bien el reciclaje conduce a mejoras iniciales en el rendimiento, el entrenamiento avanza más lento que cuando se entrena desde cero, lo que resulta en un rendimiento subóptimo a largo plazo. Proponemos Drop-Upcycling, un método que aborda eficazmente este problema. Drop-Upcycling combina dos enfoques aparentemente contradictorios: utilizar el conocimiento de modelos densos preentrenados mientras se reinicializan estadísticamente algunas partes de los pesos. Este enfoque promueve estratégicamente la especialización de los expertos, mejorando significativamente la eficiencia del modelo MoE en la adquisición de conocimiento. Experimentos extensos a gran escala demuestran que Drop-Upcycling supera significativamente a los métodos anteriores de construcción de MoE a largo plazo, específicamente cuando se entrena con cientos de miles de millones de tokens o más. Como resultado, nuestro modelo MoE con 5.9 mil millones de parámetros activos logra un rendimiento comparable al de un modelo denso de 13 mil millones en la misma familia de modelos, mientras requiere aproximadamente 1/4 de los FLOPs de entrenamiento. Todos los recursos experimentales, incluidos el código fuente, los datos de entrenamiento, los puntos de control del modelo y los registros, están disponibles públicamente para promover la reproducibilidad y futuras investigaciones sobre MoE.

AISafetyLab: Un Marco Integral para la Evaluación y Mejora de la Seguridad en IA
AISafetyLab: A Comprehensive Framework for AI Safety Evaluation and Improvement

Feb 24

ByZhexin Zhang, Leqi Lei, Junxiao Yang, Xijie Huang, Yida Lu, Shiyao Cui, Renmiao Chen, Qinglin Zhang, Xinyuan Wang, Hao Wang, Hao Li, Xianqi Lei, Chengwei Pan, Lei Sha, Hongning Wang, Minlie Huang

A medida que los modelos de IA se despliegan cada vez más en diversos escenarios del mundo real, garantizar su seguridad sigue siendo un desafío crítico pero poco explorado. Si bien se han realizado esfuerzos sustanciales para evaluar y mejorar la seguridad de la IA, la falta de un marco estandarizado y un conjunto de herramientas integral plantea obstáculos significativos para la investigación sistemática y la adopción práctica. Para cerrar esta brecha, presentamos AISafetyLab, un marco unificado y un conjunto de herramientas que integra metodologías representativas de ataque, defensa y evaluación para la seguridad de la IA. AISafetyLab cuenta con una interfaz intuitiva que permite a los desarrolladores aplicar diversas técnicas de manera fluida, manteniendo una base de código bien estructurada y extensible para futuros avances. Además, realizamos estudios empíricos en Vicuna, analizando diferentes estrategias de ataque y defensa para ofrecer información valiosa sobre su efectividad comparativa. Para facilitar la investigación y el desarrollo continuo en seguridad de la IA, AISafetyLab está disponible públicamente en https://github.com/thu-coai/AISafetyLab, y estamos comprometidos con su mantenimiento y mejora continua.

MolSpectra: Preentrenamiento de Representación Molecular 3D con Espectros de Energía Multimodal
MolSpectra: Pre-training 3D Molecular Representation with Multi-modal Energy Spectra

Feb 22

ByLiang Wang, Shaozhen Liu, Yu Rong, Deli Zhao, Qiang Liu, Shu Wu, Liang Wang

Establecer la relación entre las estructuras 3D y los estados energéticos de los sistemas moleculares ha demostrado ser un enfoque prometedor para aprender representaciones moleculares en 3D. Sin embargo, los métodos existentes se limitan a modelar los estados energéticos moleculares desde la mecánica clásica. Esta limitación resulta en una omisión significativa de los efectos de la mecánica cuántica, como las estructuras de niveles de energía cuantizados (discretos), que ofrecen una estimación más precisa de la energía molecular y pueden medirse experimentalmente a través de espectros de energía. En este artículo, proponemos utilizar los espectros de energía para mejorar el pre-entrenamiento de representaciones moleculares en 3D (MolSpectra), infundiendo así el conocimiento de la mecánica cuántica en las representaciones moleculares. Específicamente, proponemos SpecFormer, un codificador multi-espectro para codificar espectros moleculares mediante la reconstrucción de parches enmascarados. Al alinear adicionalmente las salidas del codificador 3D y el codificador de espectros utilizando un objetivo contrastivo, mejoramos la comprensión del codificador 3D sobre las moléculas. Las evaluaciones en benchmarks públicos revelan que nuestras representaciones pre-entrenadas superan a los métodos existentes en la predicción de propiedades moleculares y el modelado de dinámicas.

Hacia la Decodificación Especulativa Óptima con Múltiples Borradores
Towards Optimal Multi-draft Speculative Decoding

Feb 26

ByZhengmian Hu, Tong Zheng, Vignesh Viswanathan, Ziyi Chen, Ryan A. Rossi, Yihan Wu, Dinesh Manocha, Heng Huang

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) se han convertido en una parte indispensable de las tareas de procesamiento del lenguaje natural. Sin embargo, el muestreo autorregresivo se ha convertido en un cuello de botella en términos de eficiencia. La Decodificación Especulativa de Múltiples Borradores (MDSD, por sus siglas en inglés) es un enfoque reciente en el que, al generar cada token, un modelo de borrador pequeño genera múltiples borradores, y el LLM objetivo los verifica en paralelo, asegurando que la salida final se ajuste a la distribución del modelo objetivo. Las dos principales decisiones de diseño en MDSD son el método de muestreo de borradores y el algoritmo de verificación. Para un método de muestreo de borradores fijo, la tasa de aceptación óptima es la solución a un problema de transporte óptimo, pero la complejidad de este problema dificulta la resolución de la tasa de aceptación óptima y la medición de la brecha entre los algoritmos de verificación existentes y el límite teórico superior. Este artículo discute el dual del problema de transporte óptimo, proporcionando una forma de calcular eficientemente la tasa de aceptación óptima. Por primera vez, medimos el límite teórico superior de la eficiencia de MDSD para tamaños de vocabulario en el orden de los miles y cuantificamos la brecha entre los algoritmos de verificación existentes y este límite. También comparamos diferentes métodos de muestreo de borradores basados en sus tasas de aceptación óptimas. Nuestros resultados muestran que el método de muestreo de borradores influye significativamente en la tasa de aceptación óptima, con el muestreo sin reemplazo superando al muestreo con reemplazo. Además, los algoritmos de verificación existentes no alcanzan el límite teórico superior tanto para el muestreo sin reemplazo como con reemplazo. Nuestros hallazgos sugieren que los métodos de muestreo de borradores cuidadosamente diseñados pueden potencialmente mejorar la tasa de aceptación óptima y permitir el desarrollo de algoritmos de verificación que se acerquen al límite teórico superior.

PosterSum: Un punto de referencia multimodal para la resumización de pósteres científicos
PosterSum: A Multimodal Benchmark for Scientific Poster Summarization

Feb 24

ByRohit Saxena, Pasquale Minervini, Frank Keller

Generar resúmenes textuales precisos y concisos a partir de documentos multimodales es un desafío, especialmente cuando se trata de contenido visualmente complejo como pósteres científicos. Presentamos PosterSum, un nuevo punto de referencia para avanzar en el desarrollo de modelos de visión y lenguaje capaces de comprender y resumir pósteres científicos en resúmenes de artículos de investigación. Nuestro conjunto de datos contiene 16.305 pósteres de conferencias emparejados con sus resúmenes correspondientes. Cada póster se proporciona en formato de imagen y presenta diversos desafíos de comprensión visual, como diseños complejos, regiones de texto densas, tablas y figuras. Evaluamos modelos de lenguaje multimodal de última generación (MLLMs) en PosterSum y demostramos que tienen dificultades para interpretar y resumir con precisión los pósteres científicos. Proponemos Segment & Summarize, un método jerárquico que supera a los MLLMs actuales en métricas automatizadas, logrando una mejora del 3.14% en ROUGE-L. Esto servirá como punto de partida para futuras investigaciones sobre la resumización de pósteres.

DOEI: Optimización Dual de la Información de Incrustación para Mapas de Activación de Clases Mejorados con Atención
DOEI: Dual Optimization of Embedding Information for Attention-Enhanced Class Activation Maps

Feb 21

ByHongjie Zhu, Zeyu Zhang, Guansong Pang, Xu Wang, Shimin Wen, Yu Bai, Daji Ergu, Ying Cai, Yang Zhao

La segmentación semántica débilmente supervisada (WSSS, por sus siglas en inglés) suele utilizar anotaciones semánticas limitadas para obtener mapas de activación de clases (CAMs, por sus siglas en inglés) iniciales. Sin embargo, debido al acoplamiento insuficiente entre las respuestas de activación de clases y la información semántica en el espacio de alta dimensión, los CAMs son propensos a la co-ocurrencia de objetos o a la subactivación, lo que resulta en una precisión de reconocimiento inferior. Para abordar este problema, proponemos DOEI, Optimización Dual de la Información de Incrustación, un enfoque novedoso que reconstruye las representaciones de incrustación mediante matrices de pesos de atención conscientes de la semántica para optimizar la capacidad de expresión de la información de incrustación. Específicamente, DOEI amplifica los tokens con alta confianza y suprime aquellos con baja confianza durante la interacción clase-a-parche. Esta alineación de las respuestas de activación con la información semántica fortalece la propagación y el desacoplamiento de las características objetivo, permitiendo que las incrustaciones generadas representen con mayor precisión las características objetivo en el espacio semántico de alto nivel. Además, proponemos un módulo de alineación de características híbridas en DOEI que combina valores RGB, características guiadas por incrustaciones y pesos de auto-atención para aumentar la fiabilidad de los tokens candidatos. Experimentos exhaustivos muestran que DOEI es un módulo plug-and-play efectivo que potencia los modelos WSSS basados en transformadores visuales de última generación, mejorando significativamente la calidad de los CAMs y el rendimiento de segmentación en benchmarks populares, incluyendo PASCAL VOC (+3.6%, +1.5%, +1.2% mIoU) y MS COCO (+1.2%, +1.6% mIoU). El código estará disponible en https://github.com/AIGeeksGroup/DOEI.

Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

GHOST 2.0: transferencia generativa de alta fidelidad de cabezas en una sola toma
GHOST 2.0: generative high-fidelity one shot transfer of heads

Feb 25

ByAlexander Groshev, Anastasiia Iashchenko, Pavel Paramonov, Denis Dimitrov, Andrey Kuznetsov

Kanana: Modelos de Lenguaje Bilingües con Eficiencia Computacional
Kanana: Compute-efficient Bilingual Language Models

Feb 26

Hacia un co-científico de IA
Towards an AI co-scientist

Feb 26

TheoremExplainAgent: Hacia Explicaciones Multimodales para la Comprensión de Teoremas en Modelos de Lenguaje de Gran Escala
TheoremExplainAgent: Towards Multimodal Explanations for LLM Theorem Understanding

Feb 26

ByMax Ku, Thomas Chong, Jonathan Leung, Krish Shah, Alvin Yu, Wenhu Chen

Plutus: Evaluación de Modelos de Lenguaje de Gran Escala en Finanzas Griegas de Bajos Recursos
Plutus: Benchmarking Large Language Models in Low-Resource Greek Finance

Feb 26

ByXueqing Peng, Triantafillos Papadopoulos, Efstathia Soufleri, Polydoros Giannouris, Ruoyu Xiang, Yan Wang, Lingfei Qian, Jimin Huang, Qianqian Xie, Sophia Ananiadou

La factualidad de los modelos de lenguaje depende del idioma de consulta.
Language Models' Factuality Depends on the Language of Inquiry

Feb 25

ByTushar Aggarwal, Kumar Tanmay, Ayush Agrawal, Kumar Ayush, Hamid Palangi, Paul Pu Liang

Rank1: Cómputo en Tiempo de Prueba para Reordenamiento en Recuperación de Información
Rank1: Test-Time Compute for Reranking in Information Retrieval

Feb 25

ByOrion Weller, Kathryn Ricci, Eugene Yang, Andrew Yates, Dawn Lawrie, Benjamin Van Durme

¿Pueden los modelos de lenguaje de gran escala detectar errores en cadenas de razonamiento extensas?
Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning?

Feb 26

ByYancheng He, Shilong Li, Jiaheng Liu, Weixun Wang, Xingyuan Bu, Ge Zhang, Zhongyuan Peng, Zhaoxiang Zhang, Wenbo Su, Bo Zheng

Modelado de Recompensas Agénticas: Integración de Preferencias Humanas con Señales de Corrección Verificables para Sistemas de Recompensas Confiables
Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems

Feb 26

ByHao Peng, Yunjia Qi, Xiaozhi Wang, Zijun Yao, Bin Xu, Lei Hou, Juanzi Li

Proyecto Alejandría: Hacia la Liberación del Conocimiento Científico de las Cargas del Derecho de Autor mediante Modelos de Lenguaje de Gran Escala
Project Alexandria: Towards Freeing Scientific Knowledge from Copyright Burdens via LLMs

Feb 26

ByChristoph Schuhmann, Gollam Rabby, Ameya Prabhu, Tawsif Ahmed, Andreas Hochlehnert, Huu Nguyen, Nick Akinci Heidrich, Ludwig Schmidt, Robert Kaczmarczyk, Sören Auer, Jenia Jitsev, Matthias Bethge

¿Pueden los modelos de lenguaje falsificar? Evaluación del razonamiento algorítmico mediante la creación de contraejemplos
Can Language Models Falsify? Evaluating Algorithmic Reasoning with Counterexample Creation

Feb 26

ByShiven Sinha, Shashwat Goel, Ponnurangam Kumaraguru, Jonas Geiping, Matthias Bethge, Ameya Prabhu

VEM: Exploración Libre de Entorno para el Entrenamiento de Agentes de Interfaz Gráfica con Modelo de Valor de Entorno
VEM: Environment-Free Exploration for Training GUI Agent with Value Environment Model

Feb 26

ByJiani Zheng, Lu Wang, Fangkai Yang, Chaoyun Zhang, Lingrui Mei, Wenjie Yin, Qingwei Lin, Dongmei Zhang, Saravan Rajmohan, Qi Zhang

Distila Cualquier Profundidad: La Destilación Crea un Estimador de Profundidad Monocular Más Potente
Distill Any Depth: Distillation Creates a Stronger Monocular Depth Estimator

Feb 26

ByXiankang He, Dongyan Guo, Hongji Li, Ruibo Li, Ying Cui, Chi Zhang

Abstract Data quality is crucial for the success of machine learning models. However, defining and measuring data quality remains challenging, especially for subjective criteria that depend on human judgment. We present CritiQ, a framework that mines data quality criteria from human preferences using pairwise comparisons. CritiQ leverages active learning to efficiently query human annotators and builds a probabilistic model of their preferences. We evaluate CritiQ on three datasets across different domains, showing that it can effectively identify relevant data quality criteria and improve model performance. Our results demonstrate that CritiQ is a promising approach for incorporating human preferences into data quality assessment.CritiQ: Extracción de Criterios de Calidad de Datos a partir de Preferencias Humanas Resumen La calidad de los datos es crucial para el éxito de los modelos de aprendizaje automático. Sin embargo, definir y medir la calidad de los datos sigue siendo un desafío, especialmente para los criterios subjetivos que dependen del juicio humano. Presentamos CritiQ, un marco que extrae criterios de calidad de datos a partir de preferencias humanas utilizando comparaciones por pares. CritiQ aprovecha el aprendizaje activo para consultar de manera eficiente a anotadores humanos y construye un modelo probabilístico de sus preferencias. Evaluamos CritiQ en tres conjuntos de datos de diferentes dominios, demostrando que puede identificar de manera efectiva criterios relevantes de calidad de datos y mejorar el rendimiento del modelo. Nuestros resultados muestran que CritiQ es un enfoque prometedor para incorporar preferencias humanas en la evaluación de la calidad de los datos.
CritiQ: Mining Data Quality Criteria from Human Preferences

Feb 26

ByHonglin Guo, Kai Lv, Qipeng Guo, Tianyi Liang, Zhiheng Xi, Demin Song, Qiuyinzhe Zhang, Yu Sun, Kai Chen, Xipeng Qiu, Tao Gui

BIG-Bench Extra Difícil
BIG-Bench Extra Hard

Feb 26

MMKE-Bench: Un Banco de Pruebas de Edición Multimodal para Conocimiento Visual Diverso
MMKE-Bench: A Multimodal Editing Benchmark for Diverse Visual Knowledge

Feb 27

ByYuntao Du, Kailin Jiang, Zhi Gao, Chenrui Shi, Zilong Zheng, Siyuan Qi, Qing Li

FSPO: Optimización de Preferencias con Pocos Ejemplos sobre Datos Sintéticos de Preferencias en Modelos de Lenguaje de Gran Escala Facilita una Personalización Efectiva para Usuarios Reales
FSPO: Few-Shot Preference Optimization of Synthetic Preference Data in LLMs Elicits Effective Personalization to Real Users

Feb 26

ByAnikait Singh, Sheryl Hsu, Kyle Hsu, Eric Mitchell, Stefano Ermon, Tatsunori Hashimoto, Archit Sharma, Chelsea Finn

Adaptación del Reconocimiento Automático del Habla para Comunicaciones de Control de Tráfico Aéreo con Acento.
Adapting Automatic Speech Recognition for Accented Air Traffic Control Communications

Feb 27

ByMarcus Yu Zhe Wee, Justin Juin Hng Wong, Lynus Lim, Joe Yu Wei Tan, Prannaya Gupta, Dillion Lim, En Hao Tew, Aloysius Keng Siew Han, Yong Zhi Lim

Drop-Upcycling: Entrenamiento de Mezclas Escasas de Expertos con Reinicialización Parcial
Drop-Upcycling: Training Sparse Mixture of Experts with Partial Re-initialization

Feb 26

ByTaishi Nakamura, Takuya Akiba, Kazuki Fujii, Yusuke Oda, Rio Yokota, Jun Suzuki

AISafetyLab: Un Marco Integral para la Evaluación y Mejora de la Seguridad en IA
AISafetyLab: A Comprehensive Framework for AI Safety Evaluation and Improvement

Feb 24

ByZhexin Zhang, Leqi Lei, Junxiao Yang, Xijie Huang, Yida Lu, Shiyao Cui, Renmiao Chen, Qinglin Zhang, Xinyuan Wang, Hao Wang, Hao Li, Xianqi Lei, Chengwei Pan, Lei Sha, Hongning Wang, Minlie Huang

MolSpectra: Preentrenamiento de Representación Molecular 3D con Espectros de Energía Multimodal
MolSpectra: Pre-training 3D Molecular Representation with Multi-modal Energy Spectra

Feb 22

ByLiang Wang, Shaozhen Liu, Yu Rong, Deli Zhao, Qiang Liu, Shu Wu, Liang Wang

Hacia la Decodificación Especulativa Óptima con Múltiples Borradores
Towards Optimal Multi-draft Speculative Decoding

Feb 26

ByZhengmian Hu, Tong Zheng, Vignesh Viswanathan, Ziyi Chen, Ryan A. Rossi, Yihan Wu, Dinesh Manocha, Heng Huang

PosterSum: Un punto de referencia multimodal para la resumización de pósteres científicos
PosterSum: A Multimodal Benchmark for Scientific Poster Summarization

Feb 24

ByRohit Saxena, Pasquale Minervini, Frank Keller

DOEI: Optimización Dual de la Información de Incrustación para Mapas de Activación de Clases Mejorados con Atención
DOEI: Dual Optimization of Embedding Information for Attention-Enhanced Class Activation Maps

Feb 21

ByHongjie Zhu, Zeyu Zhang, Guansong Pang, Xu Wang, Shimin Wen, Yu Bai, Daji Ergu, Ying Cai, Yang Zhao