Artículos de investigación en IA seleccionados diariamente con traducciones
.
Presentamos Kanana, una serie de modelos de lenguaje bilingües que demuestran un rendimiento excepcional en coreano y un desempeño competitivo en inglés. El costo computacional de Kanana es significativamente menor que el de los modelos de última generación de tamaño similar. El informe detalla las técnicas empleadas durante el preentrenamiento para lograr modelos eficientes en términos de cómputo pero competitivos, incluyendo el filtrado de datos de alta calidad, el preentrenamiento por etapas, el escalado de profundidad, y la poda y destilación. Además, el informe describe las metodologías utilizadas durante el postentrenamiento de los modelos Kanana, abarcando el ajuste fino supervisado y la optimización de preferencias, con el objetivo de mejorar su capacidad para interactuar de manera fluida con los usuarios. Por último, el informe profundiza en los enfoques plausibles utilizados para la adaptación de modelos de lenguaje a escenarios específicos, como la incrustación, la generación aumentada por recuperación y la llamada a funciones. La serie de modelos Kanana abarca desde 2.1B hasta 32.5B parámetros, con modelos de 2.1B (base, instruct, embedding) liberados públicamente para fomentar la investigación en modelos de lenguaje coreanos.
El descubrimiento científico depende de que los científicos generen hipótesis novedosas que se sometan a una validación experimental rigurosa. Para potenciar este proceso, presentamos un co-científico de IA, un sistema multiagente basado en Gemini 2.0. Este co-científico de IA está diseñado para ayudar a descubrir conocimiento nuevo y original, así como para formular hipótesis y propuestas de investigación demostrablemente novedosas, basándose en evidencia previa y alineadas con los objetivos y orientaciones proporcionados por los científicos. El diseño del sistema incorpora un enfoque de generación, debate y evolución de hipótesis, inspirado en el método científico y acelerado mediante la escalabilidad del cómputo en tiempo de prueba. Las contribuciones clave incluyen: (1) una arquitectura multiagente con un marco de ejecución de tareas asíncrono para una escalabilidad flexible del cómputo; (2) un proceso de evolución por torneo para la automejora en la generación de hipótesis. Las evaluaciones automatizadas muestran beneficios continuos del cómputo en tiempo de prueba, mejorando la calidad de las hipótesis. Aunque es de propósito general, enfocamos el desarrollo y la validación en tres áreas biomédicas: reutilización de fármacos, descubrimiento de nuevos objetivos terapéuticos y explicación de los mecanismos de evolución bacteriana y resistencia antimicrobiana. Para la reutilización de fármacos, el sistema propone candidatos con hallazgos prometedores en la validación, incluyendo candidatos para la leucemia mieloide aguda que muestran inhibición tumoral in vitro a concentraciones clínicamente aplicables. Para el descubrimiento de nuevos objetivos, el co-científico de IA propuso nuevos objetivos epigenéticos para la fibrosis hepática, validados por actividad antifibrótica y regeneración de células hepáticas en organoides hepáticos humanos. Finalmente, el co-científico de IA reprodujo resultados experimentales no publicados mediante un descubrimiento in silico paralelo de un nuevo mecanismo de transferencia génica en la evolución bacteriana. Estos resultados, detallados en informes separados y simultáneos, demuestran el potencial para potenciar el descubrimiento biomédico y científico, inaugurando una era de científicos empoderados por la IA.
Comprender teoremas específicos de un dominio a menudo requiere más que solo razonamiento basado en texto; la comunicación efectiva a través de explicaciones visuales estructuradas es crucial para una comprensión más profunda. Si bien los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) demuestran un rendimiento sólido en el razonamiento de teoremas basado en texto, su capacidad para generar explicaciones visuales coherentes y pedagógicamente significativas sigue siendo un desafío abierto. En este trabajo, presentamos TheoremExplainAgent, un enfoque agéntico para generar videos de explicación de teoremas de larga duración (más de 5 minutos) utilizando animaciones Manim. Para evaluar sistemáticamente las explicaciones multimodales de teoremas, proponemos TheoremExplainBench, un benchmark que abarca 240 teoremas en múltiples disciplinas STEM, junto con 5 métricas de evaluación automatizadas. Nuestros resultados revelan que la planificación agéntica es esencial para generar videos detallados de larga duración, y el agente o3-mini alcanza una tasa de éxito del 93.8% y una puntuación general de 0.77. Sin embargo, nuestros estudios cuantitativos y cualitativos muestran que la mayoría de los videos producidos presentan problemas menores en la disposición de los elementos visuales. Además, las explicaciones multimodales exponen fallas de razonamiento más profundas que las explicaciones basadas en texto no logran revelar, destacando la importancia de las explicaciones multimodales.
A pesar del papel fundamental de Grecia en la economía global, los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) siguen siendo poco explorados en el contexto financiero griego debido a la complejidad lingüística del griego y la escasez de conjuntos de datos específicos del dominio. Los esfuerzos previos en el procesamiento del lenguaje natural (PLN) financiero multilingüe han revelado disparidades considerables en el rendimiento, pero hasta ahora no se han desarrollado puntos de referencia financieros dedicados al griego ni LLMs financieros específicos para este idioma. Para cerrar esta brecha, presentamos Plutus-ben, el primer Punto de Referencia de Evaluación Financiera en Griego, y Plutus-8B, el pionero LLM Financiero Griego, ajustado con datos específicos del dominio griego. Plutus-ben aborda cinco tareas principales de PLN financiero en griego: reconocimiento de entidades nombradas numéricas y textuales, respuesta a preguntas, resumen abstracto y clasificación de temas, facilitando así evaluaciones sistemáticas y reproducibles de LLMs. Para respaldar estas tareas, presentamos tres nuevos conjuntos de datos financieros griegos de alta calidad, minuciosamente anotados por expertos hablantes nativos de griego, complementados por dos recursos existentes. Nuestra evaluación exhaustiva de 22 LLMs en Plutus-ben revela que el PLN financiero en griego sigue siendo un desafío debido a la complejidad lingüística, la terminología específica del dominio y las brechas en el razonamiento financiero. Estos hallazgos subrayan las limitaciones de la transferencia translingüística, la necesidad de experiencia financiera en los modelos entrenados en griego y los desafíos de adaptar los LLMs financieros al texto griego. Publicamos Plutus-ben, Plutus-8B y todos los conjuntos de datos asociados de manera pública para promover la investigación reproducible y avanzar en el PLN financiero griego, fomentando una mayor inclusión multilingüe en las finanzas.
Se espera que los modelos de lenguaje multilingües (LM, por sus siglas en inglés) recuerden conocimientos factuales de manera consistente en todos los idiomas, pero a menudo fallan en transferir conocimientos entre idiomas, incluso cuando poseen la información correcta en uno de ellos. Por ejemplo, encontramos que un LM puede identificar correctamente a Rashed Al Shashai como originario de Arabia Saudita cuando se le pregunta en árabe, pero falla consistentemente al hacerlo cuando se le pregunta en inglés o suajili. Para investigar sistemáticamente esta limitación, introducimos un benchmark de 10,000 hechos relacionados con países en 13 idiomas y proponemos tres métricas novedosas: Puntaje de Recuerdo Factual, Puntaje de Transferibilidad de Conocimiento y Puntaje de Transferibilidad de Conocimiento Factual Translingüístico, con el fin de cuantificar el recuerdo factual y la transferibilidad de conocimiento en LM a través de diferentes idiomas. Nuestros resultados revelan debilidades fundamentales en los LM más avanzados de la actualidad, particularmente en la generalización translingüística, donde los modelos no logran transferir conocimiento de manera efectiva entre diferentes idiomas, lo que lleva a un desempeño inconsistente sensible al idioma utilizado. Nuestros hallazgos enfatizan la necesidad de que los LM reconozcan la confiabilidad factual específica de cada idioma y aprovechen la información más confiable entre idiomas. Publicamos nuestro benchmark y marco de evaluación para impulsar futuras investigaciones en la transferencia de conocimiento multilingüe.
Recientemente, los modelos tipo o1 han captado una atención significativa, donde estos modelos generan largas secuencias de razonamiento en cadena (Chain-of-Thought, CoT) para mejorar las capacidades de razonamiento de los modelos de lenguaje grandes (Large Language Models, LLMs) existentes. En este artículo, para comprender las cualidades de estas largas CoTs y medir las capacidades de crítica de los LLMs existentes sobre estas largas CoTs, presentamos DeltaBench, que incluye las largas CoTs generadas por diferentes modelos tipo o1 (por ejemplo, QwQ, DeepSeek-R1) para diversas tareas de razonamiento (por ejemplo, matemáticas, código, razonamiento general), con el objetivo de medir la capacidad de detectar errores en el razonamiento de largas CoTs. Basándonos en DeltaBench, primero realizamos un análisis detallado de las largas CoTs generadas para descubrir la efectividad y eficiencia de los diferentes modelos tipo o1. Luego, llevamos a cabo evaluaciones exhaustivas de los modelos de recompensa de proceso (Process Reward Models, PRMs) y modelos críticos existentes para detectar los errores en cada proceso anotado, con el fin de investigar los límites y restricciones de los PRMs y modelos críticos actuales. Finalmente, esperamos que DeltaBench pueda guiar a los desarrolladores para comprender mejor las capacidades de razonamiento de largas CoTs de sus modelos.
Presentamos Rank1, el primer modelo de reordenamiento entrenado para aprovechar el cómputo en tiempo de prueba. Rank1 demuestra la aplicabilidad en la recuperación de información al utilizar un modelo de lenguaje de razonamiento (por ejemplo, o1 de OpenAI, R1 de Deepseek, etc.) para la destilación, con el fin de mejorar rápidamente el rendimiento de un modelo más pequeño. Recopilamos y publicamos un conjunto de datos de más de 600,000 ejemplos de trazas de razonamiento R1 a partir de consultas y pasajes de MS MARCO. Los modelos entrenados con este conjunto de datos muestran: (1) un rendimiento de vanguardia en conjuntos de datos avanzados de razonamiento y seguimiento de instrucciones; (2) un funcionamiento notablemente bueno fuera de distribución debido a la capacidad de responder a indicaciones de entrada del usuario; y (3) cadenas de razonamiento explicables que pueden ser proporcionadas a los usuarios o a sistemas basados en RAG. Además, demostramos que las versiones cuantizadas de estos modelos mantienen un rendimiento sólido mientras utilizan menos cómputo/memoria. En general, Rank1 muestra que el cómputo en tiempo de prueba permite un nuevo tipo fundamental de modelo de reordenamiento explicable y de alto rendimiento para la búsqueda.
Los modelos de recompensa (RMs) son cruciales para el entrenamiento y la ampliación en tiempo de inferencia de los grandes modelos de lenguaje (LLMs). Sin embargo, los modelos de recompensa existentes se centran principalmente en las preferencias humanas, descuidando las señales de corrección verificable que han demostrado un gran potencial en el entrenamiento de LLMs. En este artículo, proponemos el modelado de recompensas agentivo, un sistema de recompensas que combina modelos de recompensa con señales de corrección verificable desde diferentes aspectos para proporcionar recompensas confiables. Implementamos empíricamente un agente de recompensa, denominado RewardAgent, que combina recompensas basadas en preferencias humanas con dos señales verificables: factualidad y seguimiento de instrucciones, para ofrecer recompensas más confiables. Realizamos experimentos exhaustivos en benchmarks existentes de modelos de recompensa y búsquedas de mejor-de-n en tiempo de inferencia en tareas descendentes del mundo real. RewardAgent supera significativamente a los modelos de recompensa convencionales, demostrando su eficacia. Además, construimos pares de preferencias de entrenamiento utilizando RewardAgent y entrenamos un LLM con el objetivo DPO, logrando un rendimiento superior en varios benchmarks de NLP en comparación con los modelos de recompensa tradicionales. Nuestros códigos se han publicado públicamente para facilitar investigaciones futuras (https://github.com/THU-KEG/Agentic-Reward-Modeling).
Existe un creciente entusiasmo sobre el potencial de los Modelos de Lenguaje (LMs) para acelerar el descubrimiento científico. La falsificación de hipótesis es clave para el progreso científico, ya que permite refinar afirmaciones de manera iterativa con el tiempo. Este proceso requiere un esfuerzo significativo por parte de los investigadores, así como razonamiento e ingenio. Sin embargo, los puntos de referencia actuales para los LMs evalúan principalmente su capacidad para generar soluciones en lugar de cuestionarlas. Abogamos por el desarrollo de puntos de referencia que evalúen esta capacidad inversa: la creación de contraejemplos para soluciones sutilmente incorrectas. Para demostrar este enfoque, comenzamos con el dominio de la resolución algorítmica de problemas, donde los contraejemplos pueden evaluarse automáticamente mediante la ejecución de código. Específicamente, presentamos REFUTE, un punto de referencia de actualización dinámica que incluye problemas recientes y envíos incorrectos de competencias de programación, donde expertos humanos identificaron exitosamente contraejemplos. Nuestro análisis revela que los mejores agentes de razonamiento, incluso OpenAI o3-mini (alto) con retroalimentación de ejecución de código, solo pueden crear contraejemplos para <9% de las soluciones incorrectas en REFUTE, a pesar de que las calificaciones indican su capacidad para resolver hasta el 48% de estos problemas desde cero. Esperamos que nuestro trabajo impulse el progreso en la evaluación y mejora de la capacidad de los LMs para falsificar soluciones incorrectas, una habilidad crucial tanto para acelerar la investigación como para permitir que los modelos se auto-mejoren mediante un razonamiento reflexivo confiable.
Los muros de pago, las licencias y las normas de derechos de autor suelen restringir la difusión amplia y la reutilización del conocimiento científico. Adoptamos la postura de que es factible tanto legal como técnicamente extraer el conocimiento científico presente en los textos académicos. Los métodos actuales, como los embeddings de texto, no logran preservar de manera confiable el contenido factual, y la simple paráfrasis puede no ser legalmente sólida. Instamos a la comunidad a adoptar una nueva idea: convertir documentos académicos en Unidades de Conocimiento utilizando LLMs. Estas unidades utilizan datos estructurados que capturan entidades, atributos y relaciones sin contenido estilístico. Proporcionamos evidencia de que las Unidades de Conocimiento: (1) constituyen un marco legalmente defendible para compartir conocimiento a partir de textos de investigación protegidos por derechos de autor, basado en análisis legales de la ley de derechos de autor alemana y la doctrina de Uso Justo de EE. UU., y (2) preservan la mayor parte (~95%) del conocimiento factual del texto original, medido por el rendimiento en preguntas de opción múltiple sobre hechos del texto original protegido por derechos de autor en cuatro dominios de investigación. Liberar el conocimiento científico de los derechos de autor promete beneficios transformadores para la investigación y la educación científica al permitir que los modelos de lenguaje reutilicen hechos importantes de textos protegidos. Para apoyar esto, compartimos herramientas de código abierto para convertir documentos de investigación en Unidades de Conocimiento. En general, nuestro trabajo plantea la viabilidad de democratizar el acceso al conocimiento científico respetando los derechos de autor.
El entrenamiento de Modelos de Visión-Lenguaje (VLMs) para agentes de Interfaces Gráficas de Usuario (GUI) mediante Aprendizaje por Refuerzo (RL) enfrenta desafíos críticos: el RL basado en entorno requiere interacciones costosas, mientras que los métodos libres de entorno luchan con el cambio de distribución y la generalización de recompensas. Proponemos un marco de RL libre de entorno que desacopla la estimación de valor de la optimización de políticas mediante el uso de un Modelo de Entorno de Valor (VEM) preentrenado. El VEM predice los valores de estado-acción directamente a partir de datos fuera de línea, destilando conocimientos previos similares a los humanos sobre los resultados de la interacción con la GUI sin necesidad de predecir el siguiente estado o recibir retroalimentación del entorno. Esto evita la acumulación de errores y mejora la resiliencia a los cambios en la interfaz al centrarse en el razonamiento semántico (por ejemplo, ¿Esta acción avanza hacia el objetivo del usuario?). El marco opera en dos etapas: (1) preentrenar el VEM para estimar las utilidades de acción a largo plazo y (2) guiar la exploración de políticas con señales de VEM congeladas, permitiendo la automatización de GUI independiente del diseño. Evaluado en benchmarks de Android-in-the-Wild, el VEM logra un rendimiento de vanguardia tanto en configuraciones fuera de línea como en línea, superando significativamente a los métodos libres de entorno y equiparándose a los enfoques basados en entorno sin incurrir en costos de interacción. Es importante destacar que el VEM demuestra que la estimación de valor consciente de la semántica puede alcanzar un rendimiento comparable con los métodos entrenados en línea.
La estimación de profundidad monocular (MDE, por sus siglas en inglés) tiene como objetivo predecir la profundidad de una escena a partir de una única imagen RGB y desempeña un papel crucial en la comprensión de escenas 3D. Los avances recientes en MDE de cero disparos aprovechan representaciones de profundidad normalizada y aprendizaje basado en destilación para mejorar la generalización en diversas escenas. Sin embargo, los métodos actuales de normalización de profundidad para destilación, que dependen de la normalización global, pueden amplificar etiquetas pseudo-ruidosas, reduciendo la efectividad de la destilación. En este artículo, analizamos sistemáticamente el impacto de diferentes estrategias de normalización de profundidad en la destilación de etiquetas pseudo. Basándonos en nuestros hallazgos, proponemos la Destilación de Contexto Cruzado, que integra señales de profundidad globales y locales para mejorar la calidad de las etiquetas pseudo. Además, introducimos un marco de destilación multi-maestro que aprovecha las fortalezas complementarias de diferentes modelos de estimación de profundidad, lo que conduce a predicciones de profundidad más robustas y precisas. Experimentos exhaustivos en conjuntos de datos de referencia demuestran que nuestro enfoque supera significativamente a los métodos más avanzados, tanto cuantitativa como cualitativamente.
Los modelos de lenguaje dependen en gran medida de datos de alta calidad para un rendimiento óptimo. Los enfoques existentes se basan en heurísticas diseñadas manualmente, la perplejidad de modelos existentes, el entrenamiento de clasificadores o la ingeniería cuidadosa de prompts, lo que requiere una experiencia experta significativa y un esfuerzo de anotación humana, además de introducir sesgos. Presentamos CritiQ, un método novedoso de selección de datos que extrae automáticamente criterios de las preferencias humanas sobre la calidad de los datos utilizando solo 30 pares anotados por humanos y realiza una selección eficiente de datos. El componente principal, CritiQ Flow, emplea un agente gestor para evolucionar los criterios de calidad y agentes trabajadores para realizar juicios por pares. Construimos una base de conocimiento que extrae criterios de calidad de trabajos previos para potenciar CritiQ Flow. En comparación con los métodos basados en perplejidad y clasificadores, los criterios verbales son más interpretables y poseen valor reutilizable. Tras derivar los criterios, entrenamos el CritiQ Scorer para asignar puntuaciones de calidad y realizar una selección eficiente de datos. Demostramos la efectividad de nuestro método en los dominios de código, matemáticas y lógica, logrando una alta precisión en conjuntos de prueba anotados por humanos. Para validar la calidad de los datos seleccionados, entrenamos continuamente modelos Llama 3.1 y observamos un mejor rendimiento en tareas posteriores en comparación con el muestreo uniforme. Estudios de ablación validan los beneficios de la base de conocimiento y el proceso de reflexión. Analizamos cómo evolucionan los criterios y la efectividad de la votación por mayoría.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se están implementando cada vez más en aplicaciones cotidianas, lo que exige capacidades de razonamiento general robustas y un conjunto diverso de habilidades de razonamiento. Sin embargo, los puntos de referencia actuales para evaluar el razonamiento de los LLMs se centran predominantemente en habilidades matemáticas y de programación, dejando un vacío en la evaluación de competencias de razonamiento más amplias. Una excepción particular es el conjunto de datos BIG-Bench, que ha servido como un punto de referencia crucial para evaluar las capacidades de razonamiento general de los LLMs, gracias a su diverso conjunto de tareas desafiantes que permitieron una evaluación integral del razonamiento general en diversas habilidades dentro de un marco unificado. No obstante, los avances recientes en los LLMs han llevado a la saturación en BIG-Bench y en su versión más difícil, BIG-Bench Hard (BBH). Los modelos de última generación alcanzan puntuaciones casi perfectas en muchas tareas de BBH, lo que reduce su utilidad. Para abordar esta limitación, presentamos BIG-Bench Extra Hard (BBEH), un nuevo punto de referencia diseñado para ampliar los límites de la evaluación del razonamiento en LLMs. BBEH reemplaza cada tarea en BBH con una tarea novedosa que explora una capacidad de razonamiento similar pero presenta un nivel de dificultad significativamente mayor. Evaluamos varios modelos en BBEH y observamos una precisión promedio (armónica) del 9,8% para el mejor modelo de propósito general y del 44,8% para el mejor modelo especializado en razonamiento, lo que indica un margen sustancial de mejora y resalta el desafío continuo de lograr un razonamiento general robusto en los LLMs. Publicamos BBEH de manera abierta en: https://github.com/google-deepmind/bbeh.
La personalización efectiva de los LLM (Modelos de Lenguaje de Gran Escala) es crucial para una amplia gama de aplicaciones orientadas al usuario, como asistentes virtuales y curación de contenido. Inspirados por las sólidas capacidades de aprendizaje en contexto de los LLM, proponemos la Optimización de Preferencias con Pocos Ejemplos (FSPO, por sus siglas en inglés), que reformula el modelado de recompensas como un problema de metaaprendizaje. Bajo este marco, un LLM aprende a adaptarse rápidamente a un usuario a través de unas pocas preferencias etiquetadas de ese usuario, construyendo una función de recompensa personalizada para él. Además, dado que los datos de preferencias del mundo real son escasos y difíciles de recopilar a gran escala, proponemos decisiones de diseño cuidadosas para construir conjuntos de datos sintéticos de preferencias para la personalización, generando más de 1 millón de preferencias personalizadas sintéticas utilizando LLM disponibles públicamente. En particular, para transferir con éxito los datos sintéticos a usuarios reales, encontramos que es crucial que los datos exhiban tanto una alta diversidad como una estructura coherente y autoconsistente. Evaluamos FSPO en la generación abierta personalizada para hasta 1,500 usuarios sintéticos en tres dominios: reseñas de películas, adaptación pedagógica basada en antecedentes educativos y respuesta general a preguntas, junto con un estudio controlado con humanos. En general, FSPO logra una tasa de éxito promedio del 87% en Alpaca Eval al generar respuestas personalizadas para usuarios sintéticos y una tasa de éxito del 72% con usuarios humanos reales en la respuesta abierta a preguntas.
La arquitectura Mixture of Experts (MoE) reduce significativamente los costos de entrenamiento e inferencia en comparación con un modelo denso de capacidad equivalente. El reciclaje (upcycling) es un enfoque que inicializa y entrena un modelo MoE utilizando un modelo denso preentrenado. Si bien el reciclaje conduce a mejoras iniciales en el rendimiento, el entrenamiento avanza más lento que cuando se entrena desde cero, lo que resulta en un rendimiento subóptimo a largo plazo. Proponemos Drop-Upcycling, un método que aborda eficazmente este problema. Drop-Upcycling combina dos enfoques aparentemente contradictorios: utilizar el conocimiento de modelos densos preentrenados mientras se reinicializan estadísticamente algunas partes de los pesos. Este enfoque promueve estratégicamente la especialización de los expertos, mejorando significativamente la eficiencia del modelo MoE en la adquisición de conocimiento. Experimentos extensos a gran escala demuestran que Drop-Upcycling supera significativamente a los métodos anteriores de construcción de MoE a largo plazo, específicamente cuando se entrena con cientos de miles de millones de tokens o más. Como resultado, nuestro modelo MoE con 5.9 mil millones de parámetros activos logra un rendimiento comparable al de un modelo denso de 13 mil millones en la misma familia de modelos, mientras requiere aproximadamente 1/4 de los FLOPs de entrenamiento. Todos los recursos experimentales, incluidos el código fuente, los datos de entrenamiento, los puntos de control del modelo y los registros, están disponibles públicamente para promover la reproducibilidad y futuras investigaciones sobre MoE.
La comunicación efectiva en el Control de Tráfico Aéreo (ATC) es fundamental para mantener la seguridad de la aviación, sin embargo, los desafíos planteados por el inglés con acento siguen siendo en gran medida no abordados en los sistemas de Reconocimiento Automático del Habla (ASR). Los modelos existentes tienen dificultades con la precisión de transcripción para el habla con acento del Sudeste Asiático (acento SEA), especialmente en entornos ruidosos de ATC. Este estudio presenta el desarrollo de modelos ASR ajustados específicamente para acentos del Sudeste Asiático utilizando un conjunto de datos recién creado. Nuestra investigación logra mejoras significativas, alcanzando una Tasa de Error de Palabras (WER) de 0.0982 o 9.82% en el habla con acento SEA en el ATC. Además, el documento destaca la importancia de conjuntos de datos específicos de la región y entrenamiento centrado en el acento, ofreciendo un camino para implementar sistemas ASR en operaciones militares con recursos limitados. Los hallazgos enfatizan la necesidad de técnicas de entrenamiento robustas al ruido y conjuntos de datos específicos de la región para mejorar la precisión de transcripción para acentos no occidentales en las comunicaciones de ATC.
A medida que los modelos de IA se despliegan cada vez más en diversos escenarios del mundo real, garantizar su seguridad sigue siendo un desafío crítico pero poco explorado. Si bien se han realizado esfuerzos sustanciales para evaluar y mejorar la seguridad de la IA, la falta de un marco estandarizado y un conjunto de herramientas integral plantea obstáculos significativos para la investigación sistemática y la adopción práctica. Para cerrar esta brecha, presentamos AISafetyLab, un marco unificado y un conjunto de herramientas que integra metodologías representativas de ataque, defensa y evaluación para la seguridad de la IA. AISafetyLab cuenta con una interfaz intuitiva que permite a los desarrolladores aplicar diversas técnicas de manera fluida, manteniendo una base de código bien estructurada y extensible para futuros avances. Además, realizamos estudios empíricos en Vicuna, analizando diferentes estrategias de ataque y defensa para ofrecer información valiosa sobre su efectividad comparativa. Para facilitar la investigación y el desarrollo continuo en seguridad de la IA, AISafetyLab está disponible públicamente en https://github.com/thu-coai/AISafetyLab, y estamos comprometidos con su mantenimiento y mejora continua.
Establecer la relación entre las estructuras 3D y los estados energéticos de los sistemas moleculares ha demostrado ser un enfoque prometedor para aprender representaciones moleculares en 3D. Sin embargo, los métodos existentes se limitan a modelar los estados energéticos moleculares desde la mecánica clásica. Esta limitación resulta en una omisión significativa de los efectos de la mecánica cuántica, como las estructuras de niveles de energía cuantizados (discretos), que ofrecen una estimación más precisa de la energía molecular y pueden medirse experimentalmente a través de espectros de energía. En este artículo, proponemos utilizar los espectros de energía para mejorar el pre-entrenamiento de representaciones moleculares en 3D (MolSpectra), infundiendo así el conocimiento de la mecánica cuántica en las representaciones moleculares. Específicamente, proponemos SpecFormer, un codificador multi-espectro para codificar espectros moleculares mediante la reconstrucción de parches enmascarados. Al alinear adicionalmente las salidas del codificador 3D y el codificador de espectros utilizando un objetivo contrastivo, mejoramos la comprensión del codificador 3D sobre las moléculas. Las evaluaciones en benchmarks públicos revelan que nuestras representaciones pre-entrenadas superan a los métodos existentes en la predicción de propiedades moleculares y el modelado de dinámicas.
Las técnicas de edición de conocimiento han surgido como herramientas esenciales para actualizar el conocimiento factual de grandes modelos de lenguaje (LLMs) y modelos multimodales (LMMs), permitiéndoles corregir información desactualizada o inexacta sin necesidad de volver a entrenar desde cero. Sin embargo, los benchmarks existentes para la edición de conocimiento multimodal se centran principalmente en el conocimiento a nivel de entidad representado como tripletes simples, lo cual no logra capturar la complejidad de la información multimodal del mundo real. Para abordar este problema, presentamos MMKE-Bench, un completo Benchmark de Edición de Conocimiento MultiModal, diseñado para evaluar la capacidad de los LMMs para editar diversos conocimientos visuales en escenarios del mundo real. MMKE-Bench aborda estas limitaciones al incorporar tres tipos de tareas de edición: edición de entidades visuales, edición semántica visual y edición específica del usuario. Además, MMKE-Bench utiliza lenguaje natural de forma libre para representar y editar conocimiento, ofreciendo un formato más flexible y efectivo. El benchmark consta de 2,940 piezas de conocimiento y 8,363 imágenes en 33 categorías amplias, con preguntas de evaluación generadas automáticamente y verificadas por humanos. Evaluamos cinco métodos de edición de conocimiento de última generación en tres destacados LMMs, revelando que ningún método sobresale en todos los criterios, y que las ediciones visuales y específicas del usuario son particularmente desafiantes. MMKE-Bench establece un nuevo estándar para evaluar la robustez de las técnicas de edición de conocimiento multimodal, impulsando el progreso en este campo en constante evolución.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) se han convertido en una parte indispensable de las tareas de procesamiento del lenguaje natural. Sin embargo, el muestreo autorregresivo se ha convertido en un cuello de botella en términos de eficiencia. La Decodificación Especulativa de Múltiples Borradores (MDSD, por sus siglas en inglés) es un enfoque reciente en el que, al generar cada token, un modelo de borrador pequeño genera múltiples borradores, y el LLM objetivo los verifica en paralelo, asegurando que la salida final se ajuste a la distribución del modelo objetivo. Las dos principales decisiones de diseño en MDSD son el método de muestreo de borradores y el algoritmo de verificación. Para un método de muestreo de borradores fijo, la tasa de aceptación óptima es la solución a un problema de transporte óptimo, pero la complejidad de este problema dificulta la resolución de la tasa de aceptación óptima y la medición de la brecha entre los algoritmos de verificación existentes y el límite teórico superior. Este artículo discute el dual del problema de transporte óptimo, proporcionando una forma de calcular eficientemente la tasa de aceptación óptima. Por primera vez, medimos el límite teórico superior de la eficiencia de MDSD para tamaños de vocabulario en el orden de los miles y cuantificamos la brecha entre los algoritmos de verificación existentes y este límite. También comparamos diferentes métodos de muestreo de borradores basados en sus tasas de aceptación óptimas. Nuestros resultados muestran que el método de muestreo de borradores influye significativamente en la tasa de aceptación óptima, con el muestreo sin reemplazo superando al muestreo con reemplazo. Además, los algoritmos de verificación existentes no alcanzan el límite teórico superior tanto para el muestreo sin reemplazo como con reemplazo. Nuestros hallazgos sugieren que los métodos de muestreo de borradores cuidadosamente diseñados pueden potencialmente mejorar la tasa de aceptación óptima y permitir el desarrollo de algoritmos de verificación que se acerquen al límite teórico superior.
Generar resúmenes textuales precisos y concisos a partir de documentos multimodales es un desafío, especialmente cuando se trata de contenido visualmente complejo como pósteres científicos. Presentamos PosterSum, un nuevo punto de referencia para avanzar en el desarrollo de modelos de visión y lenguaje capaces de comprender y resumir pósteres científicos en resúmenes de artículos de investigación. Nuestro conjunto de datos contiene 16.305 pósteres de conferencias emparejados con sus resúmenes correspondientes. Cada póster se proporciona en formato de imagen y presenta diversos desafíos de comprensión visual, como diseños complejos, regiones de texto densas, tablas y figuras. Evaluamos modelos de lenguaje multimodal de última generación (MLLMs) en PosterSum y demostramos que tienen dificultades para interpretar y resumir con precisión los pósteres científicos. Proponemos Segment & Summarize, un método jerárquico que supera a los MLLMs actuales en métricas automatizadas, logrando una mejora del 3.14% en ROUGE-L. Esto servirá como punto de partida para futuras investigaciones sobre la resumización de pósteres.
La segmentación semántica débilmente supervisada (WSSS, por sus siglas en inglés) suele utilizar anotaciones semánticas limitadas para obtener mapas de activación de clases (CAMs, por sus siglas en inglés) iniciales. Sin embargo, debido al acoplamiento insuficiente entre las respuestas de activación de clases y la información semántica en el espacio de alta dimensión, los CAMs son propensos a la co-ocurrencia de objetos o a la subactivación, lo que resulta en una precisión de reconocimiento inferior. Para abordar este problema, proponemos DOEI, Optimización Dual de la Información de Incrustación, un enfoque novedoso que reconstruye las representaciones de incrustación mediante matrices de pesos de atención conscientes de la semántica para optimizar la capacidad de expresión de la información de incrustación. Específicamente, DOEI amplifica los tokens con alta confianza y suprime aquellos con baja confianza durante la interacción clase-a-parche. Esta alineación de las respuestas de activación con la información semántica fortalece la propagación y el desacoplamiento de las características objetivo, permitiendo que las incrustaciones generadas representen con mayor precisión las características objetivo en el espacio semántico de alto nivel. Además, proponemos un módulo de alineación de características híbridas en DOEI que combina valores RGB, características guiadas por incrustaciones y pesos de auto-atención para aumentar la fiabilidad de los tokens candidatos. Experimentos exhaustivos muestran que DOEI es un módulo plug-and-play efectivo que potencia los modelos WSSS basados en transformadores visuales de última generación, mejorando significativamente la calidad de los CAMs y el rendimiento de segmentación en benchmarks populares, incluyendo PASCAL VOC (+3.6%, +1.5%, +1.2% mIoU) y MS COCO (+1.2%, +1.6% mIoU). El código estará disponible en https://github.com/AIGeeksGroup/DOEI.