Artículos de investigación en IA seleccionados diariamente con traducciones
El razonamiento matemático visual, como una habilidad fundamental de razonamiento visual, ha recibido una atención generalizada por parte de la comunidad de Modelos Multimodales de Gran Escala (LMMs). Los benchmarks existentes, como MathVista y MathVerse, se centran más en el rendimiento orientado a resultados, pero descuidan los principios subyacentes en la adquisición y generalización del conocimiento. Inspirados por el razonamiento matemático similar al humano, presentamos WE-MATH, el primer benchmark diseñado específicamente para explorar los principios de resolución de problemas más allá del rendimiento de extremo a extremo. Recopilamos y categorizamos meticulosamente 6.5K problemas matemáticos visuales, abarcando 67 conceptos de conocimiento jerárquicos y cinco niveles de granularidad del conocimiento. Descomponemos problemas compuestos en subproblemas según los conceptos de conocimiento requeridos e introducimos una nueva métrica de cuatro dimensiones, a saber, Conocimiento Insuficiente (IK), Generalización Inadecuada (IG), Dominio Completo (CM) y Memorización Mecánica (RM), para evaluar jerárquicamente los problemas inherentes en el proceso de razonamiento de los LMMs. Con WE-MATH, realizamos una evaluación exhaustiva de los LMMs existentes en el razonamiento matemático visual y revelamos una correlación negativa entre los pasos de resolución y el rendimiento específico del problema. Confirmamos que el problema de IK en los LMMs puede mejorarse efectivamente mediante estrategias de aumento de conocimiento. Más notablemente, el principal desafío de GPT-4o ha transitado significativamente de IK a IG, estableciéndolo como el primer LMM que avanza hacia la etapa de generalización del conocimiento. En contraste, otros LMMs muestran una marcada inclinación hacia la Memorización Mecánica: resuelven correctamente problemas compuestos que involucran múltiples conceptos de conocimiento, pero fallan al responder subproblemas. Anticipamos que WE-MATH abrirá nuevas vías para avances en el razonamiento matemático visual para los LMMs. Los datos de WE-MATH y el código de evaluación están disponibles en https://github.com/We-Math/We-Math.
Presentamos un marco para la programación intuitiva de robots por parte de no expertos, aprovechando indicaciones en lenguaje natural e información contextual del Robot Operating System (ROS). Nuestro sistema integra modelos de lenguaje de gran escala (LLMs), permitiendo que los no expertos articulen los requisitos de las tareas al sistema a través de una interfaz de chat. Las características clave del marco incluyen: integración de ROS con un agente de IA conectado a una amplia gama de LLMs de código abierto y comerciales, extracción automática de un comportamiento a partir de la salida del LLM y ejecución de acciones/servicios de ROS, soporte para tres modos de comportamiento (secuencia, árbol de comportamiento, máquina de estados), aprendizaje por imitación para agregar nuevas acciones de robots a la biblioteca de acciones posibles, y reflexión del LLM mediante retroalimentación humana y del entorno. Experimentos extensos validan el marco, demostrando robustez, escalabilidad y versatilidad en diversos escenarios, incluyendo tareas de largo plazo, reordenamientos en mesas y control supervisorio remoto. Para facilitar la adopción de nuestro marco y apoyar la reproducción de nuestros resultados, hemos hecho nuestro código de código abierto. Puedes acceder a él en: https://github.com/huawei-noah/HEBO/tree/master/ROSLLM.
Los documentos son estructuras visualmente ricas que transmiten información a través de texto, así como de tablas, figuras, diseños de página o tipografías. Si bien los sistemas modernos de recuperación de documentos muestran un rendimiento sólido en la coincidencia de consultas con texto, tienen dificultades para aprovechar eficientemente las señales visuales, lo que limita su desempeño en aplicaciones prácticas de recuperación de documentos, como la Generación Aumentada por Recuperación. Para evaluar los sistemas actuales en la recuperación de documentos visualmente ricos, presentamos el Benchmark de Recuperación de Documentos Visuales ViDoRe, compuesto por diversas tareas de recuperación a nivel de página que abarcan múltiples dominios, idiomas y configuraciones. Las limitaciones inherentes de los sistemas modernos motivan la introducción de una nueva arquitectura de modelo de recuperación, ColPali, que aprovecha las capacidades de comprensión de documentos de los modelos de lenguaje visual recientes para generar incrustaciones contextualizadas de alta calidad únicamente a partir de imágenes de páginas de documentos. Combinado con un mecanismo de coincidencia de interacción tardía, ColPali supera ampliamente las canalizaciones modernas de recuperación de documentos, siendo significativamente más rápido y entrenable de extremo a extremo.
Investigaciones recientes sugieren que los algoritmos de búsqueda en árbol (por ejemplo, la Búsqueda en Árbol de Montecarlo) pueden mejorar drásticamente el rendimiento de los LLM en tareas complejas de razonamiento matemático. Sin embargo, estos algoritmos suelen requerir más de 10 veces los recursos computacionales del decodificado codicioso debido a estrategias de búsqueda ineficientes, lo que dificulta su implementación en aplicaciones prácticas. Este estudio introduce un novedoso algoritmo de búsqueda en árbol guiada con selección dinámica de nodos y cálculo del presupuesto de exploración a nivel de nodo (número máximo de hijos) para abordar este problema. Al considerar el progreso de la búsqueda hacia la respuesta final (historial) y la guía de una red de valor (futuro) entrenada sin anotaciones paso a paso, nuestro algoritmo selecciona iterativamente el nodo del árbol más prometedor antes de expandirlo dentro de los límites del presupuesto computacional asignado. Los experimentos realizados en los conjuntos de datos GSM8K y TabMWP demuestran que nuestro enfoque no solo ofrece un rendimiento competitivo, sino que también tiene costos computacionales significativamente más bajos en comparación con los métodos de referencia.
La mezcla de datos para el preentrenamiento de modelos de lenguaje a gran escala impacta significativamente el rendimiento, pero aún no está claro cómo determinar una mezcla efectiva. Proponemos RegMix para identificar automáticamente una mezcla de datos de alto rendimiento formulándola como una tarea de regresión. RegMix implica entrenar un conjunto de modelos pequeños con diversas mezclas de datos y ajustar un modelo de regresión para predecir su rendimiento dadas sus respectivas mezclas. Con el modelo de regresión ajustado, simulamos la mezcla mejor clasificada y la usamos para entrenar un modelo a gran escala con órdenes de magnitud más de capacidad computacional. Para validar empíricamente RegMix, entrenamos 512 modelos con 1 millón de parámetros para 1 billón de tokens de diferentes mezclas para ajustar el modelo de regresión y encontrar la mezcla óptima. Usando esta mezcla, entrenamos un modelo de 1 billón de parámetros para 25 billones de tokens (es decir, 1000 veces más grande y 25 veces más largo), que encontramos que tiene el mejor rendimiento entre 64 modelos candidatos de 1 billón de parámetros con otras mezclas. Además, nuestro método demuestra un rendimiento superior en comparación con la selección humana y logra resultados que igualan o superan a DoReMi, utilizando solo el 10% del presupuesto computacional. Nuestros experimentos también muestran que (1) Las mezclas de datos impactan significativamente el rendimiento, con variaciones de rendimiento en tareas individuales de hasta el 14.6%; (2) Los corpus web, en lugar de datos percibidos como de alta calidad como Wikipedia, tienen la correlación positiva más fuerte con el rendimiento en tareas posteriores; (3) Los dominios interactúan de maneras complejas que a menudo contradicen el sentido común, por lo que se necesitan enfoques automáticos como RegMix; (4) Los efectos de la mezcla de datos trascienden las leyes de escalado, y nuestro enfoque captura la complejidad al considerar todos los dominios juntos. Nuestro código está disponible en https://github.com/sail-sg/regmix.
Los Modelos Multimodales de Gran Escala (LMMs) exhiben capacidades impresionantes de comprensión y razonamiento multimodal, evaluadas frecuentemente mediante preguntas de opción múltiple (MCQs) que incluyen una imagen, una pregunta y varias opciones. Sin embargo, muchos de los benchmarks utilizados para estas evaluaciones presentan sesgos sistemáticos. Notablemente, los Modelos de Lenguaje de Gran Escala (LLMs) sin capacidades de percepción visual logran un desempeño no trivial, lo que socava la credibilidad de estas evaluaciones. Para abordar este problema manteniendo la eficiencia de las evaluaciones con MCQs, proponemos MMEvalPro, un benchmark diseñado para evitar errores de Tipo-I mediante una trilogía de evaluación y métricas más rigurosas. Para cada pregunta original de los benchmarks existentes, anotadores humanos la amplían creando una pregunta de percepción y una pregunta de anclaje de conocimiento a través de un proceso de anotación meticuloso. MMEvalPro consta de 2,138 tripletes de preguntas, totalizando 6,414 preguntas distintas. Dos tercios de estas preguntas están etiquetadas manualmente por expertos humanos, mientras que el resto proviene de benchmarks existentes (MMMU, ScienceQA y MathVista). En comparación con los benchmarks actuales, nuestros experimentos con los últimos LLMs y LMMs demuestran que MMEvalPro es más desafiante (el mejor LMM se encuentra 31.73% por detrás del desempeño humano, en comparación con una brecha promedio de 8.03% en benchmarks anteriores) y más confiable (el mejor LLM está 23.09% por detrás del mejor LMM, mientras que la brecha en benchmarks anteriores es de solo 14.64%). Nuestro análisis en profundidad explica la razón de la gran brecha de desempeño y justifica la confiabilidad de la evaluación, destacando su potencial significativo para impulsar futuras investigaciones.
En este artículo, adoptamos un nuevo enfoque para la generación autoregresiva de imágenes que se basa en dos componentes principales. El primero es la codificación de imágenes mediante wavelets, que permite tokenizar los detalles visuales de una imagen desde los más gruesos hasta los más finos, ordenando la información comenzando con los bits más significativos de los coeficientes wavelet más relevantes. El segundo es una variante de un transformador de lenguaje cuya arquitectura ha sido rediseñada y optimizada para secuencias de tokens en este "lenguaje wavelet". El transformador aprende las correlaciones estadísticas significativas dentro de una secuencia de tokens, que son manifestaciones de las bien conocidas correlaciones entre los subbandas wavelet a diversas resoluciones. Presentamos resultados experimentales con condicionamiento en el proceso de generación.
La Optimización Directa de Preferencias (DPO, por sus siglas en inglés) ha demostrado ser efectiva para mejorar el rendimiento de los modelos de lenguaje de gran escala (LLMs) en tareas posteriores como el razonamiento y la alineación. En este trabajo, proponemos la Optimización Directa de Preferencias Controlada por Pasos (SCDPO), un método que proporciona automáticamente supervisión de errores paso a paso mediante la creación de muestras negativas de razonamientos matemáticos que comienzan a cometer errores en un paso específico. Al aplicar estas muestras en el entrenamiento de DPO, SCDPO puede alinear mejor el modelo para comprender los errores de razonamiento y generar pasos de razonamiento precisos. Aplicamos SCDPO tanto a soluciones integradas con código como a soluciones de cadena de pensamiento, demostrando empíricamente que mejora consistentemente el rendimiento en comparación con DPO básico en tres modelos SFT diferentes, incluyendo un modelo SFT existente y dos modelos que ajustamos. Un análisis cualitativo de la asignación de créditos de SCDPO y DPO demuestra la efectividad de SCDPO para identificar errores en soluciones matemáticas. Luego, aplicamos SCDPO a un modelo InternLM2-20B, obteniendo un modelo de 20B que alcanza puntajes altos de 88.5% en GSM8K y 58.1% en MATH, rivalizando con todos los demás LLMs de código abierto, lo que muestra el gran potencial de nuestro método.
Este artículo presenta un método para la restauración de video zero-shot utilizando modelos de difusión preentrenados para la restauración de imágenes. Los métodos tradicionales de restauración de video suelen requerir reentrenamiento para diferentes configuraciones y tienen dificultades para generalizar en diversos tipos de degradación y conjuntos de datos. Nuestro enfoque emplea una estrategia jerárquica de fusión de tokens para fotogramas clave y fotogramas locales, combinada con un mecanismo híbrido de correspondencia que integra flujo óptico y emparejamiento de vecinos más cercanos basado en características (fusión latente). Demostramos que nuestro método no solo logra un rendimiento superior en la restauración de video zero-shot, sino que también supera significativamente a los modelos entrenados en generalización en diversos conjuntos de datos y degradaciones extremas (super-resolución de 8 veces y eliminación de ruido en video con alta desviación estándar). Presentamos evidencia a través de métricas cuantitativas y comparaciones visuales en varios conjuntos de datos desafiantes. Además, nuestra técnica funciona con cualquier modelo de difusión de restauración 2D, ofreciendo una herramienta versátil y potente para tareas de mejora de video sin necesidad de un extenso reentrenamiento. Esta investigación conduce a tecnologías de restauración de video más eficientes y ampliamente aplicables, apoyando avances en campos que requieren salidas de video de alta calidad. Consulte nuestra página del proyecto para ver los resultados en video en https://jimmycv07.github.io/DiffIR2VR_web/.
La transferencia de estilo es un proceso creativo diseñado para generar una imagen que mantiene la esencia del original mientras adopta el estilo visual de otra. Aunque los modelos de difusión han demostrado un poder generativo impresionante en aplicaciones personalizadas basadas en sujetos o estilos, los métodos actuales más avanzados aún enfrentan dificultades para lograr un equilibrio fluido entre la preservación del contenido y la mejora del estilo. Por ejemplo, amplificar la influencia del estilo a menudo puede comprometer la integridad estructural del contenido. Para abordar estos desafíos, descomponemos la tarea de transferencia de estilo en tres elementos clave: 1) Estilo, centrado en las características estéticas de la imagen; 2) Estructura Espacial, relacionada con la disposición geométrica y la composición de los elementos visuales; y 3) Contenido Semántico, que captura el significado conceptual de la imagen. Guiados por estos principios, presentamos InstantStyle-Plus, un enfoque que prioriza la integridad del contenido original mientras integra de manera fluida el estilo objetivo. Específicamente, nuestro método logra la inyección de estilo mediante un proceso eficiente y ligero, utilizando el marco de trabajo de vanguardia InstantStyle. Para reforzar la preservación del contenido, iniciamos el proceso con un ruido latente de contenido invertido y un ControlNet de mosaico versátil plug-and-play para mantener el diseño intrínseco de la imagen original. También incorporamos un adaptador semántico global para mejorar la fidelidad del contenido semántico. Para proteger contra la dilución de la información de estilo, se emplea un extractor de estilo como discriminador para proporcionar orientación adicional sobre el estilo. Los códigos estarán disponibles en https://github.com/instantX-research/InstantStyle-Plus.
Las mejoras en las capacidades de los modelos de lenguaje han impulsado sus aplicaciones hacia contextos más extensos, convirtiendo la evaluación y el desarrollo de contextos largos en un área de investigación activa. Sin embargo, muchos casos de uso diversos se agrupan bajo el término general de "contexto largo", definido simplemente por la longitud total de la entrada del modelo, incluyendo, por ejemplo, tareas de "aguja en un pajar", resumen de libros y agregación de información. Dada su variada dificultad, en este documento de posición argumentamos que agrupar diferentes tareas por su longitud de contexto es improductivo. Como comunidad, necesitamos un vocabulario más preciso para comprender qué hace que las tareas de contexto largo sean similares o diferentes. Proponemos desglosar la taxonomía del contexto largo basándonos en las propiedades que las hacen más difíciles con contextos más extensos. Proponemos dos ejes ortogonales de dificultad: (I) Difusión: ¿Qué tan difícil es encontrar la información necesaria en el contexto? (II) Alcance: ¿Cuánta información necesaria hay que encontrar? Revisamos la literatura sobre contexto largo, justificamos esta taxonomía como un descriptor informativo y situamos la literatura en relación con ella. Concluimos que los escenarios más difíciles e interesantes, cuya información necesaria es muy extensa y altamente difusa dentro de la entrada, están severamente subexplorados. Al utilizar un vocabulario descriptivo y discutir las propiedades relevantes de la dificultad en el contexto largo, podemos implementar una investigación más informada en esta área. Hacemos un llamado para un diseño cuidadoso de tareas y puntos de referencia con contextos claramente largos, teniendo en cuenta las características que los hacen cualitativamente diferentes de los contextos más cortos.
Este artículo presenta Embarrassingly Easy Text-to-Speech (E2 TTS), un sistema de conversión de texto a voz completamente no autoregresivo y de cero disparos que ofrece una naturalidad a nivel humano, así como una similitud de hablante e inteligibilidad de vanguardia. En el marco de E2 TTS, la entrada de texto se convierte en una secuencia de caracteres con tokens de relleno. Luego, el generador de espectrogramas mel basado en emparejamiento de flujo se entrena utilizando la tarea de relleno de audio. A diferencia de muchos trabajos anteriores, no requiere componentes adicionales (por ejemplo, un modelo de duración, grafema a fonema) ni técnicas complejas (por ejemplo, búsqueda de alineación monótona). A pesar de su simplicidad, E2 TTS logra capacidades de conversión de texto a voz de cero disparos de vanguardia que son comparables o superan trabajos anteriores, incluyendo Voicebox y NaturalSpeech 3. La simplicidad de E2 TTS también permite flexibilidad en la representación de la entrada. Proponemos varias variantes de E2 TTS para mejorar la usabilidad durante la inferencia. Consulte https://aka.ms/e2tts/ para ver muestras de demostración.
La generación de rostros impulsada por audio genérico para personas es una tarea desafiante en visión por computadora. Métodos anteriores han logrado avances notables en la sincronización audiovisual, pero aún existe una brecha significativa entre los resultados actuales y las aplicaciones prácticas. Los desafíos son dobles: 1) Preservar los rasgos individuales únicos para lograr una sincronización labial de alta precisión. 2) Generar representaciones faciales de alta calidad con un rendimiento en tiempo real. En este artículo, proponemos un nuevo marco generalizado impulsado por audio llamado RealTalk, que consta de un transformador de audio a expresión y un renderizador de expresión a rostro de alta fidelidad. En el primer componente, consideramos tanto las características de identidad como las variaciones intra-personales relacionadas con los movimientos labiales al hablar. Al incorporar atención multimodal en los antecedentes faciales enriquecidos, podemos alinear eficazmente los movimientos labiales con el audio, logrando así una mayor precisión en la predicción de expresiones. En el segundo componente, diseñamos un módulo ligero de alineación de identidad facial (FIA) que incluye una estructura de control de forma labial y una estructura de referencia de textura facial. Este diseño novedoso nos permite generar detalles finos en tiempo real, sin depender de módulos de alineación de características sofisticados e ineficientes. Nuestros resultados experimentales, tanto cuantitativos como cualitativos, en conjuntos de datos públicos demuestran las claras ventajas de nuestro método en términos de sincronización labial-habla y calidad de generación. Además, nuestro método es eficiente y requiere menos recursos computacionales, lo que lo hace adecuado para satisfacer las necesidades de aplicaciones prácticas.
Los recientes avances en los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) han dotado a los agentes basados en LLMs de la capacidad de recopilar información del mundo de manera autónoma, sobre la cual pueden realizar razonamientos para resolver problemas complejos. Dada esta capacidad, ha crecido el interés en emplear agentes de LLMs para predecir eventos internacionales, lo que puede influir en la toma de decisiones y en el desarrollo de políticas a escala global. A pesar de este creciente interés, existe una falta de un punto de referencia riguroso para evaluar la capacidad y fiabilidad de los agentes de LLMs en la predicción de eventos. Para abordar esta brecha, presentamos MIRAI, un nuevo punto de referencia diseñado para evaluar sistemáticamente a los agentes de LLMs como pronosticadores temporales en el contexto de eventos internacionales. Nuestro punto de referencia incluye un entorno agéntico con herramientas para acceder a una extensa base de datos de eventos históricos estructurados y artículos de noticias textuales. Refinamos la base de datos de eventos GDELT mediante una cuidadosa limpieza y análisis para crear una serie de tareas de predicción relacional con diferentes horizontes de pronóstico, evaluando las habilidades de los agentes de LLMs desde la predicción a corto plazo hasta la de largo plazo. Además, implementamos APIs para permitir que los agentes de LLMs utilicen diferentes herramientas a través de una interfaz basada en código. En resumen, MIRAI evalúa de manera integral las capacidades de los agentes en tres dimensiones: 1) recopilar e integrar de manera autónoma información crítica de grandes bases de datos globales; 2) escribir código utilizando APIs y bibliotecas específicas del dominio para el uso de herramientas; y 3) razonar conjuntamente sobre conocimientos históricos de diversos formatos y momentos para predecir con precisión eventos futuros. A través de una evaluación exhaustiva, nuestro objetivo es establecer un marco confiable para evaluar las capacidades de los agentes de LLMs en la predicción de eventos internacionales, contribuyendo así al desarrollo de modelos más precisos y confiables para el análisis de relaciones internacionales.
Los modelos basados en difusión han demostrado un gran potencial en la generación de imágenes de alta calidad con diversos diseños, lo que puede beneficiar tareas de percepción posteriores. Sin embargo, la generación automática de diseños impulsada únicamente por lenguaje y una métrica adecuada para medir múltiples instancias generadas no ha sido bien explorada. En este trabajo, presentamos Auto Cherry-Picker (ACP), un marco novedoso que genera ejemplos de entrenamiento multimodal de alta calidad para mejorar la percepción y el entrenamiento multimodal. Comenzando con una simple lista de conceptos en lenguaje natural, utilizamos modelos de lenguaje grandes (LLMs) para generar una descripción detallada y diseñar diseños razonables. Luego, empleamos un modelo de texto a imagen disponible para generar múltiples imágenes. Posteriormente, los datos generados se refinan utilizando una métrica diseñada de manera integral para garantizar la calidad. En particular, presentamos una nueva métrica, Composite Layout and Image Score (CLIS), para evaluar de manera justa las imágenes generadas. Nuestros ejemplos sintéticos de alta calidad mejoran el rendimiento en diversos escenarios al personalizar la lista inicial de conceptos, especialmente al abordar desafíos asociados con la distribución de cola larga y conjuntos de datos desequilibrados. Los resultados experimentales en tareas posteriores demuestran que Auto Cherry-Picker puede mejorar significativamente el rendimiento de los modelos existentes. Además, hemos investigado exhaustivamente la correlación entre CLIS y las mejoras de rendimiento en tareas posteriores, y encontramos que un mejor puntaje CLIS resulta en un mejor rendimiento. Este hallazgo muestra el potencial de las métricas de evaluación en el papel para diversas tareas de percepción visual y MLLM. El código estará disponible.
Presentamos OmniJARVIS, un novedoso modelo Visión-Lenguaje-Acción (VLA) para agentes que siguen instrucciones en mundos abiertos dentro de Minecraft. A diferencia de trabajos previos que emiten objetivos textuales para controladores separados o generan directamente comandos de control, OmniJARVIS busca un enfoque diferente para garantizar tanto capacidades de razonamiento sólido como de toma de decisiones eficiente mediante la tokenización unificada de datos de interacción multimodal. Primero, introducimos un enfoque auto-supervisado para aprender un codificador de comportamiento que produce tokens discretizados para trayectorias de comportamiento tau = {o_0, a_0, dots} y un decodificador de política de aprendizaje por imitación (IL) condicionado en estos tokens. Estos tokens de comportamiento adicionales se incorporan al vocabulario de modelos de lenguaje multimodal (MLM) preentrenados. Con este codificador, luego empaquetamos interacciones multimodales a largo plazo que incluyen instrucciones de tareas, recuerdos, pensamientos, observaciones, respuestas textuales, trayectorias de comportamiento, etc., en secuencias de tokens unificadas y las modelamos con transformadores autoregresivos. Gracias a los tokens de comportamiento semánticamente significativos, el modelo VLA resultante, OmniJARVIS, puede razonar (generando cadenas de pensamiento), planificar, responder preguntas y actuar (produciendo tokens de comportamiento para el decodificador de política IL). OmniJARVIS demuestra un rendimiento excelente en una colección exhaustiva de tareas atómicas, programáticas y de mundo abierto en Minecraft. Nuestro análisis revela además los principios de diseño cruciales en la formación de datos de interacción, la tokenización unificada y su potencial de escalabilidad.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado una impresionante competencia en diversas tareas de procesamiento del lenguaje natural (NLP, por sus siglas en inglés), las cuales involucran razonamientos cada vez más complejos. El razonamiento basado en conocimiento, un tipo principal de razonamiento, tiene como objetivo derivar nuevo conocimiento a partir del existente. Aunque ha sido ampliamente estudiado en el contexto de grafos de conocimiento (KGs, por sus siglas en inglés), el razonamiento basado en conocimiento en LLMs sigue siendo poco explorado. En este artículo, presentamos Chain-of-Knowledge (CoK), un marco integral para el razonamiento basado en conocimiento, que incluye metodologías tanto para la construcción de conjuntos de datos como para el aprendizaje de modelos. Para la construcción de conjuntos de datos, creamos KnowReason mediante la minería de reglas en KGs. Para el aprendizaje de modelos, observamos un sobreajuste de reglas inducido por un entrenamiento ingenuo. Por lo tanto, mejoramos CoK con un mecanismo de prueba y error que simula el proceso humano de exploración interna del conocimiento. Realizamos experimentos extensivos con KnowReason. Nuestros resultados muestran la efectividad de CoK en la mejora de LLMs no solo en el razonamiento basado en conocimiento, sino también en puntos de referencia generales de razonamiento.
El despliegue de Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) en dispositivos de borde es cada vez más importante para mejorar la inteligencia en el dispositivo. La cuantización de pesos es crucial para reducir la huella de memoria de los LLMs en los dispositivos. Sin embargo, los LLMs de baja precisión requieren multiplicaciones matriciales de precisión mixta (mpGEMM) entre pesos de baja precisión y activaciones de alta precisión durante la inferencia. Los sistemas existentes, al carecer de soporte nativo para mpGEMM, recurren a desuantizar los pesos para realizar cálculos de alta precisión. Este enfoque indirecto puede generar una sobrecarga significativa en la inferencia. En este artículo, presentamos T-MAC, un método innovador basado en tablas de búsqueda (LUT, por sus siglas en inglés) diseñado para una inferencia eficiente de LLMs de baja precisión (es decir, LLMs con pesos cuantizados) en CPUs. T-MAC soporta directamente mpGEMM sin desuantización, al mismo tiempo que elimina multiplicaciones y reduce las sumas necesarias. Específicamente, T-MAC transforma la multiplicación tradicional centrada en el tipo de datos en una búsqueda en tablas a nivel de bits, y permite una solución unificada y escalable para mpGEMM. Nuestros núcleos basados en LUT escalan linealmente con el ancho de bits de los pesos. Evaluado en modelos de baja precisión como Llama y BitNet, T-MAC demuestra un aumento de hasta 4x en el rendimiento y una reducción del 70% en el consumo de energía en comparación con llama.cpp. Para BitNet-b1.58-3B, T-MAC ofrece un rendimiento de generación de tokens de 30 tokens/s con un solo núcleo y 71 tokens/s con ocho núcleos en M2-Ultra, y 11 tokens/s en dispositivos de gama baja como Raspberry Pi 5, lo que supera significativamente la velocidad promedio de lectura de un adulto. T-MAC, con su paradigma de computación basado en LUT, allana el camino para el despliegue práctico de LLMs de baja precisión en dispositivos de borde con recursos limitados sin comprometer la eficiencia computacional. El sistema es de código abierto en https://github.com/microsoft/T-MAC.
El aprendizaje autosupervisado (SSL, por sus siglas en inglés) ha contribuido a extender las tecnologías del habla a más idiomas al reducir la necesidad de datos etiquetados. Sin embargo, los modelos aún están lejos de poder soportar los más de 7000 idiomas que existen en el mundo. Proponemos XEUS, un Codificador Translingüístico para el Habla Universal, entrenado con más de 1 millón de horas de datos en 4057 idiomas, lo que amplía la cobertura lingüística de los modelos SSL en un factor de 4. Combinamos 1 millón de horas de habla de corpus accesibles públicamente con un nuevo corpus de más de 7400 horas en 4057 idiomas, que será liberado públicamente. Para manejar las diversas condiciones de los datos multilingües de habla, complementamos el enfoque típico de predicción enmascarada del SSL con un objetivo novedoso de desreverberación, aumentando la robustez. Evaluamos XEUS en varios benchmarks y demostramos que supera consistentemente o alcanza resultados comparables a los modelos SSL de última generación (SOTA) en una variedad de tareas. XEUS establece un nuevo SOTA en el benchmark ML-SUPERB: supera a MMS 1B y w2v-BERT 2.0 v2 en un 0.8% y 4.4% respectivamente, a pesar de tener menos parámetros o datos de preentrenamiento. Los checkpoints, el código y los datos se encuentran en https://www.wavlab.org/activities/2024/xeus/.
Los modelos de generación de video han demostrado grandes capacidades para producir videos monoculares impresionantes; sin embargo, la generación de video estereoscópico 3D sigue siendo un área poco explorada. Proponemos un enfoque libre de poses y sin necesidad de entrenamiento para generar videos estereoscópicos 3D utilizando un modelo de generación de video monocular disponible comercialmente. Nuestro método transforma un video monocular generado en vistas de cámara sobre una línea base estereoscópica utilizando la profundidad estimada del video, y emplea un novedoso marco de trabajo de inpaint de video basado en matrices de fotogramas. Este marco aprovecha el modelo de generación de video para realizar inpaint en fotogramas observados desde diferentes marcas de tiempo y vistas. Este enfoque efectivo genera videos estereoscópicos consistentes y semánticamente coherentes sin necesidad de optimización de escenas o ajuste fino del modelo. Además, desarrollamos un esquema de reinyección de límites de desoclusión que mejora aún más la calidad del inpaint de video al mitigar los efectos negativos propagados desde áreas desocluidas en el espacio latente. Validamos la eficacia de nuestro método propuesto mediante experimentos en videos generados por diversos modelos, incluyendo Sora [4], Lumiere [2], WALT [8] y Zeroscope [42]. Los experimentos demuestran que nuestro método ofrece una mejora significativa en comparación con métodos anteriores. El código será liberado en https://daipengwa.github.io/SVG_ProjectPage.
Recientemente, han surgido varios Modelos de Lenguaje de Gran Escala (LLMs) ajustados mediante instrucciones especializadas para el Reconocimiento de Entidades Nombradas (NER). En comparación con los enfoques tradicionales de NER, estos modelos poseen fuertes capacidades de generalización. Los LLMs existentes se centran principalmente en NER de cero disparos en distribuciones fuera de dominio, siendo ajustados en un gran número de clases de entidades que a menudo coinciden en gran medida o completamente con los conjuntos de prueba. En este trabajo, en cambio, proponemos SLIMER, un enfoque diseñado para abordar etiquetas de entidades nombradas nunca antes vistas, instruyendo al modelo con menos ejemplos y aprovechando un prompt enriquecido con definiciones y pautas. Los experimentos demuestran que las definiciones y pautas generan un mejor rendimiento, un aprendizaje más rápido y robusto, particularmente al etiquetar entidades nombradas no vistas. Además, SLIMER tiene un desempeño comparable a los enfoques de vanguardia en NER de cero disparos fuera de dominio, mientras que es entrenado con un conjunto reducido de etiquetas.
El aprendizaje por refuerzo a partir de retroalimentación humana (RLHF, por sus siglas en inglés) es una estrategia popular para alinear modelos de lenguaje de gran escala (LLMs) con comportamientos deseados. La modelización de recompensas es un paso crucial en RLHF. Sin embargo, la recopilación de datos de preferencias pareadas para entrenar modelos de recompensa suele ser costosa y requiere mucho tiempo, especialmente para preferencias específicas de dominio que necesitan anotación experta. Para abordar este desafío, proponemos el Modelo de Recompensa con Conocimiento de Dominio Integrado (DogeRM), un marco novedoso que integra conocimiento específico del dominio en un modelo de recompensa general mediante la fusión de modelos. Los experimentos demuestran que DogeRM mejora el rendimiento en diferentes benchmarks y proporcionan un análisis detallado que muestra los efectos de la fusión de modelos, evidenciando el gran potencial de facilitar la alineación de modelos.
Los LLM procesan el texto como secuencias de tokens que aproximadamente corresponden a palabras, donde las palabras menos comunes se representan mediante múltiples tokens. Sin embargo, los tokens individuales a menudo no están relacionados semánticamente con los significados de las palabras/conceptos que componen. Por ejemplo, el tokenizador de Llama-2-7b divide la palabra "northeastern" en los tokens ['_n', 'ort', 'he', 'astern'], ninguno de los cuales corresponde a unidades semánticamente significativas como "north" o "east". De manera similar, los significados generales de entidades nombradas como "Neil Young" y expresiones de múltiples palabras como "break a leg" no pueden inferirse directamente a partir de sus tokens constituyentes. Mecánicamente, ¿cómo convierten los LLM estos grupos arbitrarios de tokens en representaciones útiles de nivel superior? En este trabajo, encontramos que las representaciones del último token de entidades nombradas y palabras de múltiples tokens exhiben un pronunciado efecto de "borrado", donde la información sobre los tokens anteriores y actuales se olvida rápidamente en las primeras capas. Utilizando esta observación, proponemos un método para "leer" el vocabulario implícito de un LLM autoregresivo examinando las diferencias en las representaciones de tokens a través de las capas, y presentamos los resultados de este método para Llama-2-7b y Llama-3-8B. Hasta donde sabemos, este es el primer intento de sondear el vocabulario implícito de un LLM.
Describimos la predicción precisa de afinidades de interacción ligando-proteína (LPI), también conocidas como interacciones fármaco-diana (DTI), utilizando modelos de lenguaje pequeños (SLMs) generativos preentrenados y ajustados mediante instrucciones. Logramos predicciones precisas para un rango de valores de afinidad asociados con interacciones ligando-proteína en datos fuera de la muestra en un entorno de predicción zero-shot. Solo se utilizaron la cadena SMILES del ligando y la secuencia de aminoácidos de la proteína como entradas del modelo. Nuestros resultados demuestran una mejora clara sobre los métodos basados en aprendizaje automático (ML) y perturbación de energía libre (FEP+) en la predicción precisa de un rango de afinidades de interacción ligando-proteína, lo cual puede aprovecharse para acelerar aún más las campañas de descubrimiento de fármacos contra objetivos terapéuticos desafiantes.
El desaprendizaje exacto se introdujo inicialmente como un mecanismo de privacidad que permitía a un usuario retirar sus datos de los modelos de aprendizaje automático a petición. Poco después, se propusieron esquemas inexactos para mitigar los costos poco prácticos asociados con el desaprendizaje exacto. Más recientemente, el desaprendizaje se discute a menudo como un enfoque para la eliminación de conocimiento inadmisible, es decir, conocimiento que el modelo no debería poseer, como información con derechos de autor no licenciada, inexacta o maliciosa. La promesa es que si el modelo no tiene una capacidad maliciosa determinada, entonces no puede ser utilizado para el propósito malicioso asociado. En este artículo, revisitamos el paradigma en el que se utiliza el desaprendizaje en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) y destacamos una inconsistencia subyacente que surge del aprendizaje en contexto. El desaprendizaje puede ser un mecanismo de control efectivo para la fase de entrenamiento, pero no impide que el modelo realice un acto inadmisible durante la inferencia. Introducimos un concepto de "reaprendizaje", donde el conocimiento desaprendido se reintroduce en contexto, haciendo que el modelo sea capaz de comportarse como si supiera el conocimiento olvidado. Como resultado, argumentamos que será necesario filtrar el contenido para el conocimiento inadmisible y que incluso los esquemas de desaprendizaje exacto no son suficientes para una regulación efectiva del contenido. Discutimos la viabilidad del reaprendizaje para los LLMs modernos y examinamos las implicaciones más amplias.
Los sistemas de IA de frontera, incluidos los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), ejercen una influencia creciente sobre la epistemología de los usuarios humanos. Dicha influencia puede reforzar los valores sociales predominantes, contribuyendo potencialmente al afianzamiento de creencias morales equivocadas y, en consecuencia, a la perpetuación de prácticas morales problemáticas a gran escala. Introducimos la alineación progresiva como una solución técnica para mitigar este riesgo inminente. Los algoritmos de alineación progresiva aprenden a emular la mecánica del progreso moral humano, abordando así la susceptibilidad de los métodos de alineación existentes a los puntos ciegos morales contemporáneos. Para impulsar la investigación en alineación progresiva, presentamos ProgressGym, un marco experimental que permite aprender la mecánica del progreso moral a partir de la historia, con el fin de facilitar futuros avances en las decisiones morales del mundo real. Utilizando 9 siglos de textos históricos y 18 LLMs históricos, ProgressGym permite codificar los desafíos de alineación progresiva del mundo real en puntos de referencia concretos. Específicamente, introducimos tres desafíos principales: rastrear valores en evolución (PG-Follow), anticipar proactivamente el progreso moral (PG-Predict) y regular el bucle de retroalimentación entre los cambios de valores humanos y de la IA (PG-Coevolve). Los métodos de alineación sin una dimensión temporal no son aplicables a estas tareas. En respuesta, presentamos algoritmos de aprendizaje continuo y extrapolativos como métodos de referencia para la alineación progresiva, y construimos un tablero de clasificación abierto que solicita nuevos algoritmos y desafíos. El marco y el tablero de clasificación están disponibles en https://github.com/PKU-Alignment/ProgressGym y https://huggingface.co/spaces/PKU-Alignment/ProgressGym-LeaderBoard, respectivamente.
Seguir múltiples instrucciones es una habilidad crucial para los modelos de lenguaje de gran escala (LLMs). Evaluar esta capacidad conlleva desafíos significativos: (i) coherencia limitada entre múltiples instrucciones, (ii) sesgo posicional donde el orden de las instrucciones afecta el rendimiento del modelo, y (iii) falta de tareas objetivamente verificables. Para abordar estos problemas, presentamos un benchmark diseñado para evaluar la capacidad de los modelos para seguir múltiples instrucciones a través de tareas de seguimiento secuencial de instrucciones (SIFo). En SIFo, la finalización exitosa de múltiples instrucciones es verificable examinando solo la instrucción final. Nuestro benchmark evalúa el seguimiento de instrucciones utilizando cuatro tareas (modificación de texto, respuesta a preguntas, matemáticas y seguimiento de reglas de seguridad), cada una evaluando diferentes aspectos del seguimiento secuencial de instrucciones. Nuestra evaluación de LLMs populares, tanto de código cerrado como abierto, muestra que los modelos más recientes y de mayor tamaño superan significativamente a sus contrapartes más antiguas y pequeñas en las tareas SIFo, validando la efectividad del benchmark. Todos los modelos tienen dificultades para seguir secuencias de instrucciones, lo que sugiere una importante falta de robustez en los modelos de lenguaje actuales.