Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos Qwen2.5-VL, el último modelo insignia de la serie de visión y lenguaje Qwen, que demuestra avances significativos tanto en capacidades fundamentales como en funcionalidades innovadoras. Qwen2.5-VL logra un gran salto adelante en la comprensión e interacción con el mundo a través de un reconocimiento visual mejorado, una localización precisa de objetos, un análisis robusto de documentos y una comprensión de videos largos. Una característica destacada de Qwen2.5-VL es su capacidad para localizar objetos utilizando cuadros delimitadores o puntos con precisión. Ofrece una extracción robusta de datos estructurados de facturas, formularios y tablas, así como un análisis detallado de gráficos, diagramas y diseños. Para manejar entradas complejas, Qwen2.5-VL introduce el procesamiento de resolución dinámica y la codificación de tiempo absoluto, permitiéndole procesar imágenes de diversos tamaños y videos de duración extendida (hasta horas) con localización de eventos a nivel de segundo. Esto permite que el modelo perciba nativamente escalas espaciales y dinámicas temporales sin depender de técnicas tradicionales de normalización. Al entrenar un Vision Transformer (ViT) de resolución dinámica nativa desde cero e incorporar Window Attention, reducimos la sobrecarga computacional mientras mantenemos la resolución nativa. Como resultado, Qwen2.5-VL sobresale no solo en la comprensión de imágenes estáticas y documentos, sino también como un agente visual interactivo capaz de razonar, utilizar herramientas y ejecutar tareas en escenarios del mundo real, como operar computadoras y dispositivos móviles. Qwen2.5-VL está disponible en tres tamaños, abordando diversos casos de uso desde la IA en el borde hasta la computación de alto rendimiento. El modelo insignia Qwen2.5-VL-72B iguala a los modelos de vanguardia como GPT-4o y Claude 3.5 Sonnet, destacándose particularmente en la comprensión de documentos y diagramas. Además, Qwen2.5-VL mantiene un rendimiento lingüístico robusto, preservando las competencias centrales del lenguaje del Qwen2.5 LLM.
Los Modelos Fundacionales Generativos (GenFMs) han surgido como herramientas transformadoras. Sin embargo, su adopción generalizada plantea preocupaciones críticas en cuanto a su confiabilidad en múltiples dimensiones. Este artículo presenta un marco integral para abordar estos desafíos a través de tres contribuciones clave. En primer lugar, revisamos sistemáticamente las leyes y políticas globales de gobernanza de la IA de gobiernos y organismos reguladores, así como las prácticas y estándares de la industria. Basándonos en este análisis, proponemos un conjunto de principios rectores para los GenFMs, desarrollados mediante una extensa colaboración multidisciplinaria que integra perspectivas técnicas, éticas, legales y sociales. En segundo lugar, presentamos TrustGen, la primera plataforma de evaluación dinámica diseñada para medir la confiabilidad en múltiples dimensiones y tipos de modelos, incluyendo modelos de texto a imagen, lenguajes grandes y modelos de visión y lenguaje. TrustGen aprovecha componentes modulares—curatoría de metadatos, generación de casos de prueba y variación contextual—para permitir evaluaciones adaptativas e iterativas, superando las limitaciones de los métodos de evaluación estáticos. Utilizando TrustGen, revelamos avances significativos en confiabilidad mientras identificamos desafíos persistentes. Finalmente, ofrecemos una discusión detallada de los desafíos y direcciones futuras para los GenFMs confiables, lo que revela la naturaleza compleja y en evolución de la confiabilidad, destacando los matices en las compensaciones entre utilidad y confiabilidad, y consideraciones para diversas aplicaciones posteriores, identificando desafíos persistentes y proporcionando una hoja de ruta estratégica para futuras investigaciones. Este trabajo establece un marco holístico para avanzar en la confiabilidad de la IA generativa, allanando el camino para una integración más segura y responsable de los GenFMs en aplicaciones críticas. Para facilitar el avance en la comunidad, liberamos la herramienta para la evaluación dinámica.
La generación de canciones a partir de texto, la tarea de crear voces y acompañamiento a partir de entradas textuales, presenta desafíos significativos debido a la complejidad del dominio y la escasez de datos. Los enfoques existentes suelen emplear procedimientos de generación en múltiples etapas, lo que resulta en pipelines de entrenamiento e inferencia engorrosos. En este artículo, proponemos SongGen, un transformador auto-regresivo de una sola etapa, completamente de código abierto, diseñado para la generación controlada de canciones. El modelo propuesto facilita un control detallado sobre diversos atributos musicales, incluyendo letras y descripciones textuales de instrumentación, género, estado de ánimo y timbre, además de ofrecer un clip de referencia opcional de tres segundos para la clonación de voz. Dentro de un marco auto-regresivo unificado, SongGen admite dos modos de salida: modo mixto, que genera directamente una mezcla de voces y acompañamiento, y modo de doble pista, que los sintetiza por separado para mayor flexibilidad en aplicaciones posteriores. Exploramos diversas estrategias de patrones de tokens para cada modo, lo que conduce a mejoras notables y aporta valiosos conocimientos. Además, diseñamos un pipeline de preprocesamiento de datos automatizado con un control de calidad efectivo. Para fomentar la participación de la comunidad y futuras investigaciones, liberaremos nuestros pesos del modelo, código de entrenamiento, datos anotados y pipeline de preprocesamiento. Las muestras generadas se muestran en nuestra página del proyecto en https://liuzh-19.github.io/SongGen/, y el código estará disponible en https://github.com/LiuZH-19/SongGen.
Los algoritmos existentes de conducción autónoma (AD) de extremo a extremo suelen seguir el paradigma de Aprendizaje por Imitación (IL), el cual enfrenta desafíos como la confusión causal y la brecha de bucle abierto. En este trabajo, establecemos un paradigma de entrenamiento de Aprendizaje por Refuerzo (RL) basado en 3DGS en bucle cerrado. Al aprovechar técnicas de 3DGS, construimos una réplica digital fotorrealista del mundo físico real, permitiendo que la política de AD explore extensamente el espacio de estados y aprenda a manejar escenarios fuera de distribución a través de prueba y error a gran escala. Para mejorar la seguridad, diseñamos recompensas especializadas que guían a la política para responder efectivamente a eventos críticos de seguridad y comprender las relaciones causales del mundo real. Para una mejor alineación con el comportamiento humano de conducción, el IL se incorpora al entrenamiento de RL como un término de regularización. Introducimos un punto de referencia de evaluación en bucle cerrado que consiste en diversos entornos 3DGS previamente no vistos. En comparación con los métodos basados en IL, RAD logra un rendimiento más fuerte en la mayoría de las métricas de bucle cerrado, especialmente con una tasa de colisiones 3 veces menor. Se presentan abundantes resultados en bucle cerrado en https://hgao-cv.github.io/RAD.
Los modelos de lenguaje de gran escala (LLMs) sobresalen en tareas de razonamiento complejo, y la destilación de sus capacidades de razonamiento en modelos más pequeños ha mostrado resultados prometedores. Sin embargo, descubrimos un fenómeno interesante, al que denominamos la Brecha de Aprendizaje en Modelos Pequeños: los modelos pequeños (≤3B parámetros) no se benefician consistentemente del razonamiento de cadena de pensamiento (CoT) extenso ni de la destilación de modelos más grandes. En su lugar, obtienen un mejor rendimiento cuando se ajustan con cadenas de razonamiento más cortas y simples que se alinean mejor con su capacidad de aprendizaje intrínseca. Para abordar esto, proponemos la Destilación Mixta, una estrategia simple pero efectiva que equilibra la complejidad del razonamiento al combinar ejemplos de CoT largos y cortos o razonamientos provenientes tanto de modelos grandes como pequeños. Nuestros experimentos demuestran que la Destilación Mixta mejora significativamente el rendimiento de razonamiento de los modelos pequeños en comparación con el entrenamiento utilizando solo uno de los tipos de datos. Estos hallazgos resaltan las limitaciones de la destilación directa de modelos fuertes y subrayan la importancia de adaptar la complejidad del razonamiento para una transferencia efectiva de capacidades de razonamiento.
Los métodos de modelado de secuencias lineales, como la atención lineal, el modelado de espacios de estado y las RNNs lineales, ofrecen mejoras significativas en eficiencia al reducir la complejidad del entrenamiento y la inferencia. Sin embargo, estos métodos suelen comprimir toda la secuencia de entrada en un único estado de memoria de tamaño fijo, lo que resulta en un rendimiento subóptimo en tareas posteriores intensivas en recuperación de información. Inspirándonos en la neurociencia, particularmente en la capacidad del cerebro para mantener una memoria a largo plazo robusta mientras mitiga la "interferencia de memoria", introducimos una nueva arquitectura llamada Mezcla de Memorias (Mixture-of-Memories, MoM). MoM utiliza múltiples estados de memoria independientes, con una red enrutadora que dirige los tokens de entrada a estados de memoria específicos. Este enfoque mejora considerablemente la capacidad de memoria general mientras minimiza la interferencia de memoria. Como resultado, MoM tiene un rendimiento excepcional en tareas intensivas en recuperación, superando las técnicas existentes de modelado de secuencias lineales. A pesar de incorporar múltiples estados de memoria, el cálculo de cada estado de memoria sigue siendo lineal en complejidad, lo que permite a MoM mantener la ventaja de complejidad lineal durante el entrenamiento, y de complejidad constante durante la inferencia. Nuestros resultados experimentales muestran que MoM supera significativamente a los modelos de secuencias lineales actuales en tareas de lenguaje posteriores, especialmente en tareas intensivas en recuperación, e incluso alcanza un rendimiento comparable a los modelos Transformer. El código se ha publicado en https://github.com/OpenSparseLLMs/MoM y también forma parte de https://github.com/OpenSparseLLMs/Linear-MoE.
Los embeddings de texto suelen evaluarse en un conjunto limitado de tareas, las cuales están restringidas por la diversidad de idiomas, dominios y tipos de tareas. Para abordar estas limitaciones y ofrecer una evaluación más integral, presentamos el Massive Multilingual Text Embedding Benchmark (MMTEB), una expansión a gran escala y dirigida por la comunidad de MTEB, que abarca más de 500 tareas de evaluación controladas en calidad en más de 250 idiomas. MMTEB incluye un conjunto diverso de tareas desafiantes y novedosas, como la ejecución de instrucciones, la recuperación de documentos largos y la recuperación de código, representando la colección multilingüe más grande de tareas de evaluación para modelos de embeddings hasta la fecha. Utilizando esta colección, desarrollamos varios puntos de referencia altamente multilingües, que empleamos para evaluar un conjunto representativo de modelos. Descubrimos que, aunque los modelos de lenguaje grandes (LLMs) con miles de millones de parámetros pueden alcanzar un rendimiento de vanguardia en ciertos subconjuntos de idiomas y categorías de tareas, el modelo disponible públicamente con mejor rendimiento es multilingual-e5-large-instruct, con solo 560 millones de parámetros. Para facilitar la accesibilidad y reducir el costo computacional, introducimos un novedoso método de submuestreo basado en la correlación entre tareas, asegurando una selección diversa mientras se preservan los rankings relativos de los modelos. Además, optimizamos tareas como la recuperación mediante el muestreo de negativos difíciles, creando divisiones más pequeñas pero efectivas. Estas optimizaciones nos permiten introducir puntos de referencia que reducen drásticamente las demandas computacionales. Por ejemplo, nuestro nuevo punto de referencia de inglés zero-shot mantiene un orden de clasificación similar a la versión a gran escala, pero con una fracción del costo computacional.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado capacidades notables a través del preentrenamiento y la alineación. Sin embargo, los LLMs superiores en contextos cortos pueden tener un rendimiento inferior en escenarios de contexto largo debido a una alineación insuficiente en contextos extensos. Este proceso de alineación sigue siendo un desafío debido a la impracticidad de la anotación humana para contextos extendidos y la dificultad de equilibrar el rendimiento en contextos cortos y largos. Para abordar estos desafíos, presentamos LongPO, que permite a los LLMs de contexto corto evolucionar internamente para destacarse en tareas de contexto largo mediante la transferencia interna de capacidades de contexto corto. LongPO aprovecha los LLMs para aprender a partir de datos de preferencia autogenerados de corto a largo, que consisten en respuestas emparejadas generadas para instrucciones idénticas con entradas de contexto largo y sus contrapartes comprimidas de contexto corto, respectivamente. Esta preferencia revela capacidades y potenciales de los LLMs cultivados durante la alineación de contexto corto que pueden verse disminuidos en escenarios de contexto largo con alineación insuficiente. Además, LongPO incorpora una restricción KL de corto a largo para mitigar la disminución del rendimiento en contexto corto durante la alineación de contexto largo. Cuando se aplica a Mistral-7B-Instruct-v0.2 desde longitudes de contexto de 128K a 512K, LongPO conserva completamente el rendimiento en contexto corto y supera ampliamente a SFT y DPO ingenuos tanto en tareas de contexto largo como corto. Específicamente, los modelos entrenados con \ourMethod pueden lograr resultados en benchmarks de contexto largo comparables, o incluso superiores, a los de LLMs superiores (por ejemplo, GPT-4-128K) que involucran una extensa anotación de contexto largo y escalas de parámetros más grandes.
El rastreo web es una fuente principal de datos de preentrenamiento para los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), pero la mayoría de las páginas web rastreadas se descartan durante el preentrenamiento debido a su baja calidad. Este artículo presenta Crawl4LLM, un método eficiente de rastreo web que explora el grafo web basándose en las preferencias del preentrenamiento de LLMs. En concreto, aprovecha la influencia de una página web en el preentrenamiento de LLMs como puntuación de prioridad del planificador del rastreador web, reemplazando la prioridad estándar basada en la conectividad del grafo. Nuestros experimentos en un grafo web que contiene 900 millones de páginas del índice de un motor de búsqueda comercial demuestran la eficiencia de Crawl4LLM para obtener datos de preentrenamiento de alta calidad. Con solo el 21% de las URLs rastreadas, los LLMs preentrenados con datos de Crawl4LLM alcanzan el mismo rendimiento en tareas posteriores que los obtenidos con rastreos previos, reduciendo significativamente el desperdicio de rastreo y aliviando la carga en los sitios web. Nuestro código está disponible públicamente en https://github.com/cxcscmu/Crawl4LLM.
Las aplicaciones de modelos de lenguaje de gran escala (LLM) están evolucionando más allá de simples chatbots hacia programas agentes dinámicos y de propósito general, que escalan las llamadas a LLM y los tokens de salida para ayudar a los agentes de IA a razonar, explorar y resolver tareas complejas. Sin embargo, los sistemas existentes de servicio de LLM ignoran las dependencias entre programas y llamadas, perdiendo oportunidades significativas de optimización. Nuestro análisis revela que los programas enviados a los motores de servicio de LLM experimentan largos tiempos de espera acumulados, principalmente debido al bloqueo en la cabeza de línea tanto a nivel de solicitud individual de LLM como de programa. Para abordar esto, presentamos Autellix, un sistema de servicio de LLM que trata a los programas como ciudadanos de primera clase para minimizar sus latencias de extremo a extremo. Autellix intercepta las llamadas a LLM enviadas por programas, enriqueciendo a los planificadores con contexto a nivel de programa. Proponemos dos algoritmos de planificación—para programas de un solo hilo y distribuidos—que interrumpen y priorizan las llamadas a LLM en función de las llamadas previamente completadas por sus programas. Nuestra evaluación demuestra que, en diversos LLM y cargas de trabajo agentes, Autellix mejora el rendimiento de los programas entre 4 y 15 veces con la misma latencia en comparación con sistemas de vanguardia, como vLLM.
El Ajuste Fino Supervisado (SFT, por sus siglas en inglés) ha sido un método recurrente y efectivo para mejorar el razonamiento de cadenas de pensamiento largas (CoT, por sus siglas en inglés) en modelos de lenguaje grandes (LLMs) relativamente pequeños, ajustándolos con respuestas CoT largas provenientes de LLMs más grandes. Para mejorar continuamente las capacidades de razonamiento, podemos recopilar nuevos datos SFT de razonamiento CoT largo de alta calidad o entrenar repetidamente con conjuntos de datos SFT existentes. Sin embargo, adquirir nuevos datos SFT de CoT largo es costoso y limitado, mientras que el entrenamiento repetido a menudo resulta en una meseta o disminución del rendimiento. Para potenciar aún más el rendimiento con los datos SFT, proponemos la Optimización de Preferencias de Pensamiento (ThinkPO), un método post-SFT simple pero efectivo que mejora el razonamiento CoT largo sin requerir nuevas respuestas CoT largas. En su lugar, ThinkPO utiliza respuestas de razonamiento CoT cortas, fácilmente disponibles o obtenibles, como respuestas rechazadas, y respuestas CoT largas como respuestas elegidas para la misma pregunta. Luego, aplica la optimización directa de preferencias para alentar al modelo a favorecer salidas de razonamiento más largas. Los experimentos muestran que ThinkPO mejora aún más el rendimiento de razonamiento de los modelos ajustados con SFT, por ejemplo, aumenta la precisión en razonamiento matemático de los modelos ajustados con SFT en un 8.6% y la longitud de la salida en un 25.9%. Notablemente, ThinkPO es capaz de impulsar continuamente el rendimiento del modelo SFT destilado públicamente, por ejemplo, aumentando el rendimiento oficial de DeepSeek-R1-Distill-Qwen-7B en MATH500 del 87.4% al 91.2%.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado capacidades notables en dominios generales, pero a menudo enfrentan dificultades en tareas que requieren conocimiento especializado. Las técnicas convencionales de Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) suelen recuperar información externa de bases de conocimiento estáticas, las cuales pueden estar desactualizadas o incompletas, careciendo de detalles clínicos específicos esenciales para respuestas médicas precisas. En este trabajo, proponemos SearchRAG, un marco novedoso que supera estas limitaciones al aprovechar motores de búsqueda en tiempo real. Nuestro método emplea la generación sintética de consultas para convertir preguntas médicas complejas en consultas compatibles con motores de búsqueda y utiliza la selección de conocimiento basada en incertidumbre para filtrar e incorporar el conocimiento médico más relevante e informativo en la entrada del LLM. Los resultados experimentales demuestran que nuestro método mejora significativamente la precisión de las respuestas en tareas de respuesta a preguntas médicas, particularmente en preguntas complejas que requieren conocimiento detallado y actualizado.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han avanzado significativamente en el procesamiento del lenguaje natural, demostrando capacidades excepcionales de generalización de tareas. La Adaptación de Bajo Rango (LoRA, por sus siglas en inglés) ofrece una solución de ajuste fino rentable, congelando los parámetros originales del modelo y entrenando únicamente matrices adaptadoras ligeras de bajo rango. Sin embargo, la huella de memoria de LoRA está dominada en gran medida por los parámetros del modelo original. Para mitigar esto, proponemos LoRAM, un esquema de entrenamiento de LoRA eficiente en memoria basado en la intuición de que muchas neuronas en LLMs sobreparametrizados tienen una utilidad de entrenamiento baja pero son esenciales para la inferencia. LoRAM presenta un enfoque único: entrena en un modelo podado (pequeño) para obtener matrices de bajo rango podadas, las cuales luego se recuperan y utilizan con el modelo original (grande) para la inferencia. Además, un preentrenamiento continuo de bajo costo, realizado de antemano por los publicadores del modelo, alinea la discrepancia de conocimiento entre los modelos podados y originales. Nuestros extensos experimentos demuestran la eficacia de LoRAM en diversas estrategias de poda y tareas posteriores. Para un modelo con 70 mil millones de parámetros, LoRAM permite el entrenamiento en una GPU con solo 20G de HBM, reemplazando una GPU A100-80G para el entrenamiento de LoRA y 15 GPUs para el ajuste fino completo. Específicamente, QLoRAM implementado mediante poda estructurada combinada con cuantización de 4 bits, para LLaMA-3.1-70B (LLaMA-2-70B), reduce el costo de almacenamiento de parámetros que domina el uso de memoria en el entrenamiento de matrices de bajo rango en 15.81 veces (16.95 veces), logrando además ganancias de rendimiento dominantes sobre tanto el LLaMA-3.1-70B (LLaMA-2-70B) original como el LLaMA-3.1-8B (LLaMA-2-13B) entrenado con LoRA.
Los nombres están profundamente ligados a la identidad humana. Pueden servir como marcadores de individualidad, herencia cultural e historia personal. Sin embargo, utilizar los nombres como un indicador central de la identidad puede llevar a una simplificación excesiva de identidades complejas. Al interactuar con LLMs (modelos de lenguaje grandes), los nombres de los usuarios son un punto de información importante para la personalización. Los nombres pueden aparecer en conversaciones con chatbots a través de la entrada directa del usuario (solicitada por los chatbots), como parte de contextos de tareas, como revisiones de currículums, o como funciones de memoria integradas que almacenan información del usuario para la personalización. Estudiamos los sesgos asociados con los nombres midiendo las presunciones culturales en las respuestas generadas por los LLMs cuando se presentan consultas comunes que buscan sugerencias, las cuales podrían implicar hacer suposiciones sobre el usuario. Nuestros análisis demuestran fuertes suposiciones sobre la identidad cultural asociada con los nombres presentes en las generaciones de LLMs a través de múltiples culturas. Nuestro trabajo tiene implicaciones para diseñar sistemas de personalización más matizados que eviten reforzar estereotipos mientras mantienen una personalización significativa.
La alineación de seguridad de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) sigue siendo vulnerable, ya que su comportamiento inicial puede ser fácilmente vulnerado incluso con ataques relativamente simples. Dado que rellenar una plantilla fija entre la instrucción de entrada y la salida inicial del modelo es una práctica común en los LLMs existentes, planteamos la hipótesis de que esta plantilla es un factor clave detrás de sus vulnerabilidades: la toma de decisiones relacionadas con la seguridad en los LLMs depende en exceso de la información agregada de la región de la plantilla, lo que influye significativamente en el comportamiento de seguridad de estos modelos. Nos referimos a este problema como la alineación de seguridad anclada en la plantilla. En este artículo, realizamos experimentos exhaustivos y verificamos que la alineación de seguridad anclada en la plantilla está ampliamente extendida en varios LLMs alineados. Nuestros análisis mecanicistas demuestran cómo esto conduce a la susceptibilidad de los modelos cuando se enfrentan a ataques de vulneración en tiempo de inferencia. Además, mostramos que desvincular los mecanismos de seguridad de la región de la plantilla es prometedor para mitigar las vulnerabilidades a los ataques de vulneración. Alentamos a futuras investigaciones a desarrollar técnicas de alineación de seguridad más robustas que reduzcan la dependencia de la región de la plantilla.
Los enfoques actuales para entrenar Modelos de Recompensa de Procesos (PRMs, por sus siglas en inglés) suelen implicar la descomposición de respuestas en múltiples pasos de razonamiento utilizando técnicas basadas en reglas, como el uso de tokens de marcador predefinidos o la fijación de la longitud de los pasos de razonamiento en un tamaño fijo. Estos enfoques pasan por alto el hecho de que palabras específicas no suelen marcar verdaderos puntos de decisión en un texto. Para abordar esto, proponemos AdaptiveStep, un método que divide los pasos de razonamiento en función de la confianza del modelo para predecir la siguiente palabra. Este método de división proporciona más información para la toma de decisiones en cada paso, mejorando tareas posteriores, como el aprendizaje de modelos de recompensa. Además, nuestro método no requiere anotación manual. Demostramos su efectividad a través de experimentos con PRMs entrenados con AdaptiveStep en tareas de razonamiento matemático y generación de código. Los resultados experimentales indican que el PRM resultante alcanza un rendimiento Best-of-N de vanguardia, superando la estrategia de búsqueda codiciosa con decodificación guiada por valores a nivel de token, al mismo tiempo que reduce los costos de construcción en más del 30% en comparación con los PRMs de código abierto existentes. Además, proporcionamos un análisis exhaustivo y un estudio de caso sobre el rendimiento, la transferibilidad y las capacidades de generalización del PRM.
La generación de moléculas 3D es crucial para el descubrimiento de fármacos y el diseño de materiales. Si bien los esfuerzos previos se han centrado en modelos de difusión 3D por sus ventajas en el modelado de conformadores 3D continuos, han pasado por alto las ventajas de los Modelos de Lenguaje (LM) basados en SELFIES 1D, que pueden generar moléculas 100% válidas y aprovechar los conjuntos de datos de moléculas 1D a escala de miles de millones. Para combinar estas ventajas en la generación de moléculas 3D, proponemos un modelo fundacional: NExT-Mol: Difusión 3D se encuentra con Modelado de Lenguaje 1D para la Generación de Moléculas 3D. NExT-Mol utiliza un LM de moléculas preentrenado extensamente para la generación de moléculas 1D, y posteriormente predice los conformadores 3D de la molécula generada con un modelo de difusión 3D. Mejoramos el rendimiento de NExT-Mol escalando el tamaño del modelo LM, refinando la arquitectura neuronal de difusión y aplicando transferencia de aprendizaje de 1D a 3D. Cabe destacar que nuestro LM de moléculas 1D supera significativamente a los modelos de referencia en similitud distribucional mientras garantiza la validez, y nuestro modelo de difusión 3D logra un rendimiento líder en la predicción de conformadores. Dadas estas mejoras en el modelado 1D y 3D, NExT-Mol logra una mejora relativa del 26% en FCD 3D para la generación de novo 3D en GEOM-DRUGS, y una ganancia relativa promedio del 13% para la generación condicional 3D en QM9-2014. Nuestros códigos y puntos de control preentrenados están disponibles en https://github.com/acharkq/NExT-Mol.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) y los Modelos de Lenguaje Multimodal de Gran Escala (MLLMs) han logrado avances significativos en capacidades de razonamiento. Sin embargo, aún enfrentan desafíos como altas demandas computacionales y preocupaciones de privacidad. Este artículo se centra en el desarrollo de Modelos de Lenguaje Pequeños (SLMs) y Modelos de Lenguaje Multimodal Pequeños (MSLMs) que mantienen capacidades de razonamiento competitivas. Introducimos una novedosa pipeline de entrenamiento que mejora las capacidades de razonamiento y facilita la implementación en dispositivos de borde, logrando un rendimiento de vanguardia mientras se minimizan los costos de desarrollo. \InfR~ tiene como objetivo avanzar los sistemas de IA mejorando el razonamiento, reduciendo las barreras de adopción y abordando las preocupaciones de privacidad a través de tamaños de modelo más pequeños. Los recursos están disponibles en https://github.com/Reallm-Labs/InfiR.
El aprendizaje automático, base de la inteligencia artificial moderna, ha impulsado innovaciones que han transformado fundamentalmente el mundo. Sin embargo, detrás de estos avances yace un proceso complejo y a menudo tedioso que requiere iteración y experimentación intensivas en mano de obra y recursos computacionales. Los ingenieros y científicos que desarrollan modelos de aprendizaje automático dedican gran parte de su tiempo a tareas de prueba y error en lugar de conceptualizar soluciones innovadoras o hipótesis de investigación. Para abordar este desafío, presentamos AI-Driven Exploration (AIDE), un agente de ingeniería de aprendizaje automático impulsado por modelos de lenguaje de gran escala (LLMs). AIDE enmarca la ingeniería de aprendizaje automático como un problema de optimización de código y formula la prueba y error como una búsqueda en árbol en el espacio de soluciones potenciales. Al reutilizar y refinar estratégicamente soluciones prometedoras, AIDE intercambia eficazmente recursos computacionales por un rendimiento mejorado, logrando resultados de vanguardia en múltiples puntos de referencia de ingeniería de aprendizaje automático, incluyendo nuestras evaluaciones en Kaggle, OpenAI MLE-Bench y METRs RE-Bench.
Presentamos TESS 2, un modelo de lenguaje de difusión general que sigue instrucciones y supera a los modelos contemporáneos de difusión ajustados para instrucciones, además de igualar y, en ocasiones, superar a los fuertes modelos autoregresivos (AR). Entrenamos TESS 2 adaptando primero un modelo AR robusto mediante un preentrenamiento continuo utilizando la entropía cruzada habitual como pérdida de difusión, y luego realizando un ajuste adicional para instrucciones. Descubrimos que el entrenamiento de adaptación, así como la elección del modelo base, son cruciales para entrenar buenos modelos de difusión que sigan instrucciones. Además, proponemos la guía de recompensa, un procedimiento novedoso y modular de guía en tiempo de inferencia para alinear las salidas del modelo sin necesidad de entrenar el modelo subyacente. Finalmente, demostramos que TESS 2 mejora aún más con un mayor cómputo en tiempo de inferencia, destacando la utilidad de los modelos de lenguaje de difusión al permitir un control detallado sobre la cantidad de cómputo utilizado durante la inferencia. El código y los modelos están disponibles en https://github.com/hamishivi/tess-2.
A largo plazo, las capacidades de diálogo en dominios abiertos son esenciales para los chatbots que buscan recordar interacciones pasadas y demostrar inteligencia emocional (IE). Sin embargo, la mayoría de las investigaciones existentes se basan en datos sintéticos generados por modelos de lenguaje (LLM), dejando preguntas abiertas sobre los patrones conversacionales del mundo real. Para abordar esta brecha, presentamos REALTALK, un corpus de 21 días de diálogos auténticos de aplicaciones de mensajería, que proporciona un punto de referencia directo frente a interacciones humanas genuinas. Primero, realizamos un análisis del conjunto de datos, centrándonos en los atributos de IE y la consistencia de la personalidad para comprender los desafíos únicos que plantean los diálogos del mundo real. Al comparar con conversaciones generadas por LLM, destacamos diferencias clave, incluidas expresiones emocionales diversas y variaciones en la estabilidad de la personalidad que los diálogos sintéticos a menudo no logran capturar. Basándonos en estas observaciones, introducimos dos tareas de referencia: (1) simulación de personalidad, donde un modelo continúa una conversación en nombre de un usuario específico dado un contexto de diálogo previo; y (2) sondeo de memoria, donde un modelo responde preguntas específicas que requieren memoria a largo plazo de interacciones pasadas. Nuestros hallazgos revelan que los modelos tienen dificultades para simular a un usuario únicamente a partir del historial de diálogos, mientras que el ajuste fino en chats específicos del usuario mejora la emulación de la personalidad. Además, los modelos existentes enfrentan desafíos significativos para recordar y aprovechar el contexto a largo plazo dentro de conversaciones del mundo real.
El uso de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) para evaluaciones de relevancia ofrece oportunidades prometedoras para mejorar la Recuperación de Información (IR), el Procesamiento del Lenguaje Natural (NLP) y campos relacionados. De hecho, los LLMs tienen el potencial de permitir a los experimentadores en IR construir colecciones de evaluación con una fracción del trabajo manual humano que actualmente se requiere. Esto podría ser útil para temas emergentes sobre los cuales aún hay conocimiento limitado y podría mitigar los desafíos de evaluar sistemas de clasificación en escenarios de bajos recursos, donde es difícil encontrar anotadores humanos. Dados los recientes y rápidos avances en este dominio, muchas preguntas relacionadas con el uso de LLMs como evaluadores aún están por responderse. Entre los aspectos que requieren mayor investigación, se pueden mencionar el impacto de varios componentes en un flujo de generación de juicios de relevancia, como el *prompt* utilizado o el LLM seleccionado. Este artículo evalúa y reporta los resultados de una evaluación a gran escala de juicios de relevancia automáticos, el desafío LLMJudge en SIGIR 2024, donde se propusieron diferentes enfoques de evaluación de relevancia. En detalle, publicamos y evaluamos 42 etiquetas generadas por LLMs de los juicios de relevancia de la pista de Aprendizaje Profundo de TREC 2023, producidas por ocho equipos internacionales que participaron en el desafío. Dada su naturaleza diversa, estos juicios de relevancia generados automáticamente pueden ayudar a la comunidad no solo a investigar sesgos sistemáticos causados por los LLMs, sino también a explorar la efectividad de modelos de conjunto, analizar las compensaciones entre diferentes modelos y evaluadores humanos, y avanzar en metodologías para mejorar las técnicas de evaluación automatizada. El recurso publicado está disponible en el siguiente enlace: https://llm4eval.github.io/LLMJudge-benchmark/
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) se utilizan cada vez más en entornos laborales para una amplia gama de tareas, destacándose en la resolución de problemas individuales de forma aislada. Sin embargo, ¿son también capaces de colaborar de manera efectiva en interacciones a largo plazo? Para investigar esto, presentamos MemoryCode, un conjunto de datos sintético de múltiples sesiones diseñado para evaluar la capacidad de los LLMs de rastrear y ejecutar instrucciones simples de codificación en medio de información irrelevante, simulando un entorno realista. Si bien todos los modelos que probamos manejan bien las instrucciones aisladas, incluso el rendimiento de modelos de vanguardia como GPT-4o se deteriora cuando las instrucciones se distribuyen en varias sesiones. Nuestro análisis sugiere que esto se debe a su incapacidad para recuperar e integrar información a lo largo de cadenas de instrucciones extensas. Nuestros resultados destacan una limitación fundamental de los LLMs actuales, que restringe su capacidad para colaborar de manera efectiva en interacciones prolongadas.
La recomendación generativa (GR, por sus siglas en inglés) es un paradigma emergente en el que las acciones de los usuarios se tokenizan en patrones de tokens discretos y se generan de manera autoregresiva como predicciones. Sin embargo, los modelos de GR existentes tokenizan cada acción de forma independiente, asignando los mismos tokens fijos a acciones idénticas en todas las secuencias sin considerar las relaciones contextuales. Esta falta de conciencia contextual puede llevar a un rendimiento subóptimo, ya que la misma acción puede tener significados diferentes dependiendo de su contexto circundante. Para abordar este problema, proponemos ActionPiece, que incorpora explícitamente el contexto al tokenizar secuencias de acciones. En ActionPiece, cada acción se representa como un conjunto de características de ítems, que sirven como tokens iniciales. Dado el corpus de secuencias de acciones, construimos el vocabulario fusionando patrones de características como nuevos tokens, basándonos en su frecuencia de co-ocurrencia tanto dentro de conjuntos individuales como en conjuntos adyacentes. Teniendo en cuenta la naturaleza no ordenada de los conjuntos de características, introducimos además una regularización de permutación de conjuntos, que produce múltiples segmentaciones de secuencias de acciones con la misma semántica. Los experimentos en conjuntos de datos públicos demuestran que ActionPiece supera consistentemente los métodos existentes de tokenización de acciones, mejorando el NDCG@10 entre un 6.00% y un 12.82%.
Las alucinaciones en las salidas de los modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) limitan severamente su fiabilidad en tareas intensivas en conocimiento, como la respuesta a preguntas. Para abordar este desafío, presentamos REFIND (Retrieval-augmented Factuality hallucINation Detection), un marco novedoso que detecta segmentos alucinados en las salidas de los LLM al aprovechar directamente documentos recuperados. Como parte de REFIND, proponemos la Razón de Sensibilidad al Contexto (CSR, por sus siglas en inglés), una métrica innovadora que cuantifica la sensibilidad de las salidas de los LLM a la evidencia recuperada. Este enfoque innovador permite a REFIND detectar alucinaciones de manera eficiente y precisa, distinguiéndose de los métodos existentes. En la evaluación, REFIND demostró robustez en nueve idiomas, incluyendo entornos de bajos recursos, y superó significativamente a los modelos de referencia, logrando puntuaciones IoU superiores en la identificación de segmentos alucinados. Este trabajo destaca la efectividad de cuantificar la sensibilidad al contexto para la detección de alucinaciones, allanando así el camino para aplicaciones de LLM más confiables y seguras en diversos idiomas.
La evaluación de respuestas de opción múltiple (MCQA, por sus siglas en inglés) es popular para la evaluación de modelos de lenguaje grandes (LLM) debido a su simplicidad y su similitud con pruebas humanas, pero argumentamos a favor de su reforma. Primero, revelamos deficiencias en el formato de MCQA, ya que tiene dificultades para: 1) evaluar la generación/subjetividad; 2) alinearse con los casos de uso de los LLM; y 3) evaluar completamente el conocimiento. En su lugar, abogamos por formatos generativos basados en pruebas humanas, donde los LLM construyen y explican respuestas, captando mejor las necesidades del usuario y el conocimiento, mientras siguen siendo fáciles de calificar. Luego, mostramos que incluso cuando MCQA es un formato útil, sus conjuntos de datos sufren de: filtración; imposibilidad de respuesta; atajos; y saturación. Para cada problema, proponemos soluciones inspiradas en la educación, como rúbricas para guiar la redacción de preguntas de opción múltiple; métodos de puntuación para controlar las conjeturas; y la Teoría de Respuesta al Ítem para construir preguntas más difíciles. Finalmente, discutimos los errores de los LLM en MCQA: robustez, sesgos y explicaciones poco fieles, mostrando cómo nuestras soluciones anteriores miden o abordan mejor estos problemas. Aunque no es necesario abandonar MCQA, fomentamos más esfuerzos para refinar la tarea basándose en pruebas educativas, avanzando así en las evaluaciones.
Los Modelos de Visión y Lenguaje a Gran Escala (LVLMs, por sus siglas en inglés) han ganado reciente atención debido a su desempeño distintivo y amplia aplicabilidad. Si bien se ha demostrado previamente que su eficacia en escenarios de uso que involucran contextos no occidentales es limitada, los estudios existentes tienen un alcance reducido, cubriendo solo un estrecho rango de culturas, enfocándose exclusivamente en un pequeño número de aspectos culturales o evaluando una selección limitada de modelos en una sola tarea. Hacia una investigación de LVLMs globalmente inclusiva, presentamos GIMMICK, un extenso benchmark multimodal diseñado para evaluar un amplio espectro de conocimientos culturales en 144 países que representan seis macro-regiones globales. GIMMICK comprende seis tareas basadas en tres nuevos conjuntos de datos que abarcan 728 eventos o facetas culturales únicos, en los cuales evaluamos 20 LVLMs y 11 LLMs, incluyendo cinco modelos propietarios y 26 modelos de código abierto de todos los tamaños. Examinamos sistemáticamente (1) los sesgos culturales regionales, (2) la influencia del tamaño del modelo, (3) las modalidades de entrada y (4) las señales externas. Nuestros análisis revelan fuertes sesgos hacia las culturas occidentales en todos los modelos y tareas, y destacan fuertes correlaciones entre el tamaño del modelo y su rendimiento, así como la efectividad de la entrada multimodal y las señales geográficas externas. Además, encontramos que los modelos tienen más conocimiento sobre aspectos tangibles que intangibles (por ejemplo, comida vs. rituales) y que sobresalen en reconocer orígenes culturales amplios, pero luchan con una comprensión más matizada.
Los puntos de referencia multilingües existentes en visión y lenguaje (VL) suelen cubrir solo un puñado de idiomas. En consecuencia, las evaluaciones de los grandes modelos de visión y lenguaje (LVLM, por sus siglas en inglés) se centran predominantemente en idiomas de alto recurso, lo que subraya la necesidad de datos de evaluación para idiomas de bajo recurso. Para abordar esta limitación, presentamos MVL-SIB, un punto de referencia masivamente multilingüe de visión y lenguaje que evalúa tanto la correspondencia temática multimodal como la basada únicamente en texto en 205 idiomas, más de 100 que los puntos de referencia VL multilingües existentes más completos. Luego, evaluamos una variedad de LVLM de peso abierto junto con GPT-4o(-mini) en MVL-SIB. Nuestros resultados revelan que los LVLM tienen dificultades en la correspondencia temática multimodal en idiomas de bajo recurso, obteniendo un rendimiento no mejor que el azar en idiomas como el N'Koo. Nuestro análisis también muestra que el soporte VL en los LVLM disminuye de manera desproporcionada en comparación con el soporte textual para idiomas de bajo recurso, como lo evidencia la comparación del rendimiento en la correspondencia temática multimodal y basada únicamente en texto. Además, observamos que los LVLM de peso abierto no se benefician de representar un tema con más de una imagen, lo que sugiere que estos modelos aún no son completamente efectivos para manejar tareas con múltiples imágenes. Al correlacionar el rendimiento en MVL-SIB con otros puntos de referencia VL multilingües, destacamos que MVL-SIB sirve como una sonda integral para evaluar la comprensión multilingüe de VL en los LVLM.
A pesar de los recientes avances en la Síntesis de Nuevas Vistas (NVS, por sus siglas en inglés), generar vistas de alta fidelidad a partir de observaciones únicas o escasas sigue siendo un desafío significativo. Los enfoques basados en splatting (proyección de partículas) existentes a menudo producen geometría distorsionada debido a errores en el splatting. Mientras que los métodos basados en difusión aprovechan ricos conocimientos previos en 3D para lograr una geometría mejorada, suelen sufrir de alucinación de texturas. En este artículo, presentamos SplatDiff, un modelo de difusión de video guiado por splatting de píxeles diseñado para sintetizar vistas novedosas de alta fidelidad a partir de una sola imagen. Específicamente, proponemos una estrategia de síntesis alineada para un control preciso de los puntos de vista objetivo y la síntesis de vistas con geometría consistente. Para mitigar la alucinación de texturas, diseñamos un módulo de puente de texturas que permite la generación de texturas de alta fidelidad mediante la fusión adaptativa de características. De esta manera, SplatDiff aprovecha las fortalezas del splatting y la difusión para generar vistas novedosas con geometría consistente y detalles de alta fidelidad. Experimentos exhaustivos verifican el rendimiento de vanguardia de SplatDiff en NVS de vista única. Además, sin entrenamiento adicional, SplatDiff muestra un rendimiento notable en tareas diversas, incluyendo NVS de vistas escasas y conversión de video estéreo.
La adaptación de dominio heterogéneo semi-supervisada (SHDA, por sus siglas en inglés) aborda el aprendizaje entre dominios con representaciones y distribuciones de características distintas, donde las muestras de origen están etiquetadas mientras que la mayoría de las muestras de destino no lo están, con solo una pequeña fracción etiquetada. Además, no existe una correspondencia uno a uno entre las muestras de origen y destino. Aunque se han desarrollado diversos métodos SHDA para abordar este problema, la naturaleza del conocimiento transferido entre dominios heterogéneos sigue sin estar clara. Este artículo profundiza en esta cuestión desde una perspectiva empírica. Realizamos experimentos exhaustivos en aproximadamente 330 tareas SHDA, empleando dos métodos de aprendizaje supervisado y siete métodos SHDA representativos. Sorprendentemente, nuestras observaciones indican que tanto la categoría como la información de características de las muestras de origen no impactan significativamente en el rendimiento del dominio de destino. Además, el ruido extraído de distribuciones simples, cuando se utiliza como muestras de origen, puede contener conocimiento transferible. Basándonos en esta idea, realizamos una serie de experimentos para descubrir los principios subyacentes del conocimiento transferible en SHDA. Específicamente, diseñamos un Marco Unificado de Transferencia de Conocimiento (KTF, por sus siglas en inglés) para SHDA. Basándonos en el KTF, encontramos que el conocimiento transferible en SHDA proviene principalmente de la transferibilidad y la discriminabilidad del dominio de origen. En consecuencia, garantizar esas propiedades en las muestras de origen, independientemente de su origen (por ejemplo, imágenes, texto, ruido), puede mejorar la efectividad de la transferencia de conocimiento en tareas SHDA. Los códigos y conjuntos de datos están disponibles en https://github.com/yyyaoyuan/SHDA.
La capacidad de generar consultas SPARQL a partir de preguntas en lenguaje natural es crucial para garantizar una recuperación eficiente y precisa de datos estructurados de grafos de conocimiento (KG). Si bien los modelos de lenguaje de gran escala (LLMs) se han adoptado ampliamente para la generación de consultas SPARQL, a menudo son propensos a alucinaciones y errores fuera de distribución al producir elementos del KG, como identificadores uniformes de recursos (URIs), basándose en su conocimiento paramétrico interno. Esto frecuentemente da como resultado contenido que parece plausible pero que es factualmente incorrecto, lo que plantea desafíos significativos para su uso en aplicaciones reales de recuperación de información (IR). Esto ha llevado a un aumento en la investigación dirigida a detectar y mitigar tales errores. En este artículo, presentamos PGMR (Post-Generation Memory Retrieval), un marco modular que incorpora un módulo de memoria no paramétrico para recuperar elementos del KG y mejorar la generación de consultas SPARQL basadas en LLMs. Nuestros resultados experimentales indican que PGMR ofrece consistentemente un rendimiento sólido en diversos conjuntos de datos, distribuciones de datos y LLMs. Notablemente, PGMR mitiga significativamente las alucinaciones de URIs, casi eliminando el problema en varios escenarios.