Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos Seed1.5-VL, un modelo base de visión y lenguaje diseñado para avanzar en la comprensión y razonamiento multimodal de propósito general. Seed1.5-VL está compuesto por un codificador visual de 532 millones de parámetros y un modelo de lenguaje Mixture-of-Experts (MoE) con 20 mil millones de parámetros activos. A pesar de su arquitectura relativamente compacta, ofrece un rendimiento sólido en una amplia gama de benchmarks públicos de VLM y suites de evaluación internas, logrando un rendimiento de vanguardia en 38 de los 60 benchmarks públicos. Además, en tareas centradas en agentes, como el control de interfaces gráficas y el juego, Seed1.5-VL supera a los principales sistemas multimodales, incluyendo OpenAI CUA y Claude 3.7. Más allá de la comprensión visual y de video, también demuestra fuertes habilidades de razonamiento, lo que lo hace particularmente efectivo para desafíos de razonamiento multimodal como los rompecabezas visuales. Creemos que estas capacidades permitirán aplicaciones más amplias en diversas tareas. En este informe, proporcionamos principalmente una revisión exhaustiva de nuestras experiencias en la construcción de Seed1.5-VL en las etapas de diseño del modelo, construcción de datos y entrenamiento, con la esperanza de que este informe pueda inspirar futuras investigaciones. Seed1.5-VL ahora está accesible en https://www.volcengine.com/ (ID del modelo de Volcano Engine: doubao-1-5-thinking-vision-pro-250428).
Presentamos MiMo-7B, un modelo de lenguaje grande diseñado específicamente para tareas de razonamiento, optimizado tanto en las etapas de preentrenamiento como de posentrenamiento. Durante el preentrenamiento, mejoramos la canalización de preprocesamiento de datos y empleamos una estrategia de mezcla de datos en tres etapas para fortalecer el potencial de razonamiento del modelo base. MiMo-7B-Base se preentrena con 25 billones de tokens, utilizando además un objetivo de Predicción Multi-Token para mejorar el rendimiento y acelerar la velocidad de inferencia. Durante el posentrenamiento, seleccionamos un conjunto de datos de 130K problemas verificables de matemáticas y programación para el aprendizaje por refuerzo, integrando un esquema de recompensa basado en la dificultad de las pruebas para mitigar los problemas de recompensas dispersas y empleando un remuestreo estratégico de datos para estabilizar el entrenamiento. Evaluaciones exhaustivas demuestran que MiMo-7B-Base posee un potencial de razonamiento excepcional, superando incluso a modelos mucho más grandes de 32B. El modelo final ajustado con RL, MiMo-7B-RL, logra un rendimiento superior en tareas de matemáticas, código y razonamiento general, superando el rendimiento de OpenAI o1-mini. Los puntos de control del modelo están disponibles en https://github.com/xiaomimimo/MiMo.
Si bien la inteligencia artificial generativa ha avanzado significativamente en los dominios de texto, imagen, audio y video, la generación 3D sigue estando relativamente poco desarrollada debido a desafíos fundamentales como la escasez de datos, limitaciones algorítmicas y la fragmentación del ecosistema. Para abordar esto, presentamos Step1X-3D, un marco abierto que resuelve estos desafíos mediante: (1) una rigurosa canalización de curación de datos que procesa más de 5M de activos para crear un conjunto de datos de 2M de alta calidad con propiedades geométricas y texturales estandarizadas; (2) una arquitectura nativa 3D en dos etapas que combina un generador de geometría híbrido VAE-DiT con un módulo de síntesis de texturas basado en difusión; y (3) la liberación completa de código abierto de modelos, código de entrenamiento y módulos de adaptación. Para la generación de geometría, el componente híbrido VAE-DiT produce representaciones TSDF empleando codificación latente basada en perceiver con muestreo de bordes nítidos para preservar detalles. El módulo de síntesis de texturas basado en difusión asegura la consistencia entre vistas mediante condicionamiento geométrico y sincronización en el espacio latente. Los resultados de referencia demuestran un rendimiento de vanguardia que supera los métodos de código abierto existentes, al mismo tiempo que alcanza una calidad competitiva con soluciones propietarias. Notablemente, el marco conecta de manera única los paradigmas de generación 2D y 3D al permitir la transferencia directa de técnicas de control 2D (por ejemplo, LoRA) a la síntesis 3D. Al avanzar simultáneamente en la calidad de los datos, la fidelidad algorítmica y la reproducibilidad, Step1X-3D busca establecer nuevos estándares para la investigación abierta en la generación controlada de activos 3D.
Los Modelos de Razonamiento a Gran Escala (LRMs, por sus siglas en inglés) tienen la capacidad de autocorregirse incluso cuando cometen errores en sus rutas de razonamiento. Sin embargo, nuestro estudio revela que cuando el proceso de razonamiento comienza con un inicio breve pero deficiente, resulta difícil para el modelo recuperarse. Nos referimos a este fenómeno como la "Trampa de Dominancia del Prefijo". Inspirados por hallazgos psicológicos que indican que la interacción entre pares puede promover la autocorrección sin afectar negativamente a los individuos ya precisos, proponemos **Aprendizaje entre Pares** (LeaP, por sus siglas en inglés) para abordar este fenómeno. Específicamente, cada cierto número de tokens, cada ruta de razonamiento resume su razonamiento intermedio y lo comparte con otras a través de un mecanismo de enrutamiento, permitiendo que las rutas incorporen perspectivas de sus pares durante la inferencia. Sin embargo, observamos que los modelos más pequeños a veces no siguen eficazmente las instrucciones de resumen y reflexión. Para abordar esto, los ajustamos en nuestra serie de modelos **LeaP-T**. Los experimentos en AIME 2024, AIME 2025, AIMO 2025 y GPQA Diamond muestran que LeaP proporciona mejoras sustanciales. Por ejemplo, QwQ-32B con LeaP logra casi 5 puntos absolutos más que la línea base en promedio, y supera a DeepSeek-R1-671B en tres benchmarks de matemáticas con una ganancia promedio de 3.3 puntos. Notablemente, nuestro modelo ajustado LeaP-T-7B iguala el rendimiento de DeepSeek-R1-Distill-Qwen-14B en AIME 2024. Un análisis en profundidad revela la robusta corrección de errores de LeaP gracias a las perspectivas oportunas de los pares, mostrando una fuerte tolerancia a errores y manejo de diversas dificultades en las tareas. LeaP marca un hito al permitir que los LRMs colaboren durante el razonamiento. Nuestro código, conjuntos de datos y modelos están disponibles en https://learning-from-peers.github.io/.
Los avances recientes en modelos generativos continuos, incluyendo enfoques de múltiples pasos como difusión y emparejamiento de flujos (que generalmente requieren de 8 a 1000 pasos de muestreo) y métodos de pocos pasos como los modelos de consistencia (típicamente de 1 a 8 pasos), han demostrado un rendimiento generativo impresionante. Sin embargo, el trabajo existente a menudo trata estos enfoques como paradigmas distintos, lo que resulta en metodologías de entrenamiento y muestreo separadas. Introducimos un marco unificado para el entrenamiento, muestreo y análisis de estos modelos. Nuestra implementación, el Entrenador y Muestreador Unificado de Modelos Generativos Continuos (UCGM-{T,S}), alcanza un rendimiento de vanguardia (SOTA). Por ejemplo, en ImageNet 256x256 utilizando un transformador de difusión de 675M, UCGM-T entrena un modelo de múltiples pasos que logra un FID de 1.30 en 20 pasos y un modelo de pocos pasos que alcanza un FID de 1.42 en solo 2 pasos. Además, al aplicar UCGM-S a un modelo preentrenado (anteriormente con un FID de 1.26 en 250 pasos), se mejora el rendimiento a un FID de 1.06 en solo 40 pasos. El código está disponible en: https://github.com/LINs-lab/UCGM.
Los modelos de lenguaje de gran escala (LLMs) basados en instrucciones han demostrado ser efectivos en numerosas tareas de Procesamiento de Lenguaje Natural (NLP) con pocos ejemplos (few-shot) o sin ejemplos (zero-shot). Sin embargo, la creación de datos de instrucciones anotados por humanos es un proceso que consume tiempo, es costoso y, a menudo, está limitado en cantidad y diversidad de tareas. Investigaciones previas han intentado abordar este desafío proponiendo marcos de trabajo capaces de generar instrucciones de manera semi-automatizada y agnóstica a la tarea, directamente desde el propio modelo. Muchos de estos esfuerzos han dependido de modelos grandes basados únicamente en parámetros API, como GPT-3.5 (175B), que son costosos y están sujetos a límites en el número de consultas. Este artículo explora el rendimiento de tres LLMs pequeños de código abierto, como LLaMA 2-7B, LLaMA 2-13B y Mistral 7B, utilizando un marco de trabajo semi-automatizado, reduciendo así la intervención humana, el esfuerzo y el costo requeridos para generar un conjunto de datos de instrucciones para el ajuste fino de LLMs. Además, demostramos que la incorporación de un algoritmo de entrenamiento basado en Aprendizaje por Refuerzo (RL) en este marco de trabajo basado en LLMs conduce a mejoras adicionales. Nuestra evaluación del conjunto de datos revela que estos marcos de trabajo basados en RL logran mejoras sustanciales en el 63-66% de las tareas en comparación con enfoques anteriores.
Los recientes avances en modelos generativos, particularmente en modelos de difusión y flujos rectificados, han revolucionado la creación de contenido visual, aunque alinear las salidas de los modelos con las preferencias humanas sigue siendo un desafío crítico. Los métodos existentes basados en aprendizaje por refuerzo (RL) para la generación visual enfrentan limitaciones importantes: incompatibilidad con los paradigmas modernos de muestreo basados en Ecuaciones Diferenciales Ordinarias (ODEs), inestabilidad en el entrenamiento a gran escala y falta de validación para la generación de videos. Este artículo presenta DanceGRPO, el primer marco unificado que adapta la Optimización de Políticas Relativas de Grupo (GRPO) a los paradigmas de generación visual, desplegando un único algoritmo de RL en dos paradigmas generativos (modelos de difusión y flujos rectificados), tres tareas (texto a imagen, texto a video, imagen a video), cuatro modelos base (Stable Diffusion, HunyuanVideo, FLUX, SkyReel-I2V) y cinco modelos de recompensa (estética de imagen/video, alineación texto-imagen, calidad de movimiento en video y recompensa binaria). Hasta donde sabemos, DanceGRPO es el primer marco unificado basado en RL capaz de adaptarse sin problemas entre diversos paradigmas generativos, tareas, modelos base y modelos de recompensa. DanceGRPO demuestra mejoras consistentes y sustanciales, superando a los baselines hasta en un 181% en benchmarks como HPS-v2.1, CLIP Score, VideoAlign y GenEval. Notablemente, DanceGRPO no solo puede estabilizar la optimización de políticas para la generación compleja de videos, sino que también permite que la política generativa capture mejor las trayectorias de eliminación de ruido para la escalabilidad de inferencia Best-of-N y aprenda de retroalimentación binaria dispersa. Nuestros resultados establecen a DanceGRPO como una solución robusta y versátil para escalar tareas de Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF) en la generación visual, ofreciendo nuevas perspectivas sobre la armonización entre el aprendizaje por refuerzo y la síntesis visual. El código será liberado.
Proponemos Skywork-VL Reward, un modelo de recompensa multimodal que proporciona señales de recompensa tanto para tareas de comprensión como de razonamiento multimodal. Nuestro enfoque técnico consta de dos componentes clave: primero, construimos un conjunto de datos de preferencias multimodal a gran escala que abarca una amplia gama de tareas y escenarios, con respuestas recopiladas tanto de modelos estándar de visión y lenguaje (VLMs) como de razonadores VLM avanzados. Segundo, diseñamos una arquitectura de modelo de recompensa basada en Qwen2.5-VL-7B-Instruct, integrando una cabeza de recompensa y aplicando un ajuste fino en múltiples etapas utilizando una pérdida de clasificación por pares sobre datos de preferencias por pares. Las evaluaciones experimentales muestran que Skywork-VL Reward alcanza resultados de vanguardia en el benchmark multimodal VL-RewardBench y exhibe un rendimiento competitivo en el benchmark exclusivo de texto RewardBench. Además, los datos de preferencia construidos basados en nuestro Skywork-VL Reward resultan altamente efectivos para entrenar Mixed Preference Optimization (MPO), lo que conduce a mejoras significativas en las capacidades de razonamiento multimodal. Nuestros resultados destacan a Skywork-VL Reward como un avance significativo hacia modelos de recompensa generales y confiables para la alineación multimodal. Nuestro modelo ha sido liberado públicamente para promover la transparencia y la reproducibilidad.
Recientemente, ha habido un creciente interés en recopilar datos de preentrenamiento intensivos en razonamiento para mejorar la capacidad de razonamiento complejo de los modelos de lenguaje grandes (LLMs). Los enfoques anteriores generalmente dependen de clasificadores supervisados para identificar dichos datos, lo que requiere etiquetado por humanos o LLMs, introduciendo a menudo sesgos específicos del dominio. Dado que las cabezas de atención son cruciales para el razonamiento en contexto, proponemos AttentionInfluence, un método simple pero efectivo, sin señal de supervisión y que no requiere entrenamiento. Nuestro enfoque permite que un pequeño modelo de lenguaje preentrenado actúe como un selector de datos robusto mediante una simple operación de enmascaramiento de cabezas de atención. Específicamente, identificamos las cabezas de recuperación y calculamos la diferencia de pérdida al enmascarar estas cabezas. Aplicamos AttentionInfluence a un modelo denso de 1.3B parámetros para realizar la selección de datos en el corpus SmolLM de 241B tokens, y mezclamos el corpus SmolLM con el subconjunto seleccionado que comprende 73B tokens para preentrenar un modelo denso de 7B parámetros utilizando 1T tokens de entrenamiento y programación de tasa de aprendizaje WSD. Nuestros resultados experimentales demuestran mejoras sustanciales, que van desde 1.4pp hasta 3.5pp, en varios puntos de referencia intensivos en conocimiento y razonamiento (es decir, MMLU, MMLU-Pro, AGIEval-en, GSM8K y HumanEval). Esto demuestra una propiedad efectiva de escalado de débil a fuerte, donde modelos pequeños mejoran el rendimiento final de modelos más grandes, ofreciendo un camino prometedor y escalable para la selección de datos centrada en el razonamiento.
El Preentrenamiento Continuo (CPT, por sus siglas en inglés) se ha convertido en un método popular y efectivo para aplicar modelos base robustos a tareas específicas de dominio. En este trabajo, exploramos la dinámica de aprendizaje durante el proceso de CPT en modelos de lenguaje de gran escala. Nos enfocamos específicamente en cómo evoluciona el rendimiento general y en el dominio específico en cada paso de entrenamiento, midiendo el rendimiento del dominio a través de las pérdidas de validación. Hemos observado que la curva de pérdida del CPT caracteriza fundamentalmente la transición de una curva a otra curva oculta, y podría describirse desacoplando los efectos del cambio de distribución y el decremento de la tasa de aprendizaje. Derivamos una ley de escalamiento para CPT que combina estos dos factores, permitiendo predecir la pérdida en cualquier paso de entrenamiento (continuo) y a través de diferentes programaciones de tasas de aprendizaje (LRS) en CPT. Nuestra formulación presenta una comprensión integral de varios factores críticos en CPT, incluyendo el potencial de pérdida, la tasa de aprendizaje máxima, los pasos de entrenamiento, la proporción de repetición, entre otros. Además, nuestro enfoque puede adaptarse para personalizar los hiperparámetros de entrenamiento según diferentes objetivos de CPT, como equilibrar el rendimiento general y específico del dominio. Experimentos extensos demuestran que nuestra ley de escalamiento se mantiene en diversos conjuntos de datos de CPT y con diferentes hiperparámetros de entrenamiento.
Los agentes basados en LLM han demostrado un gran potencial en la generación y gestión de código dentro de bases de código complejas. En este artículo, presentamos WebGen-Bench, un nuevo benchmark diseñado para medir la capacidad de un agente basado en LLM para crear bases de código de sitios web multifile desde cero. Contiene instrucciones diversas para la generación de sitios web, creadas mediante el esfuerzo combinado de anotadores humanos y GPT-4o. Estas instrucciones abarcan tres categorías principales y trece categorías menores, cubriendo casi todos los tipos importantes de aplicaciones web. Para evaluar la calidad de los sitios web generados, utilizamos GPT-4o para generar casos de prueba dirigidos a cada funcionalidad descrita en las instrucciones, y luego los filtramos, ajustamos y organizamos manualmente para garantizar su precisión, lo que resulta en 647 casos de prueba. Cada caso de prueba especifica una operación que debe realizarse en el sitio web y el resultado esperado después de la operación. Para automatizar las pruebas y mejorar la reproducibilidad, empleamos un potente agente de navegación web para ejecutar pruebas en los sitios web generados y determinar si las respuestas observadas coinciden con los resultados esperados. Evaluamos tres frameworks de agentes de código de alto rendimiento, Bolt.diy, OpenHands y Aider, utilizando múltiples LLM propietarios y de código abierto como motores. La combinación con mejor rendimiento, Bolt.diy impulsado por DeepSeek-R1, logra solo un 27,8\% de precisión en los casos de prueba, lo que destaca la naturaleza desafiante de nuestro benchmark. Además, construimos WebGen-Instruct, un conjunto de entrenamiento que consta de 6.667 instrucciones para la generación de sitios web. Entrenar Qwen2.5-Coder-32B-Instruct en trayectorias de Bolt.diy generadas a partir de un subconjunto de este conjunto de entrenamiento alcanza una precisión del 38,2\%, superando el rendimiento del mejor modelo propietario.
La sabiduría convencional sugiere que los modelos autorregresivos se utilizan para procesar datos discretos. Cuando se aplican a modalidades continuas, como los datos visuales, el modelado visual autorregresivo (VAR, por sus siglas en inglés) suele recurrir a enfoques basados en cuantización para transformar los datos en un espacio discreto, lo que puede introducir una pérdida significativa de información. Para abordar este problema, presentamos un marco de VAR continuo que permite la generación visual autorregresiva directa sin cuantización vectorial. El fundamento teórico subyacente son las reglas de puntuación estrictamente propias, que proporcionan herramientas estadísticas potentes capaces de evaluar qué tan bien un modelo generativo aproxima la distribución verdadera. Dentro de este marco, todo lo que necesitamos es seleccionar una puntuación estrictamente propia y establecerla como el objetivo de entrenamiento a optimizar. Principalmente exploramos una clase de objetivos de entrenamiento basados en la puntuación de energía, que no depende de la verosimilitud y, por lo tanto, supera la dificultad de hacer predicciones probabilísticas en el espacio continuo. Esfuerzos anteriores sobre generación autorregresiva continua, como GIVT y la pérdida de difusión, también pueden derivarse de nuestro marco utilizando otras puntuaciones estrictamente propias. Código fuente: https://github.com/shaochenze/EAR.
Presentamos INTELLECT-2, la primera ejecución de entrenamiento de aprendizaje por refuerzo (RL, por sus siglas en inglés) distribuida globalmente para un modelo de lenguaje de 32 mil millones de parámetros. A diferencia de los esfuerzos de entrenamiento centralizados tradicionales, INTELLECT-2 entrena un modelo de razonamiento utilizando RL completamente asíncrono a través de un enjambre dinámico y heterogéneo de contribuidores de cómputo sin permisos. Para habilitar una ejecución de entrenamiento con esta infraestructura única, construimos varios componentes desde cero: presentamos PRIME-RL, nuestro marco de entrenamiento diseñado específicamente para el aprendizaje por refuerzo distribuido y asíncrono, basado en componentes novedosos como TOPLOC, que verifica las trayectorias de trabajadores de inferencia no confiables, y SHARDCAST, que transmite eficientemente los pesos de la política desde los nodos de entrenamiento a los trabajadores de inferencia. Más allá de los componentes de infraestructura, proponemos modificaciones a la receta estándar de entrenamiento GRPO y técnicas de filtrado de datos que fueron cruciales para lograr la estabilidad del entrenamiento y asegurar que nuestro modelo aprendiera con éxito su objetivo de entrenamiento, mejorando así a QwQ-32B, el modelo de razonamiento más avanzado en el rango de 32 mil millones de parámetros. Liberamos INTELLECT-2 junto con todo nuestro código y datos, con la esperanza de fomentar y facilitar una investigación más abierta en el campo del entrenamiento descentralizado.
El retoque es una tarea esencial en la post-manipulación de fotografías en bruto. La edición generativa, guiada por texto o trazos, ofrece una nueva herramienta accesible para los usuarios, pero puede alterar fácilmente la identidad de los objetos originales de maneras inaceptables e impredecibles. En contraste, aunque las ediciones procedimentales tradicionales, comúnmente soportadas por herramientas de edición de fotos (por ejemplo, Gimp, Lightroom), son conservadoras, siguen siendo preferidas por los profesionales. Desafortunadamente, el retoque de calidad profesional implica muchas operaciones individuales de edición procedimental que son difíciles de planificar para la mayoría de los principiantes. En este artículo, nos preguntamos si un modelo de lenguaje multimodal de gran escala (MLLM) puede ser entrenado para criticar fotografías en bruto, sugerir remedios adecuados y finalmente implementarlos con un conjunto dado de operaciones de imagen procedimentales predefinidas. Demostramos que los MLLMs pueden primero ser conscientes de las operaciones subyacentes de procesamiento de imágenes, entrenándolos para resolver acertijos visuales especialmente diseñados. Posteriormente, un MLLM consciente de las operaciones puede tanto planificar como proponer secuencias de edición. Para facilitar el entrenamiento, dado un conjunto de fotos editadas por expertos, sintetizamos un conjunto de datos de razonamiento manipulando procedimentalmente las ediciones expertas y luego fundamentando un LLM preentrenado en los ajustes visuales, para sintetizar razonamientos para el ajuste fino. Las operaciones de retoque propuestas son, por construcción, comprensibles para los usuarios, preservan los detalles y la resolución de los objetos, y pueden ser opcionalmente anuladas. Evaluamos nuestra configuración en una variedad de ejemplos de prueba y mostramos ventajas, en términos de explicabilidad y preservación de la identidad, sobre las alternativas generativas y otras alternativas procedimentales existentes. El código, los datos, los modelos y los resultados complementarios se pueden encontrar en nuestro sitio web del proyecto en https://monetgpt.github.io.
La generación aumentada por recuperación (RAG, por sus siglas en inglés) es una estrategia común para reducir las alucinaciones en los Modelos de Lenguaje de Gran Escala (LLMs). Si bien el aprendizaje por refuerzo (RL) puede permitir que los LLMs actúen como agentes de búsqueda al activar capacidades de recuperación, los existentes a menudo subutilizan su conocimiento interno. Esto puede llevar a recuperaciones redundantes, posibles conflictos de conocimiento perjudiciales y un aumento en la latencia de inferencia. Para abordar estas limitaciones, se necesita urgentemente un agente de búsqueda eficiente y adaptable capaz de discernir el momento óptimo de recuperación e integrar de manera sinérgica el conocimiento paramétrico (interno) y el recuperado (externo). Este artículo presenta el Agente de Razonamiento Sinérgico de Conocimiento Interno-Externo Reforzado (IKEA), que puede identificar su propio límite de conocimiento y priorizar la utilización del conocimiento interno, recurriendo a la búsqueda externa solo cuando el conocimiento interno se considera insuficiente. Esto se logra utilizando una novedosa función de recompensa consciente del límite de conocimiento y un conjunto de datos de entrenamiento consciente del límite de conocimiento. Estos están diseñados para el RL orientado a la sinergia de conocimiento interno-externo, incentivando al modelo a proporcionar respuestas precisas, minimizar recuperaciones innecesarias y fomentar búsquedas externas apropiadas cuando su propio conocimiento es insuficiente. Las evaluaciones en múltiples tareas de razonamiento de conocimiento demuestran que IKEA supera significativamente a los métodos de referencia, reduce considerablemente la frecuencia de recuperación y exhibe capacidades de generalización robustas.
En este documento de posición, observamos que la evaluación empírica en IA Generativa se encuentra en un punto crítico, ya que las estrategias tradicionales de evaluación y comparación en aprendizaje automático son insuficientes para satisfacer las necesidades de evaluar los modelos y sistemas modernos de GenAI. Existen muchas razones para esto, incluyendo el hecho de que estos modelos suelen tener espacios de entrada y salida prácticamente ilimitados, generalmente no poseen un objetivo de verdad fundamental bien definido, y a menudo exhiben fuertes bucles de retroalimentación y dependencia de predicciones basadas en el contexto de salidas previas del modelo. Además de estos problemas críticos, argumentamos que los problemas de {\em filtración} y {\em contaminación} son, de hecho, los más importantes y difíciles de abordar en las evaluaciones de GenAI. Curiosamente, el campo de las Competencias de IA ha desarrollado medidas y prácticas efectivas para combatir la filtración con el propósito de contrarrestar el engaño por parte de actores malintencionados en un entorno competitivo. Esto convierte a las Competencias de IA en un recurso especialmente valioso (pero subutilizado). Es momento de que el campo considere a las Competencias de IA como el estándar de oro para el rigor empírico en la evaluación de GenAI, y de aprovechar y valorar sus resultados en consecuencia.
Las arquitecturas de Mezcla Escasa de Expertos (MoE, por sus siglas en inglés) han surgido como un enfoque prometedor para escalar los modelos Transformer. Si bien los trabajos iniciales incorporaron principalmente MoE en las capas de redes neuronales feed-forward (FFN), estudios recientes han explorado la extensión del paradigma MoE a las capas de atención para mejorar el rendimiento del modelo. Sin embargo, las capas MoE basadas en atención existentes requieren implementaciones especializadas y demuestran un rendimiento subóptimo en comparación con sus contrapartes basadas en FFN. En este artículo, buscamos unificar los diseños MoE en las capas de atención y FFN mediante la introducción de una nueva reformulación del mecanismo de atención, revelando una estructura subyacente similar a FFN dentro de los módulos de atención. Nuestra arquitectura propuesta, UMoE, logra un rendimiento superior a través de capas MoE basadas en atención, al mismo tiempo que permite un uso eficiente de parámetros compartidos entre los componentes de FFN y atención.
Los sistemas de generación aumentada por recuperación (RAG, por sus siglas en inglés) combinan modelos de lenguaje de gran escala (LLMs) con la recuperación de conocimiento externo, lo que los hace altamente efectivos para tareas intensivas en conocimiento. Un componente crucial pero a menudo poco explorado en estos sistemas es el reranker, que refina los documentos recuperados para mejorar la calidad y la explicabilidad de la generación. El desafío de seleccionar el número óptimo de documentos (k) sigue sin resolverse: demasiados pocos pueden omitir información crítica, mientras que demasiados introducen ruido e ineficiencias. Aunque estudios recientes han explorado rerankers basados en LLMs, estos principalmente aprovechan el conocimiento interno del modelo y pasan por alto las señales de supervisión enriquecedoras que los LLMs pueden proporcionar, como utilizar la calidad de la respuesta como retroalimentación para optimizar las decisiones de reranking. En este artículo, proponemos DynamicRAG, un novedoso marco RAG en el que el reranker ajusta dinámicamente tanto el orden como el número de documentos recuperados en función de la consulta. Modelamos el reranker como un agente optimizado mediante aprendizaje por refuerzo (RL), utilizando recompensas derivadas de la calidad de la salida del LLM. En siete conjuntos de datos intensivos en conocimiento, DynamicRAG demuestra un rendimiento superior, logrando resultados de vanguardia. El modelo, los datos y el código están disponibles en https://github.com/GasolSun36/DynamicRAG.
Presentamos LlamaPIE, el primer asistente proactivo en tiempo real diseñado para mejorar las conversaciones humanas mediante orientación discreta y concisa entregada a través de dispositivos audibles. A diferencia de los modelos de lenguaje tradicionales que requieren una invocación explícita por parte del usuario, este asistente opera en segundo plano, anticipando las necesidades del usuario sin interrumpir las conversaciones. Abordamos varios desafíos, incluyendo determinar cuándo responder, elaborar respuestas concisas que enriquezcan las conversaciones, aprovechar el conocimiento del usuario para brindar asistencia contextualizada y realizar procesamiento en tiempo real y en el dispositivo. Para lograrlo, construimos un conjunto de datos de diálogos semi-sintéticos y proponemos una canalización de dos modelos: un modelo pequeño que decide cuándo responder y un modelo más grande que genera la respuesta. Evaluamos nuestro enfoque en conjuntos de datos del mundo real, demostrando su eficacia para proporcionar asistencia útil y discreta. Estudios de usuarios con nuestro asistente, implementado en hardware Apple Silicon M2, muestran una fuerte preferencia por el asistente proactivo en comparación con una línea base sin asistencia y un modelo reactivo, destacando el potencial de LlamaPIE para mejorar las conversaciones en vivo.
El aprendizaje de políticas visuomotoras ha experimentado avances significativos en la manipulación robótica, con enfoques recientes que dependen principalmente de modelos generativos para modelar la distribución de acciones. Sin embargo, estos métodos a menudo pasan por alto el acoplamiento crítico entre la percepción visual y la predicción de acciones. En este trabajo, presentamos la Política de Difusión Triplemente Jerárquica~(H^{\mathbf{3}DP}), un marco novedoso de aprendizaje visuomotor que incorpora explícitamente estructuras jerárquicas para fortalecer la integración entre las características visuales y la generación de acciones. H^{3}DP contiene 3 niveles de jerarquía: (1) una estratificación de entrada consciente de la profundidad que organiza las observaciones RGB-D basándose en la información de profundidad; (2) representaciones visuales multiescala que codifican características semánticas en distintos niveles de granularidad; y (3) un proceso de difusión condicionado jerárquicamente que alinea la generación de acciones de grueso a fino con las características visuales correspondientes. Experimentos exhaustivos demuestran que H^{3}DP produce una mejora relativa promedio del +27.5% sobre los métodos de referencia en 44 tareas de simulación y logra un rendimiento superior en 4 tareas desafiantes de manipulación bimanual en el mundo real. Página del proyecto: https://lyy-iiis.github.io/h3dp/.
Una tendencia reciente en los LLM es el desarrollo de modelos recurrentes subcuadráticos que mejoran la eficiencia en el procesamiento de contextos largos. Investigamos los principales modelos de gran contexto, centrándonos en cómo su memoria recurrente de tamaño fijo afecta su rendimiento. Nuestros experimentos revelan que, incluso cuando estos modelos son entrenados para contextos extendidos, su uso de contextos largos sigue estando subutilizado. Específicamente, demostramos que un procedimiento de inferencia basado en fragmentos, que identifica y procesa solo la porción más relevante de la entrada, puede mitigar fallos en la memoria recurrente y ser efectivo para muchas tareas de contexto largo: en LongBench, nuestro método mejora el rendimiento general de Falcon3-Mamba-Inst-7B en un 14%, Falcon-Mamba-Inst-7B en un 28%, RecurrentGemma-IT-9B en un 50% y RWKV6-Finch-7B en un 51%. Sorprendentemente, este enfoque simple también conduce a resultados de vanguardia en el desafiante benchmark LongBench v2, mostrando un rendimiento competitivo con Transformers de tamaño equivalente. Además, nuestros hallazgos plantean dudas sobre si los modelos recurrentes realmente explotan las dependencias de largo alcance, ya que nuestra estrategia de un solo fragmento ofrece un rendimiento superior, incluso en tareas que presumiblemente requieren relaciones entre contextos.
A medida que los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) se aplican cada vez más a tareas basadas en documentos —como la resumen de documentos, la respuesta a preguntas y la extracción de información—, donde los requisitos del usuario se centran en recuperar información de los documentos proporcionados en lugar de depender del conocimiento paramétrico del modelo, garantizar la confiabilidad y la interpretabilidad de estos sistemas se ha convertido en una preocupación crítica. Un enfoque central para abordar este desafío es la atribución, que implica rastrear las salidas generadas hasta sus documentos de origen. Sin embargo, dado que los LLMs pueden producir respuestas inexactas o imprecisas, es crucial evaluar la confiabilidad de estas citas. Para abordar esto, nuestro trabajo propone dos técnicas. (1) Un enfoque de cero disparos (zero-shot) que enmarca la atribución como una tarea simple de implicación textual. Nuestro método, que utiliza flan-ul2, muestra una mejora del 0.27% y del 2.4% sobre la mejor línea base en los conjuntos ID y OOD de AttributionBench, respectivamente. (2) También exploramos el papel del mecanismo de atención en la mejora del proceso de atribución. Utilizando un LLM más pequeño, flan-t5-small, las puntuaciones F1 superan a la línea base en casi todas las capas, excepto en la capa 4 y en las capas 8 a 11.
Aunque los modelos de aprendizaje profundo han demostrado un potencial notable en la predicción del tiempo, la mayoría de ellos pasan por alto ya sea la física de la evolución subyacente del clima o la topografía de la superficie terrestre. Ante estas desventajas, desarrollamos PASSAT, un novedoso modelo de aprendizaje profundo asistido por física e informado por la topografía para la predicción del tiempo. PASSAT atribuye la evolución del clima a dos factores clave: (i) el proceso de advección, que puede caracterizarse mediante la ecuación de advección y las ecuaciones de Navier-Stokes; (ii) la interacción Tierra-atmósfera, que es difícil de modelar y calcular. PASSAT también tiene en cuenta la topografía de la superficie terrestre, en lugar de tratarla simplemente como un plano. Con estas consideraciones, PASSAT resuelve numéricamente la ecuación de advección y las ecuaciones de Navier-Stokes en la variedad esférica, utiliza una red neuronal gráfica esférica para capturar la interacción Tierra-atmósfera y genera los campos de velocidad iniciales, cruciales para resolver la ecuación de advección, a partir de la misma red neuronal gráfica esférica. En el conjunto de datos ERA5 con resolución de 5.625°, PASSAT supera tanto a los modelos de predicción del tiempo basados en aprendizaje profundo más avanzados como al modelo operativo de predicción numérica del tiempo IFS T42. El código y los puntos de control están disponibles en https://github.com/Yumenomae/PASSAT_5p625.
Diseñar secuencias biológicas que satisfagan múltiples criterios funcionales y biofísicos, a menudo conflictivos, sigue siendo un desafío central en la ingeniería de biomoléculas. Aunque los modelos de emparejamiento de flujo discreto han mostrado recientemente potencial para un muestreo eficiente en espacios de secuencias de alta dimensionalidad, los enfoques existentes abordan solo objetivos individuales o requieren incrustaciones continuas que pueden distorsionar las distribuciones discretas. Presentamos Multi-Objective-Guided Discrete Flow Matching (MOG-DFM), un marco general para dirigir cualquier generador de emparejamiento de flujo en tiempo discreto preentrenado hacia compensaciones Pareto-eficientes en múltiples objetivos escalares. En cada paso de muestreo, MOG-DFM calcula una puntuación híbrida de rango-direccional para las transiciones candidatas y aplica un filtro hipercónico adaptativo para garantizar un progreso multiobjetivo consistente. También entrenamos dos modelos de emparejamiento de flujo discreto incondicionales, PepDFM para la generación diversa de péptidos y EnhancerDFM para la generación de ADN potenciador funcional, como modelos base de generación para MOG-DFM. Demostramos la eficacia de MOG-DFM en la generación de péptidos ligantes optimizados en cinco propiedades (hemólisis, antiadherencia, solubilidad, vida media y afinidad de unión), y en el diseño de secuencias de ADN con clases específicas de potenciadores y formas de ADN. En conjunto, MOG-DFM se consolida como una herramienta poderosa para el diseño de secuencias de biomoléculas guiado por múltiples propiedades.