Artículos de investigación en IA seleccionados diariamente con traducciones
El ranking listwise basado en Modelos de Lenguaje de Gran Escala (LLM) ha demostrado un rendimiento superior en muchas tareas de clasificación de pasajes. Con el desarrollo de Modelos de Razonamiento de Gran Escala, muchos estudios han demostrado que el razonamiento paso a paso durante el tiempo de prueba ayuda a mejorar el rendimiento del ranking listwise. Sin embargo, debido a la escasez de datos de entrenamiento intensivos en razonamiento, los rerankers existentes tienen un rendimiento deficiente en muchos escenarios de clasificación complejos, y la capacidad de clasificación de los rerankers intensivos en razonamiento sigue estando en gran medida subdesarrollada. En este artículo, primero proponemos un marco automatizado de síntesis de datos de entrenamiento intensivos en razonamiento, que obtiene consultas y pasajes de entrenamiento de diversos dominios y aplica DeepSeek-R1 para generar etiquetas de entrenamiento de alta calidad. Se diseña un mecanismo de filtrado de datos de autoconsistencia para garantizar la calidad de los datos. Para dotar al reranker listwise de una fuerte capacidad de razonamiento, proponemos además un enfoque de post-entrenamiento en dos etapas, que incluye una etapa de ajuste fino supervisado (SFT) de arranque en frío para el aprendizaje de patrones de razonamiento y una etapa de aprendizaje por refuerzo (RL) para una mayor mejora de la capacidad de clasificación. Durante la etapa de RL, basándonos en la naturaleza del ranking listwise, diseñamos una recompensa de clasificación multi-vista, que es más efectiva que una recompensa basada en métricas de clasificación. Experimentos extensos demuestran que nuestro reranker intensivo en razonamiento entrenado, ReasonRank, supera significativamente a los baselines existentes y también logra una latencia mucho menor que el reranker pointwise Rank1. A través de más experimentos, nuestro ReasonRank ha alcanzado un rendimiento de vanguardia (SOTA) de 40.6 en el leaderboard BRIGHT\footnote{https://brightbenchmark.github.io/.} Nuestros códigos están disponibles en https://github.com/8421BCD/ReasonRank.
Desde la investigación profesional hasta la planificación cotidiana, muchas tareas se ven obstaculizadas por la búsqueda de información a gran escala, que es más repetitiva que cognitivamente compleja. Con el rápido desarrollo de los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés), los agentes de búsqueda automatizados impulsados por LLMs ofrecen una solución prometedora para liberar a los humanos de este trabajo tedioso. Sin embargo, la capacidad de estos agentes para realizar recopilaciones de "contexto amplio" de manera confiable y completa sigue sin ser evaluada en gran medida debido a la falta de puntos de referencia adecuados. Para cerrar esta brecha, presentamos WideSearch, un nuevo punto de referencia diseñado para evaluar la confiabilidad de los agentes en estas tareas de recopilación a gran escala. El punto de referencia incluye 200 preguntas curadas manualmente (100 en inglés, 100 en chino) de más de 15 dominios diversos, basadas en consultas reales de usuarios. Cada tarea requiere que los agentes recopilen información atómica a gran escala, que podría verificarse una por una de manera objetiva, y la organicen en una salida bien estructurada. Un riguroso proceso de control de calidad de cinco etapas garantiza la dificultad, completitud y verificabilidad del conjunto de datos. Evaluamos más de 10 sistemas de búsqueda agentes de última generación, incluyendo marcos de un solo agente, multiagente y sistemas comerciales de extremo a extremo. La mayoría de los sistemas logran tasas de éxito general cercanas al 0\%, con el mejor desempeño alcanzando apenas un 5\%. Sin embargo, dado suficiente tiempo, la validación cruzada por múltiples evaluadores humanos puede alcanzar una tasa de éxito cercana al 100\%. Estos resultados demuestran que los agentes de búsqueda actuales tienen deficiencias críticas en la búsqueda de información a gran escala, destacando áreas urgentes para futuras investigaciones y desarrollos en la búsqueda agentes. Nuestro conjunto de datos, proceso de evaluación y resultados de referencia han sido publicados en https://widesearch-seed.github.io/.
Los recientes avances en los modelos de lenguaje de gran escala han generado un creciente interés en agentes de IA capaces de resolver tareas complejas del mundo real. Sin embargo, la mayoría de los sistemas de agentes existentes dependen de configuraciones manualmente diseñadas que permanecen estáticas después de su implementación, lo que limita su capacidad para adaptarse a entornos dinámicos y en evolución. Con este fin, investigaciones recientes han explorado técnicas de evolución de agentes que buscan mejorar automáticamente los sistemas de agentes basándose en datos de interacción y retroalimentación ambiental. Esta dirección emergente sienta las bases para los agentes de IA auto-evolutivos, que combinan las capacidades estáticas de los modelos fundamentales con la adaptabilidad continua requerida por los sistemas agenticos de larga duración. En este estudio, proporcionamos una revisión exhaustiva de las técnicas existentes para sistemas agenticos auto-evolutivos. Específicamente, primero introducimos un marco conceptual unificado que abstrae el ciclo de retroalimentación subyacente al diseño de sistemas agenticos auto-evolutivos. El marco destaca cuatro componentes clave: Entradas del Sistema, Sistema de Agentes, Entorno y Optimizadores, sirviendo como base para comprender y comparar diferentes estrategias. Basándonos en este marco, revisamos sistemáticamente una amplia gama de técnicas auto-evolutivas que se enfocan en diferentes componentes del sistema de agentes. También investigamos estrategias de evolución específicas de dominio desarrolladas para campos especializados como la biomedicina, la programación y las finanzas, donde los objetivos de optimización están estrechamente vinculados a las restricciones del dominio. Además, ofrecemos una discusión dedicada a la evaluación, seguridad y consideraciones éticas para los sistemas agenticos auto-evolutivos, que son críticas para garantizar su efectividad y confiabilidad. Este estudio tiene como objetivo proporcionar a investigadores y profesionales una comprensión sistemática de los agentes de IA auto-evolutivos, sentando las bases para el desarrollo de sistemas agenticos más adaptativos, autónomos y de larga duración.
Los efectos visuales (VFX) son mejoras visuales esenciales fundamentales para la producción cinematográfica moderna. Aunque los modelos de generación de video ofrecen soluciones rentables para la producción de VFX, los métodos actuales están limitados por el entrenamiento de LoRA por efecto, lo que restringe la generación a efectos individuales. Esta limitación fundamental dificulta las aplicaciones que requieren efectos compuestos espacialmente controlables, es decir, la generación simultánea de múltiples efectos en ubicaciones designadas. Sin embargo, integrar diversos efectos en un marco unificado enfrenta grandes desafíos: la interferencia de variaciones de efectos y la falta de control espacial durante el entrenamiento conjunto de múltiples VFX. Para abordar estos desafíos, proponemos Omni-Effects, un primer marco unificado capaz de generar efectos guiados por prompts y efectos compuestos espacialmente controlables. El núcleo de nuestro marco consta de dos innovaciones clave: (1) LoRA-based Mixture of Experts (LoRA-MoE), que emplea un grupo de expertos LoRA, integrando diversos efectos dentro de un modelo unificado mientras mitiga eficazmente la interferencia entre tareas. (2) Spatial-Aware Prompt (SAP) incorpora información de máscara espacial en el token de texto, permitiendo un control espacial preciso. Además, introducimos un módulo de Flujo de Información Independiente (IIF) integrado dentro del SAP, aislando las señales de control correspondientes a efectos individuales para evitar mezclas no deseadas. Para facilitar esta investigación, construimos un conjunto de datos VFX exhaustivo, Omni-VFX, mediante una novedosa canalización de recopilación de datos que combina edición de imágenes y síntesis First-Last Frame-to-Video (FLF2V), e introducimos un marco de evaluación VFX dedicado para validar el rendimiento del modelo. Experimentos extensos demuestran que Omni-Effects logra un control espacial preciso y una generación diversa de efectos, permitiendo a los usuarios especificar tanto la categoría como la ubicación de los efectos deseados.
Los agentes de investigación profunda (Deep-Research), que integran modelos de lenguaje de gran escala (LLMs) con herramientas de búsqueda, han demostrado éxito en mejorar la eficacia para manejar consultas complejas que requieren planificación iterativa de búsqueda y razonamiento sobre los resultados. Las evaluaciones en benchmarks actuales como BrowseComp, que dependen de APIs de búsqueda web en vivo de caja negra, presentan limitaciones significativas en (1) equidad: las APIs web dinámicas y opacas dificultan las comparaciones justas y la reproducibilidad de los métodos de investigación profunda; (2) transparencia: la falta de control sobre el corpus de documentos hace que sea difícil aislar las contribuciones del recuperador. En otras palabras, las evaluaciones actuales pueden comparar un sistema completo de investigación profunda en un momento dado, pero no fomentan experimentos bien controlados para proporcionar información sobre la capacidad de los LLMs subyacentes en investigación profunda. Para abordar estos desafíos, presentamos BrowseComp-Plus, un benchmark derivado de BrowseComp que emplea un corpus fijo y cuidadosamente seleccionado. Cada consulta en BrowseComp-Plus incluye documentos de apoyo verificados por humanos y negativos desafiantes extraídos, lo que permite experimentación controlada. Se ha demostrado que este benchmark es efectivo para distinguir el rendimiento de los sistemas de investigación profunda. Por ejemplo, el modelo de código abierto Search-R1, cuando se combina con el recuperador BM25, alcanza un 3,86% de precisión, mientras que GPT-5 logra un 55,9%. La integración de GPT-5 con el recuperador Qwen3-Embedding-8B mejora aún más su precisión al 70,1% con menos llamadas de búsqueda. Este benchmark permite una evaluación integral y un análisis desglosado de los agentes de investigación profunda y los métodos de recuperación, fomentando insights sobre la efectividad de la recuperación, la precisión de las citas y la ingeniería de contexto en los sistemas de investigación profunda.
El razonamiento es fundamental para la acción con propósito, sin embargo, la mayoría de los modelos base en robótica mapean la percepción y las instrucciones directamente al control, lo que limita la adaptabilidad, la generalización y la fundamentación semántica. Presentamos los Modelos de Razonamiento de Acción (ARMs, por sus siglas en inglés), una clase de modelos de visión-lenguaje-acción que integran percepción, planificación y control a través de una canalización estructurada en tres etapas. Nuestro modelo, MolmoAct, codifica observaciones e instrucciones en tokens de percepción con conciencia de profundidad, genera planes espaciales de nivel medio como trazas de trayectoria editables y predice acciones de bajo nivel precisas, permitiendo un comportamiento explicable y dirigible. MolmoAct-7B-D logra un rendimiento sólido en entornos de simulación y del mundo real: 70.5% de precisión en tareas de SimplerEnv Visual Matching sin entrenamiento previo, superando a Pi-0 y GR00T N1 de código cerrado; 86.6% de éxito promedio en LIBERO, incluyendo una mejora adicional del 6.3% sobre ThinkAct en tareas de horizonte largo; y en ajuste fino en el mundo real, una mejora adicional del 10% (brazo único) y del 22.7% (bimanual) en la progresión de tareas sobre Pi-0-FAST. También supera a los modelos base en un 23.3% adicional en generalización fuera de distribución y obtiene las puntuaciones más altas de preferencia humana en seguimiento de instrucciones abiertas y dirección de trayectorias. Además, por primera vez, publicamos el Conjunto de Datos MolmoAct, un conjunto de datos de robótica de entrenamiento medio que comprende más de 10,000 trayectorias robóticas de alta calidad en diversos escenarios y tareas. El entrenamiento con este conjunto de datos produce una mejora promedio del 5.5% en el rendimiento general sobre el modelo base. Publicamos todos los pesos del modelo, el código de entrenamiento, nuestro conjunto de datos recopilado y nuestro conjunto de datos de razonamiento de acción, estableciendo a MolmoAct como un modelo base de robótica de vanguardia y un plan abierto para construir ARMs que transforman la percepción en acción con propósito a través de un razonamiento estructurado. Blogpost: https://allenai.org/blog/molmoact
Presentamos Klear-Reasoner, un modelo con capacidades de razonamiento prolongado que demuestra una deliberación cuidadosa durante la resolución de problemas, logrando un rendimiento excepcional en múltiples benchmarks. Aunque ya existen muchos trabajos excelentes relacionados con modelos de inferencia en la comunidad actual, todavía hay muchos problemas para reproducir modelos de inferencia de alto rendimiento debido a la divulgación incompleta de los detalles de entrenamiento. Este informe proporciona un análisis en profundidad del modelo de razonamiento, cubriendo todo el flujo de trabajo posterior al entrenamiento, desde la preparación de datos y el ajuste fino supervisado con Cadenas de Pensamiento prolongadas (long CoT SFT) hasta el aprendizaje por refuerzo (RL), junto con estudios de ablación detallados para cada componente experimental. Para los datos de SFT, nuestros experimentos muestran que un pequeño número de fuentes de datos de alta calidad es más efectivo que un gran número de fuentes de datos diversas, y que las muestras difíciles pueden lograr mejores resultados sin filtrado de precisión. Además, investigamos dos problemas clave con los mecanismos de recorte actuales en RL: el recorte suprime señales críticas de exploración e ignora trayectorias subóptimas. Para abordar estos desafíos, proponemos Gradient-Preserving clipping Policy Optimization (GPPO), que propaga suavemente los gradientes de los tokens recortados. GPPO no solo mejora la capacidad de exploración del modelo, sino que también aumenta su eficiencia en el aprendizaje a partir de muestras negativas. Klear-Reasoner exhibe habilidades de razonamiento excepcionales en matemáticas y programación, obteniendo un 90.5\% en AIME 2024, un 83.2\% en AIME 2025, un 66.0\% en LiveCodeBench V5 y un 58.1\% en LiveCodeBench V6.
El recientemente propuesto Modelo de Conceptos Grandes (LCM, por sus siglas en inglés) genera texto prediciendo una secuencia de incrustaciones a nivel de oración y entrenando con objetivos de error cuadrático medio o difusión. Presentamos SONAR-LLM, un transformador de solo decodificación que "piensa" en el mismo espacio continuo de incrustaciones SONAR, pero que es supervisado mediante entropía cruzada a nivel de tokens propagada a través del decodificador SONAR congelado. Este objetivo híbrido conserva la abstracción semántica del LCM mientras elimina su muestreador de difusión y restaura una señal de entrenamiento basada en verosimilitud. En tamaños de modelo que van desde 39M hasta 1.3B de parámetros, SONAR-LLM alcanza una calidad de generación competitiva. Reportamos tendencias de escalamiento, ablaciones, resultados de benchmarks y liberamos el código completo de entrenamiento y todos los puntos de control preentrenados para fomentar la reproducibilidad y futuras investigaciones.
Los agentes basados en Modelos de Lenguaje de Gran Escala (LLMs) han logrado avances impresionantes en razonamiento y uso de herramientas, permitiéndoles resolver tareas complejas. Sin embargo, su capacidad para colaborar proactivamente con los usuarios, especialmente cuando los objetivos son vagos, evolucionan o se expresan de manera indirecta, sigue siendo poco explorada. Para abordar esta brecha, presentamos UserBench, un punto de referencia centrado en el usuario diseñado para evaluar agentes en interacciones de múltiples turnos impulsadas por preferencias. UserBench incluye usuarios simulados que comienzan con objetivos poco especificados y revelan preferencias de manera incremental, requiriendo que los agentes aclaren proactivamente la intención y tomen decisiones fundamentadas con herramientas. Nuestra evaluación de los principales LLMs de código abierto y cerrado revela una desconexión significativa entre la finalización de tareas y la alineación con el usuario. Por ejemplo, los modelos proporcionan respuestas que se alinean completamente con todas las intenciones del usuario solo el 20% del tiempo en promedio, e incluso los modelos más avanzados descubren menos del 30% de todas las preferencias del usuario a través de la interacción activa. Estos resultados resaltan los desafíos de construir agentes que no solo sean ejecutores capaces de tareas, sino verdaderos socios colaborativos. UserBench ofrece un entorno interactivo para medir y avanzar en esta capacidad crítica.
El aprendizaje por refuerzo (RL) para el razonamiento de modelos de lenguaje grandes (LLM) ha surgido rápidamente como un área de investigación destacada, marcada por un aumento significativo en estudios relacionados tanto en innovaciones algorítmicas como en aplicaciones prácticas. A pesar de este progreso, persisten varios desafíos críticos, incluyendo la ausencia de directrices estandarizadas para emplear técnicas de RL y una comprensión fragmentada de sus mecanismos subyacentes. Además, configuraciones experimentales inconsistentes, variaciones en los datos de entrenamiento y diferencias en la inicialización de los modelos han llevado a conclusiones contradictorias, oscureciendo las características clave de estas técnicas y generando confusión entre los profesionales al seleccionar las técnicas apropiadas. Este artículo revisa sistemáticamente las técnicas de RL ampliamente adoptadas mediante reproducciones rigurosas y evaluaciones aisladas dentro de un marco de código abierto unificado. Analizamos los mecanismos internos, los escenarios aplicables y los principios centrales de cada técnica a través de experimentos detallados, incluyendo conjuntos de datos de diversa dificultad, tamaños de modelos y arquitecturas. Basándonos en estos hallazgos, presentamos directrices claras para seleccionar técnicas de RL adaptadas a configuraciones específicas y proporcionamos una hoja de ruta confiable para los profesionales que navegan por el dominio de RL para LLM. Finalmente, revelamos que una combinación minimalista de dos técnicas puede desbloquear la capacidad de aprendizaje de políticas sin críticos utilizando la pérdida PPO estándar. Los resultados demuestran que nuestra combinación simple mejora consistentemente el rendimiento, superando estrategias como GRPO y DAPO.
Los recientes avances en la intersección del aprendizaje por refuerzo (RL, por sus siglas en inglés) y la inteligencia visual han permitido el desarrollo de agentes que no solo perciben escenas visuales complejas, sino que también razonan, generan y actúan dentro de ellas. Este estudio ofrece una síntesis crítica y actualizada del campo. En primer lugar, formalizamos los problemas de RL visual y trazamos la evolución de las estrategias de optimización de políticas, desde RLHF hasta paradigmas de recompensa verificable, y desde la Optimización de Políticas Proximales (PPO) hasta la Optimización de Políticas Relativas de Grupo (GRPO). Luego, organizamos más de 200 trabajos representativos en cuatro pilares temáticos: modelos de lenguaje multimodal de gran escala, generación visual, marcos de modelos unificados y modelos de visión-lenguaje-acción. Para cada pilar, examinamos el diseño algorítmico, la ingeniería de recompensas, el progreso en los benchmarks y destilamos tendencias como el entrenamiento basado en currículos, la difusión alineada con preferencias y el modelado unificado de recompensas. Finalmente, revisamos protocolos de evaluación que abarcan la fidelidad a nivel de conjunto, la preferencia a nivel de muestra y la estabilidad a nivel de estado, e identificamos desafíos abiertos que incluyen la eficiencia de muestreo, la generalización y el despliegue seguro. Nuestro objetivo es proporcionar a investigadores y profesionales un mapa coherente del panorama en rápida expansión del RL visual y resaltar direcciones prometedoras para futuras investigaciones. Los recursos están disponibles en: https://github.com/weijiawu/Awesome-Visual-Reinforcement-Learning.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado un mejor rendimiento en la generación mediante la generación aumentada por recuperación (RAG, por sus siglas en inglés), siguiendo el paradigma de recuperador-lector, que complementa las entradas del modelo con conocimiento recuperado externamente. Sin embargo, trabajos previos suelen evaluar RAG de manera holística, analizando conjuntamente el recuperador y el lector, lo que dificulta aislar la verdadera contribución de la recuperación, especialmente dada la sensibilidad a las indicaciones de los LLMs utilizados como lectores. Introducimos el Puntaje de Proyección del Espectro (SPS, por sus siglas en inglés), una métrica ligera y sin supervisión que permite al lector evaluar la alineación semántica de un resumen recuperado con su representación oculta, comparando el área formada por los tokens generados a partir del resumen y las direcciones principales del subespacio en el lector, para medir la relevancia. Basándonos en SPS, presentamos xCompress, un marco de control en tiempo de inferencia que muestrea, clasifica y comprime dinámicamente candidatos de resúmenes recuperados. Experimentos extensos en cinco conjuntos de referencia de preguntas y respuestas con cuatro LLMs de código abierto muestran que SPS no solo mejora el rendimiento en una variedad de tareas, sino que también proporciona una perspectiva fundamentada sobre la interacción entre la recuperación y la generación.
La arquitectura Mixture of Experts (MoE) es un pilar fundamental de los modelos de lenguaje grandes (LLMs) más avanzados del estado del arte (SOTA). Los modelos MoE facilitan la escalabilidad al permitir la activación dispersa de parámetros. Sin embargo, la arquitectura MoE tradicional utiliza expertos homogéneos de un tamaño uniforme, activando un número fijo de parámetros independientemente de la complejidad de la entrada, lo que limita la eficiencia computacional. Para superar esta limitación, presentamos Grove MoE, una arquitectura novedosa que incorpora expertos de diversos tamaños, inspirada en la arquitectura heterogénea de CPU big.LITTLE. Esta arquitectura incluye expertos adjuntos con un mecanismo de activación dinámica, permitiendo la expansión de la capacidad del modelo mientras se mantiene un sobrecosto computacional manejable. Basándonos en esta arquitectura, presentamos GroveMoE-Base y GroveMoE-Inst, modelos LLM de 33B parámetros desarrollados aplicando una estrategia de reciclaje al modelo Qwen3-30B-A3B-Base durante la mitad y después del entrenamiento. Los modelos GroveMoE activan dinámicamente entre 3.14 y 3.28B parámetros según la complejidad del token y logran un rendimiento comparable a los modelos SOTA de código abierto de tamaño similar o incluso mayor.
Los modelos de lenguaje a gran escala sobresalen en razonamiento abstracto, pero su capacidad para el razonamiento de agentes corporizados sigue siendo en gran medida inexplorada. Presentamos OmniEAR, un marco integral para evaluar cómo los modelos de lenguaje razonan sobre interacciones físicas, uso de herramientas y coordinación multiagente en tareas corporizadas. A diferencia de los puntos de referencia existentes que proporcionan conjuntos de herramientas predefinidos o directivas de colaboración explícitas, OmniEAR requiere que los agentes adquieran capacidades de manera dinámica y determinen estrategias de coordinación de forma autónoma según las demandas de la tarea. A través de la representación basada en texto del entorno, modelamos propiedades físicas continuas y relaciones espaciales complejas en 1,500 escenarios que abarcan dominios domésticos e industriales. Nuestra evaluación sistemática revela una severa degradación del rendimiento cuando los modelos deben razonar a partir de restricciones: mientras logran un 85-96% de éxito con instrucciones explícitas, el rendimiento cae al 56-85% para el razonamiento sobre herramientas y al 63-85% para la colaboración implícita, con tareas compuestas que muestran tasas de fallo superiores al 50%. Sorprendentemente, la información ambiental completa degrada el rendimiento de la coordinación, lo que indica que los modelos no pueden filtrar las restricciones relevantes para la tarea. El ajuste fino mejora drásticamente las tareas de un solo agente (del 0.6% al 76.3%) pero produce ganancias mínimas en multiagente (del 1.5% al 5.5%), exponiendo limitaciones arquitectónicas fundamentales. Estos hallazgos demuestran que el razonamiento corporizado plantea desafíos fundamentalmente diferentes a los que los modelos actuales pueden abordar, estableciendo a OmniEAR como un punto de referencia riguroso para evaluar y avanzar en los sistemas de IA corporizada. Nuestro código y datos están incluidos en los materiales complementarios y se publicarán como código abierto tras la aceptación.
Los Modelos de Lenguaje Autorecompensados proponen una arquitectura en la que los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) no solo generan respuestas, sino que también evalúan sus propias salidas mediante el enfoque de LLM-como-Juez, mejorando dinámicamente sus capacidades generativas a través de la Optimización Directa de Preferencias (DPO, por sus siglas en inglés) iterativa. Sin embargo, nuestro análisis revela una limitación crítica en los paradigmas existentes de Autorecompensa: la mejora sincronizada de las respuestas elegidas y rechazadas reduce progresivamente la diferencia representativa entre muestras contrastantes, socavando el aprendizaje efectivo de preferencias. Proponemos los Modelos de Lenguaje Autorecompensados Temporales, que coordinan estratégicamente las generaciones pasadas, presentes y futuras del modelo para mantener las señales de aprendizaje. Nuestro marco de doble fase introduce: (1) Rechazo Anclado - fijando las respuestas rechazadas utilizando las salidas del modelo inicial pasado, y (2) Elección Guiada por el Futuro - seleccionando dinámicamente muestras elegidas utilizando predicciones del modelo de próxima generación. Experimentos extensos en tres familias de modelos (Llama, Qwen, Mistral) y diferentes tamaños de modelos (Llama3B/8B/70B) demuestran mejoras significativas al entrenar con nuestro método en comparación con la Autorecompensa utilizando los mismos recursos computacionales. Por ejemplo, Llama3.1-8B alcanza una tasa de victoria de 29.44 en AlpacaEval 2.0 con nuestro método, superando la línea base de Autorecompensa (19.69) por 9.75. Notablemente, nuestro método también demuestra una generalización superior fuera de distribución en tareas de razonamiento matemático (GSM8K), preguntas basadas en conocimiento (ARC, TruthfulQA) y generación de código (HumanEval), a pesar de no recopilar específicamente datos de entrenamiento para tales tareas.
Los modelos de razonamiento a gran escala logran un alto rendimiento mediante el escalado en tiempo de prueba, pero incurren en un sobrecosto computacional significativo, particularmente debido a la generación excesiva de tokens al procesar entradas cortas. Si bien los mecanismos de atención dispersa pueden reducir la latencia y el uso de memoria, los enfoques existentes sufren una degradación considerable en la precisión debido a errores acumulados durante el razonamiento de generación prolongada. Estos métodos generalmente requieren altas tasas de retención de tokens o un costoso reentrenamiento. Presentamos LessIsMore, un mecanismo de atención dispersa sin necesidad de entrenamiento para tareas de razonamiento, que aprovecha patrones globales de atención en lugar de depender de optimizaciones locales específicas por cabeza. LessIsMore agrega selecciones de tokens de cabezas de atención locales con información contextual reciente, permitiendo una clasificación unificada de tokens entre cabezas para capas de decodificación futuras. Esta selección unificada mejora la generalización y la eficiencia al evitar la necesidad de mantener subconjuntos de tokens separados por cabeza. La evaluación en diversas tareas de razonamiento y benchmarks muestra que LessIsMore preserva —y en algunos casos mejora— la precisión mientras logra una aceleración promedio de 1.1 veces en la decodificación en comparación con la atención completa. Además, LessIsMore atiende a 2 veces menos tokens sin pérdida de precisión, logrando una aceleración de 1.13 veces de extremo a extremo en comparación con los métodos de atención dispersa existentes.
Las políticas de robots generalistas entrenadas en conjuntos de datos a gran escala, como Open X-Embodiment (OXE), demuestran un rendimiento sólido en una amplia gama de tareas. Sin embargo, a menudo tienen dificultades para generalizar más allá de la distribución de sus datos de entrenamiento. En este artículo, investigamos la causa subyacente de esta capacidad limitada de generalización. Identificamos el aprendizaje de atajos —la dependencia de características irrelevantes para la tarea— como un obstáculo clave para la generalización. A través de un análisis teórico y empírico exhaustivo, descubrimos dos contribuyentes principales al aprendizaje de atajos: (1) la diversidad limitada dentro de los subconjuntos de datos individuales, y (2) las disparidades distribucionales significativas entre los subconjuntos de datos, lo que lleva a la fragmentación del conjunto de datos. Estos problemas surgen de la estructura inherente de los conjuntos de datos a gran escala como OXE, que generalmente están compuestos por múltiples subconjuntos de datos recopilados de manera independiente en diversos entornos y encarnaciones. Nuestros hallazgos proporcionan insights críticos sobre las estrategias de recopilación de datos que pueden reducir el aprendizaje de atajos y mejorar la capacidad de generalización de las políticas de robots generalistas. Además, en escenarios donde la adquisición de nuevos datos a gran escala es poco práctica, demostramos que las estrategias de aumento de datos robóticos cuidadosamente seleccionadas pueden reducir efectivamente el aprendizaje de atajos en conjuntos de datos existentes fuera de línea, mejorando así las capacidades de generalización de las políticas de robots generalistas, por ejemplo, pi_0, tanto en entornos de simulación como en el mundo real. Más información en https://lucky-light-sun.github.io/proj/shortcut-learning-in-grps/.
Si bien los modelos recientes de edición de imágenes basados en flujos demuestran capacidades de propósito general en diversas tareas, a menudo tienen dificultades para especializarse en escenarios desafiantes, particularmente aquellos que involucran transformaciones de forma a gran escala. Al realizar tales ediciones estructurales, estos métodos o bien no logran el cambio de forma deseado o alteran involuntariamente regiones no objetivo, lo que resulta en una degradación de la calidad del fondo. Proponemos Follow-Your-Shape, un marco sin entrenamiento y sin máscaras que permite una edición precisa y controlable de las formas de los objetos mientras preserva estrictamente el contenido no objetivo. Motivados por la divergencia entre las trayectorias de inversión y edición, calculamos un Mapa de Divergencia de Trayectoria (TDM) comparando las diferencias de velocidad a nivel de tokens entre las rutas de inversión y desruido. El TDM permite la localización precisa de las regiones editables y guía un mecanismo de Inyección Programada de KV que asegura una edición estable y fiel. Para facilitar una evaluación rigurosa, introducimos ReShapeBench, un nuevo benchmark que comprende 120 imágenes nuevas y pares de prompts enriquecidos específicamente curados para la edición consciente de la forma. Los experimentos demuestran que nuestro método logra una editabilidad y fidelidad visual superiores, particularmente en tareas que requieren reemplazos de forma a gran escala.
La arquitectura Mixture-of-Experts (MoE) se ha convertido en un paradigma predominante para escalar modelos de lenguaje grandes (LLMs). A pesar de ofrecer un rendimiento sólido y eficiencia computacional, los LLMs basados en MoE de gran escala, como DeepSeek-V3-0324 y Kimi-K2-Instruct, presentan desafíos significativos debido a los requisitos sustanciales de memoria en su implementación. Si bien trabajos recientes han explorado la compresión de MoE para abordar este problema, los métodos existentes a menudo sufren caídas considerables en la precisión (por ejemplo, 7-14% relativamente) incluso con tasas de compresión modestas. Este artículo introduce un nuevo método llamado Mixture-of-Basis-Experts (MoBE) que logra la compresión del modelo mientras incurre en caídas mínimas de precisión. Específicamente, cada matriz up/gate en un experto se descompone mediante una descomposición de rango como W = AB, donde la matriz A es única para cada experto. La matriz B, relativamente más grande, se reparametriza como una combinación lineal de matrices base {Bi} compartidas entre todos los expertos dentro de una capa MoE dada. La factorización se aprende minimizando el error de reconstrucción relativo a las matrices de peso originales. Los experimentos demuestran que MoBE logra caídas de precisión notablemente menores en comparación con trabajos anteriores. Por ejemplo, MoBE puede reducir el número de parámetros de Qwen3-235B-A22B-2507, DeepSeek-V3-0324 (671B) y Kimi-K2-Instruct (1T) en un 24%-30% con solo una caída de precisión del 1%-2% (aproximadamente un 2% de caída cuando se mide relativamente).
La clasificación es una de las tareas más extendidas en las aplicaciones de IA, sirviendo frecuentemente como el primer paso en el filtrado, ordenamiento y categorización de datos. Dado que los sistemas modernos de IA deben manejar grandes volúmenes de datos de entrada y las etapas iniciales del procesamiento pueden propagar errores hacia adelante, lograr una alta eficiencia y precisión es fundamental. Además, los requisitos de clasificación pueden cambiar dinámicamente según las necesidades del usuario, lo que exige modelos con fuertes capacidades de zero-shot. Si bien los modelos de lenguaje generativo (LLM) se han convertido en la corriente principal para la clasificación zero-shot debido a su versatilidad, presentan inconsistencias en el seguimiento de instrucciones e ineficiencias computacionales. Los cross-encoders, comúnmente utilizados como rerankers en los pipelines de RAG, enfrentan un cuello de botella diferente: deben procesar pares de texto-etiqueta de manera secuencial, lo que reduce significativamente la eficiencia con grandes conjuntos de etiquetas. Los enfoques basados en embeddings ofrecen buena eficiencia, pero luchan con escenarios complejos que involucran restricciones lógicas y semánticas. Proponemos GLiClass, un método novedoso que adapta la arquitectura GLiNER para tareas de clasificación de secuencias. Nuestro enfoque logra una precisión y eficiencia comparables a los métodos basados en embeddings, manteniendo la flexibilidad necesaria para escenarios de aprendizaje zero-shot y few-shot. Además, adaptamos la optimización de políticas proximales (PPO) para la clasificación de texto multi-etiqueta, permitiendo entrenar clasificadores en condiciones de datos escasos o a partir de retroalimentación humana.
La mayoría de los datos organizacionales en este mundo se almacenan como documentos, y la recuperación visual desempeña un papel crucial para desbloquear la inteligencia colectiva de todos estos documentos. Sin embargo, los puntos de referencia existentes se centran en la recuperación de documentos únicamente en inglés o solo consideran la respuesta a preguntas multilingües en una imagen de una sola página. Para cerrar esta brecha, presentamos VisR-Bench, un punto de referencia multilingüe diseñado para la recuperación multimodal impulsada por preguntas en documentos extensos. Nuestro punto de referencia comprende más de 35K pares de preguntas y respuestas de alta calidad en 1.2K documentos, lo que permite una evaluación detallada de la recuperación multimodal. VisR-Bench abarca dieciséis idiomas con tres tipos de preguntas (figuras, texto y tablas), ofreciendo una cobertura lingüística y de preguntas diversa. A diferencia de conjuntos de datos anteriores, incluimos consultas sin respuestas explícitas, evitando que los modelos dependan de la coincidencia superficial de palabras clave. Evaluamos varios modelos de recuperación, incluyendo métodos basados en texto, codificadores multimodales y MLLMs, proporcionando información sobre sus fortalezas y limitaciones. Nuestros resultados muestran que, aunque los MLLMs superan significativamente a los modelos basados en texto y a los codificadores multimodales, aún tienen dificultades con las tablas estructuradas y los idiomas de bajos recursos, destacando desafíos clave en la recuperación visual multilingüe.
Los Modelos de Lenguaje de Gran Escala (LLMs) que utilizan el enfoque de Cadena de Pensamiento (CoT) destacan en el razonamiento complejo, pero generan procesos de pensamiento verbosos con una considerable redundancia, lo que conlleva mayores costos de inferencia y una reducción en la eficiencia. Introducimos un novedoso marco de compresión de CoT basado en la entropía de pasos, una métrica que cuantifica la contribución informativa de los pasos individuales de razonamiento para identificar la redundancia. A través de un análisis teórico y una extensa validación empírica en benchmarks de razonamiento matemático, demostramos que los pasos con baja entropía son altamente redundantes. Nuestros experimentos revelan que un sorprendente 80\% de los pasos intermedios de baja entropía pueden ser eliminados con una degradación mínima en la precisión de la respuesta final en los modelos DeepSeek-R1-7B, 14B y Qwen3-8B. Este hallazgo contrasta marcadamente con la eliminación aleatoria o de alta entropía, que perjudica gravemente el rendimiento del razonamiento. Basándonos en esto, proponemos una novedosa estrategia de entrenamiento en dos etapas que combina el Ajuste Fino Supervisado (SFT) y el aprendizaje por refuerzo mediante Optimización de Política Relativa en Grupo (GRPO). Este enfoque permite que los LLMs aprendan de manera autónoma a generar CoTs comprimidos durante la inferencia, incorporando estratégicamente tokens [SKIP]. Nuestro método mejora significativamente la eficiencia de inferencia de los LLMs mientras preserva rigurosamente la precisión, ofreciendo implicaciones profundas para la implementación práctica de los LLMs y una comprensión más profunda de las estructuras de razonamiento.
Existe un creciente interés en integrar capacidades de síntesis visual de alta fidelidad en modelos de lenguaje grandes (LLMs, por sus siglas en inglés) sin comprometer sus fuertes habilidades de razonamiento. Los métodos existentes que entrenan directamente LLMs o conectan LLMs con modelos de difusión suelen enfrentar costos elevados de entrenamiento, ya que los LLMs base no han visto representaciones de imágenes durante su preentrenamiento. Presentamos Bifrost-1, un marco unificado que conecta modelos de lenguaje multimodal preentrenados (MLLMs) con modelos de difusión utilizando embeddings de imágenes a nivel de parches basados en CLIP como variables latentes, las cuales están alineadas de forma nativa con el codificador visual CLIP del MLLM. Estos embeddings de imágenes a nivel de parche se integran en el modelo de difusión mediante una adaptación ligera de su ControlNet. Para preservar las capacidades originales de razonamiento multimodal de los MLLMs, equipamos al MLLM con una rama de generación visual inicializada a partir de los parámetros originales del MLLM al predecir los embeddings de imágenes a nivel de parche. Al integrar de manera fluida MLLMs preentrenados y modelos de difusión con latentes CLIP a nivel de parche, nuestro marco permite la generación de imágenes controlables de alta fidelidad con una eficiencia significativa en el entrenamiento. Nuestros experimentos demuestran que Bifrost-1 logra un rendimiento comparable o superior a métodos anteriores en términos de fidelidad visual y comprensión multimodal, con un costo computacional sustancialmente menor durante el entrenamiento. También proporcionamos estudios de ablación exhaustivos que muestran la efectividad de nuestras decisiones de diseño.
Los sistemas de IA de pesos abiertos ofrecen beneficios únicos, que incluyen mayor transparencia, investigación abierta y acceso descentralizado. Sin embargo, son vulnerables a ataques de manipulación que pueden elicitar eficientemente comportamientos dañinos al modificar pesos o activaciones. Actualmente, aún no existe una ciencia robusta para la gestión de riesgos en modelos de pesos abiertos. Los métodos existentes de ajuste fino de seguridad y otras técnicas posteriores al entrenamiento han tenido dificultades para hacer que los LLM sean resistentes a más de unas pocas decenas de pasos de ajuste fino adversario. En este artículo, investigamos si filtrar texto sobre temas de doble uso en los datos de entrenamiento puede prevenir capacidades no deseadas y servir como una salvaguardia más resistente a la manipulación. Introducimos una canalización de múltiples etapas para el filtrado escalable de datos y demostramos que ofrece un método manejable y efectivo para minimizar el conocimiento proxy relacionado con bioterrorismo en los LLM. Entrenamos desde cero múltiples modelos de 6.9 mil millones de parámetros y encontramos que exhiben una resistencia sustancial a ataques de ajuste fino adversario en hasta 10,000 pasos y 300 millones de tokens de texto relacionado con bioterrorismo, superando los baselines existentes posteriores al entrenamiento en más de un orden de magnitud, sin degradación observada en capacidades no relacionadas. Sin embargo, aunque los modelos filtrados carecen de conocimiento peligroso internalizado, encontramos que aún pueden aprovechar dicha información cuando se proporciona en contexto (por ejemplo, mediante la ampliación de herramientas de búsqueda), lo que demuestra la necesidad de un enfoque de defensa en profundidad. En general, estos hallazgos ayudan a establecer la curación de datos de preentrenamiento como una capa prometedora de defensa para sistemas de IA de pesos abiertos.
Los sistemas de verificación de hechos más avanzados combaten la desinformación a gran escala empleando agentes autónomos basados en LLM (Modelos de Lenguaje de Gran Escala) para descomponer afirmaciones complejas en sub-afirmaciones más pequeñas, verificar cada sub-afirmación de manera individual y agregar los resultados parciales para producir veredictos con justificaciones (explicaciones racionales de los veredictos). La seguridad de estos sistemas es crucial, ya que los verificadores de hechos comprometidos, que tienden a ser fácilmente subexplorados, pueden amplificar la desinformación. Este trabajo presenta Fact2Fiction, el primer marco de ataque de envenenamiento dirigido a estos sistemas de verificación de hechos basados en agentes. Fact2Fiction refleja la estrategia de descomposición y aprovecha las justificaciones generadas por el sistema para crear evidencias maliciosas personalizadas que comprometen la verificación de sub-afirmaciones. Experimentos extensivos demuestran que Fact2Fiction logra tasas de éxito de ataque entre un 8.9\% y un 21.2\% más altas que los ataques más avanzados en diversos presupuestos de envenenamiento. Fact2Fiction expone debilidades de seguridad en los sistemas actuales de verificación de hechos y resalta la necesidad de contramedidas defensivas.
La conversión de expresiones matemáticas habladas es una tarea desafiante que implica transcribir el habla en una representación simbólica estrictamente estructurada, abordando al mismo tiempo la ambigüedad inherente en la pronunciación de ecuaciones. Aunque se han logrado avances significativos en el reconocimiento automático del habla (ASR, por sus siglas en inglés) y en los modelos de lenguaje (LM), el problema de convertir matemáticas habladas a LaTeX sigue estando poco explorado. Esta tarea tiene aplicaciones directas en dominios educativos y de investigación, como la transcripción de conferencias o la creación de notas. Basándose en la corrección posterior de ASR, trabajos previos requieren 2 transcripciones, se centran únicamente en ecuaciones aisladas, tienen un conjunto de pruebas limitado y no proporcionan datos de entrenamiento ni cobertura multilingüe. Para abordar estos problemas, presentamos el primer conjunto de datos a gran escala completamente de código abierto, que comprende más de 66,000 muestras de audio anotadas manualmente de ecuaciones matemáticas y oraciones en inglés y ruso, extraídas de diversos dominios científicos. Además de los modelos de corrección posterior de ASR y el enfoque de pocos ejemplos, aplicamos modelos de lenguaje de audio, demostrando resultados comparables en la tasa de error de caracteres (CER) en el benchmark MathSpeech (28% frente a 30%) para la conversión de ecuaciones. En contraste, en el benchmark propuesto S2L-ecuaciones, nuestros modelos superan al modelo MathSpeech por un margen sustancial de más de 40 puntos porcentuales, incluso después de tener en cuenta los artefactos de formato LaTeX (27% frente a 64%). Establecemos el primer benchmark para el reconocimiento de oraciones matemáticas (S2L-oraciones) y logramos un CER de ecuaciones del 40%. Este trabajo sienta las bases para futuros avances en la inteligencia artificial multimodal, con un enfoque particular en el reconocimiento de contenido matemático.
Muchos han observado que el desarrollo y despliegue de modelos generativos de aprendizaje automático (ML) e inteligencia artificial (IA) siguen un patrón distintivo en el que los modelos preentrenados se adaptan y ajustan para tareas específicas posteriores. Sin embargo, existe un trabajo empírico limitado que examina la estructura de estas interacciones. Este artículo analiza 1.86 millones de modelos en Hugging Face, una plataforma líder de producción colaborativa para el desarrollo de modelos. Nuestro estudio de los árboles genealógicos de modelos —redes que conectan modelos ajustados con sus bases o progenitores— revela linajes de ajuste extensos que varían ampliamente en tamaño y estructura. Utilizando una lente de biología evolutiva para estudiar los modelos de ML, empleamos metadatos de modelos y fichas técnicas para medir la similitud genética y la mutación de rasgos en las familias de modelos. Encontramos que los modelos tienden a exhibir un parecido familiar, lo que significa que sus marcadores genéticos y rasgos muestran más superposición cuando pertenecen a la misma familia de modelos. Sin embargo, estas similitudes se desvían en ciertos aspectos de los modelos estándar de reproducción asexual, porque las mutaciones son rápidas y dirigidas, de modo que dos modelos "hermanos" tienden a exhibir más similitud que los pares progenitor/descendiente. Un análisis más profundo de las derivas direccionales de estas mutaciones revela insights cualitativos sobre el ecosistema abierto de aprendizaje automático: las licencias, de manera contraintuitiva, derivan de licencias restrictivas y comerciales hacia licencias permisivas o copyleft, a menudo violando los términos de las licencias originales; los modelos evolucionan de la compatibilidad multilingüe hacia la compatibilidad exclusiva en inglés; y las fichas técnicas se reducen en longitud y se estandarizan al recurrir, con mayor frecuencia, a plantillas y texto generado automáticamente. En general, este trabajo da un paso hacia una comprensión empíricamente fundamentada del ajuste de modelos y sugiere que los modelos y métodos ecológicos pueden generar insights científicos novedosos.
A medida que los modelos de lenguaje de gran escala se integran cada vez más en la vida cotidiana, el audio ha surgido como una interfaz clave para la interacción humano-IA. Sin embargo, esta conveniencia también introduce nuevas vulnerabilidades, convirtiendo al audio en una superficie potencial de ataque para adversarios. Nuestra investigación presenta WhisperInject, un marco de ataque adversarial de audio en dos etapas que puede manipular modelos de lenguaje de audio de última generación para generar contenido dañino. Nuestro método utiliza perturbaciones imperceptibles en las entradas de audio que permanecen benignas para los oyentes humanos. La primera etapa emplea un novedoso método de optimización basado en recompensas, Aprendizaje por Refuerzo con Descenso de Gradiente Proyectado (RL-PGD, por sus siglas en inglés), para guiar al modelo objetivo a eludir sus propios protocolos de seguridad y generar respuestas nativas dañinas. Esta respuesta nativa dañina sirve entonces como objetivo para la segunda etapa, Inyección de Carga Útil, donde utilizamos el Descenso de Gradiente Proyectado (PGD) para optimizar perturbaciones sutiles que se incrustan en portadores de audio benignos, como consultas sobre el clima o mensajes de saludo. Validado bajo el riguroso marco de evaluación de seguridad StrongREJECT, LlamaGuard, así como la Evaluación Humana, nuestros experimentos demuestran una tasa de éxito superior al 86% en los modelos Qwen2.5-Omni-3B, Qwen2.5-Omni-7B y Phi-4-Multimodal. Nuestro trabajo demuestra una nueva clase de amenazas prácticas y nativas de audio, yendo más allá de explotaciones teóricas para revelar un método factible y encubierto para manipular el comportamiento de la IA.
Evaluar agentes de IA en entornos complejos e interactivos que reflejen desafíos del mundo real es fundamental para comprender sus capacidades prácticas. Si bien los puntos de referencia existentes para agentes evalúan eficazmente habilidades como el uso de herramientas o el desempeño en tareas estructuradas, a menudo no capturan por completo la capacidad de un agente para operar de manera autónoma en entornos exploratorios que exigen un razonamiento autodirigido y sostenido en un contexto extenso y en crecimiento. Para impulsar el desarrollo de agentes capaces de realizar un razonamiento intrínseco más robusto a largo plazo, presentamos TextQuests, un punto de referencia basado en la suite de ficción interactiva Infocom. Estas aventuras basadas en texto, que pueden llevar a los jugadores humanos más de 30 horas y requieren cientos de acciones precisas para resolverse, sirven como un proxy efectivo para evaluar agentes de IA en tareas enfocadas y con estado. El punto de referencia está diseñado específicamente para evaluar la capacidad de un agente de LLM para resolver problemas de manera autónoma, excluyendo el uso de herramientas externas, centrándose así en las capacidades intrínsecas de razonamiento en contextos largos dentro de un entorno exploratorio caracterizado por la necesidad de aprendizaje por ensayo y error y resolución sostenida de problemas en una única sesión interactiva. Publicamos TextQuests en https://textquests.ai.