Artículos de investigación en IA seleccionados diariamente con traducciones
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR, por sus siglas en inglés) ha surgido como un enfoque poderoso para mejorar las capacidades de razonamiento de los Modelos de Lenguaje a Gran Escala (LLMs), aunque sus mecanismos aún no se comprenden bien. En este trabajo, emprendemos una exploración pionera de RLVR desde la novedosa perspectiva de los patrones de entropía de tokens, analizando exhaustivamente cómo diferentes tokens influyen en el rendimiento del razonamiento. Al examinar los patrones de entropía de tokens en el razonamiento en Cadena de Pensamiento (CoT), observamos que solo una pequeña fracción de tokens exhibe una entropía alta, y estos tokens actúan como puntos críticos que guían al modelo hacia diversas vías de razonamiento. Además, al estudiar cómo evolucionan los patrones de entropía durante el entrenamiento de RLVR, descubrimos que RLVR se adhiere en gran medida a los patrones de entropía del modelo base, ajustando principalmente la entropía de los tokens de alta entropía. Estos hallazgos resaltan la importancia de los tokens de alta entropía (es decir, tokens de bifurcación) para RLVR. Finalmente, mejoramos RLVR al restringir las actualizaciones del gradiente de política a los tokens de bifurcación y descubrimos un hallazgo que va más allá de la regla 80/20: utilizando solo el 20% de los tokens mientras se mantiene un rendimiento comparable a las actualizaciones de gradiente completo en el modelo base Qwen3-8B y superando significativamente las actualizaciones de gradiente completo en los modelos base Qwen3-32B (+11.04 en AIME'25 y +7.71 en AIME'24) y Qwen3-14B (+4.79 en AIME'25 y +5.21 en AIME'24), destacando una fuerte tendencia de escalabilidad. En contraste, entrenar exclusivamente con el 80% de los tokens de menor entropía conduce a una marcada disminución en el rendimiento. Estos hallazgos indican que la eficacia de RLVR surge principalmente de la optimización de los tokens de alta entropía que deciden las direcciones de razonamiento. En conjunto, nuestros resultados resaltan el potencial de comprender RLVR a través de una perspectiva de entropía de tokens y optimizar RLVR aprovechando los tokens minoritarios de alta entropía para mejorar aún más el razonamiento de los LLMs.
Los modelos de visión-lenguaje (VLMs) preentrenados en conjuntos de datos multimodales a gran escala codifican un conocimiento visual y lingüístico rico, lo que los convierte en una base sólida para la robótica. En lugar de entrenar políticas robóticas desde cero, enfoques recientes adaptan los VLMs en modelos de visión-lenguaje-acción (VLA) que permiten la percepción y el control impulsados por lenguaje natural. Sin embargo, los VLA existentes suelen ser masivos—a menudo con miles de millones de parámetros—lo que conlleva altos costos de entrenamiento y una capacidad limitada de implementación en el mundo real. Además, dependen de conjuntos de datos académicos e industriales, pasando por alto la creciente disponibilidad de datos recopilados por la comunidad a partir de plataformas robóticas asequibles. En este trabajo, presentamos SmolVLA, un VLA pequeño, eficiente y orientado a la comunidad que reduce drásticamente tanto los costos de entrenamiento como de inferencia, manteniendo un rendimiento competitivo. SmolVLA está diseñado para ser entrenado en una sola GPU y desplegado en GPUs de consumo e incluso CPUs. Para mejorar aún más la capacidad de respuesta, introducimos una pila de inferencia asíncrona que desacopla la percepción y la predicción de acciones de la ejecución de acciones, permitiendo tasas de control más altas con generación de acciones en fragmentos. A pesar de su tamaño compacto, SmolVLA logra un rendimiento comparable a VLA que son 10 veces más grandes. Evaluamos SmolVLA en una variedad de benchmarks robóticos tanto simulados como del mundo real, y publicamos todo el código, modelos preentrenados y datos de entrenamiento.
Presentamos Reasoning Gym (RG), una biblioteca de entornos de razonamiento para aprendizaje por refuerzo con recompensas verificables. Ofrece más de 100 generadores y verificadores de datos que abarcan múltiples dominios, incluyendo álgebra, aritmética, computación, cognición, geometría, teoría de grafos, lógica y varios juegos comunes. Su innovación clave es la capacidad de generar virtualmente datos de entrenamiento infinitos con complejidad ajustable, a diferencia de la mayoría de los conjuntos de datos de razonamiento anteriores, que suelen ser fijos. Este enfoque de generación procedural permite una evaluación continua a través de distintos niveles de dificultad. Nuestros resultados experimentales demuestran la eficacia de RG tanto en la evaluación como en el aprendizaje por refuerzo de modelos de razonamiento.
Los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) han demostrado capacidades prometedoras en tareas de razonamiento, pero aún enfrentan dificultades con problemas complejos que requieren una autorreflexión y autocorrección explícitas, especialmente en comparación con sus contrapartes unimodales basadas en texto. Los métodos de reflexión existentes son simplistas y tienen dificultades para generar retroalimentación significativa e instructiva, ya que la capacidad de razonamiento y los límites de conocimiento de los modelos preentrenados están en gran medida fijados durante el entrenamiento inicial. Para superar estos desafíos, proponemos el razonamiento mejorado con Autorreflexión Multimodal mediante Optimización de Política Relativa Grupal (SRPO, por sus siglas en inglés), un marco de aprendizaje por refuerzo (RL) de dos etapas diseñado explícitamente para mejorar el razonamiento de los MLLMs multimodales. En la primera etapa, construimos un conjunto de datos de alta calidad centrado en la reflexión bajo la guía de un MLLM avanzado, que genera reflexiones basadas en respuestas iniciales para ayudar al modelo de política a aprender tanto el razonamiento como la autorreflexión. En la segunda etapa, introducimos un mecanismo de recompensa novedoso dentro del marco GRPO que fomenta reflexiones concisas y cognitivamente significativas, evitando la redundancia. Experimentos extensos en múltiples benchmarks de razonamiento multimodal, incluyendo MathVista, MathVision, MathVerse y MMMU-Pro, utilizando Qwen-2.5-VL-7B y Qwen-2.5-VL-32B, demuestran que SRPO supera significativamente a los modelos de última generación, logrando mejoras notables tanto en la precisión del razonamiento como en la calidad de la reflexión.
El entrenamiento de modelos de lenguaje a gran escala (LLMs, por sus siglas en inglés) presenta desafíos debido a su escala masiva y arquitecturas heterogéneas. Aunque optimizadores adaptativos como AdamW ayudan a abordar las variaciones en los gradientes, aún luchan con la estimación eficiente y efectiva de las tasas de aprendizaje por parámetro, lo que resulta en inestabilidad durante el entrenamiento, convergencia lenta y poca compatibilidad con técnicas de ajuste fino eficiente en parámetros (PEFT, por sus siglas en inglés). Este trabajo introduce Scaling with Gradient Grouping (SGG), un envoltorio de optimización que mejora la estimación de tasas de aprendizaje adaptativas mediante agrupación dinámica y escalado específico por grupo. SGG primero agrupa las estadísticas de gradiente en cada capa en clústeres y luego aplica un escalado específico por clúster para calibrar las tasas de aprendizaje para cada parámetro, imponiendo así restricciones colectivas a nivel de grupo mientras mantiene una adaptación precisa por parámetro. Los experimentos en diversos puntos de referencia de (M)LLM muestran que SGG se integra perfectamente con optimizadores existentes y ofrece ganancias consistentes y una convergencia más rápida en comparación con las líneas base, independientemente del tamaño del modelo. Su estabilidad frente a diferentes tamaños de lotes y tasas de aprendizaje establece a SGG como una opción robusta para la optimización de LLMs.
Los recientes avances en los modelos de difusión de texto a video han permitido la síntesis de videos de alta calidad, pero la generación controlada sigue siendo un desafío, particularmente con datos y capacidad de cómputo limitados. Los métodos existentes de ajuste fino para la generación condicional a menudo dependen de codificadores externos o modificaciones arquitectónicas, que requieren grandes conjuntos de datos y suelen estar restringidos a condiciones espacialmente alineadas, limitando la flexibilidad y escalabilidad. En este trabajo, presentamos Temporal In-Context Fine-Tuning (TIC-FT), un enfoque eficiente y versátil para adaptar modelos de difusión de video preentrenados a diversas tareas de generación condicional. Nuestra idea clave es concatenar los marcos de condición y objetivo a lo largo del eje temporal e insertar marcos de búfer intermedios con niveles de ruido progresivamente crecientes. Estos marcos de búfer permiten transiciones suaves, alineando el proceso de ajuste fino con la dinámica temporal del modelo preentrenado. TIC-FT no requiere cambios arquitectónicos y logra un rendimiento sólido con tan solo 10-30 muestras de entrenamiento. Validamos nuestro método en una variedad de tareas, incluyendo generación de imagen a video y video a video, utilizando modelos base a gran escala como CogVideoX-5B y Wan-14B. Experimentos extensos muestran que TIC-FT supera a las líneas base existentes tanto en fidelidad de condición como en calidad visual, manteniéndose altamente eficiente tanto en entrenamiento como en inferencia. Para resultados adicionales, visite https://kinam0252.github.io/TIC-FT/.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han permitido que los agentes realicen razonamientos complejos y toma de decisiones a través de interacciones lingüísticas de forma libre. Sin embargo, en entornos de acción lingüística de final abierto (por ejemplo, juegos de negociación o de formulación de preguntas), el espacio de acción puede formularse como una distribución conjunta sobre tokens, lo que resulta en un espacio de acción exponencialmente grande. Muestrear acciones en dicho espacio puede llevar a una extrema dispersión de recompensas, lo que genera una gran varianza en las recompensas, dificultando el aprendizaje por refuerzo (RL, por sus siglas en inglés) efectivo. Para abordar esto, proponemos ARIA, un método que Agrega Recompensas en el espacio de Intención para permitir un entrenamiento eficiente y efectivo de agentes de lenguaje. ARIA tiene como objetivo proyectar acciones en lenguaje natural desde el espacio de distribución conjunta de tokens de alta dimensión hacia un espacio de intención de baja dimensión, donde acciones semánticamente similares se agrupan y se les asignan recompensas compartidas. Esta agregación de recompensas consciente de la intención reduce la varianza de las recompensas al densificar las señales de recompensa, fomentando una mejor optimización de políticas. Experimentos extensos demuestran que ARIA no solo reduce significativamente la varianza del gradiente de políticas, sino que también ofrece ganancias sustanciales de rendimiento, con un promedio del 9.95% en cuatro tareas posteriores, superando consistentemente las líneas base de RL tanto en línea como fuera de línea.
Los agentes corporizados en el mundo real enfrentan tareas de horizonte largo, caracterizadas por objetivos de alto nivel que requieren soluciones de múltiples pasos más allá de acciones individuales. Para navegar con éxito estas tareas, se necesita tanto planificación de alto nivel (es decir, descomponer objetivos en sub-tareas) como control de movimiento de bajo nivel (es decir, generar acciones precisas del robot). Aunque los modelos existentes de visión, lenguaje y acción (VLA) y las arquitecturas jerárquicas ofrecen potencial en tareas corporizadas, los primeros a menudo fallan en la planificación, y los segundos pueden sufrir problemas de coordinación, lo que perjudica el rendimiento. Introducimos un nuevo marco unificado de VLA para tareas de horizonte largo, denominado LoHoVLA, para superar estas limitaciones. LoHoVLA aprovecha un modelo de visión y lenguaje (VLM) preentrenado como columna vertebral para generar conjuntamente tokens de lenguaje y de acción para la generación de sub-tareas y la predicción de acciones del robot, respectivamente. Esta representación compartida promueve una mejor generalización entre tareas. Además, LoHoVLA incorpora un mecanismo de control jerárquico en bucle cerrado para mitigar errores originados tanto en la planificación de alto nivel como en el control de bajo nivel. Para entrenar LoHoVLA, presentamos LoHoSet, un conjunto de datos basado en el simulador Ravens, que contiene 20 tareas de horizonte largo, cada una con 1,000 demostraciones expertas compuestas por observaciones visuales, objetivos lingüísticos, sub-tareas y acciones del robot. Los resultados experimentales muestran que LoHoVLA supera significativamente tanto los enfoques jerárquicos como los estándar de VLA en tareas corporizadas de horizonte largo en el simulador Ravens. Estos hallazgos subrayan la promesa de las arquitecturas unificadas para avanzar en la inteligencia corporizada generalizable.
Recientemente, las potentes capacidades de generación de texto a imagen de ChatGPT-4o han llevado a un creciente reconocimiento de los modelos de lenguaje multimodal nativos. Sin embargo, sus capacidades multimodales siguen limitadas a imágenes y texto. Más allá de las imágenes, la capacidad de comprender y generar contenido 3D es igualmente crucial. Para abordar esta brecha, proponemos ShapeLLM-Omni, un modelo de lenguaje grande nativo en 3D capaz de comprender y generar activos 3D y texto en cualquier secuencia. Primero, entrenamos un autoencoder variacional cuantizado vectorial en 3D (VQVAE), que mapea objetos 3D en un espacio latente discreto para lograr una representación y reconstrucción de formas eficiente y precisa. Basándonos en los tokens discretos conscientes de 3D, construimos de manera innovadora un conjunto de datos de entrenamiento continuo a gran escala llamado 3D-Alpaca, que abarca generación, comprensión y edición, proporcionando así recursos ricos para futuras investigaciones y entrenamientos. Finalmente, realizamos un entrenamiento basado en instrucciones del modelo Qwen-2.5-vl-7B-Instruct en el conjunto de datos 3D-Alpaca. Nuestro trabajo ofrece un intento efectivo de extender modelos multimodales con capacidades básicas en 3D, lo que contribuye a futuras investigaciones en IA nativa en 3D. Página del proyecto: https://github.com/JAMESYJL/ShapeLLM-Omni
La aplicación del aprendizaje por refuerzo basado en reglas (RL) a modelos de lenguaje multimodal de gran escala (MLLMs) introduce desafíos únicos y posibles desviaciones respecto a los hallazgos en dominios exclusivamente textuales, particularmente para tareas que requieren una fuerte percepción visual. Este artículo presenta un estudio exhaustivo del RL visual basado en reglas, utilizando rompecabezas como marco experimental estructurado. Los rompecabezas ofrecen una verdad fundamental inherente, dificultad ajustable y exigen una toma de decisiones compleja, lo que los hace ideales para este estudio. Nuestra investigación revela varios hallazgos clave: En primer lugar, encontramos que los MLLMs, que inicialmente tienen un rendimiento cercano al azar en los rompecabezas más simples, logran una precisión casi perfecta y generalizan a configuraciones complejas y no vistas mediante ajuste fino. En segundo lugar, el entrenamiento en rompecabezas puede inducir generalización a otras tareas visuales, con una efectividad vinculada a configuraciones específicas de tareas. En tercer lugar, los MLLMs pueden aprender y generalizar con o sin razonamiento explícito, aunque los modelos de código abierto suelen favorecer respuestas directas. En consecuencia, incluso cuando se entrenan para razonar paso a paso, pueden ignorar el proceso de pensamiento al derivar la respuesta final. En cuarto lugar, observamos que los patrones de razonamiento complejo parecen estar preexistentes en lugar de emergentes, con su frecuencia aumentando junto con el entrenamiento y la dificultad de la tarea. Finalmente, nuestros resultados demuestran que el RL exhibe una generalización más efectiva que el Ajuste Fino Supervisado (SFT), y que una fase inicial de arranque en frío con SFT puede obstaculizar la optimización posterior del RL. Aunque estas observaciones se basan en rompecabezas y pueden variar en otras tareas visuales, esta investigación contribuye con una pieza valiosa al rompecabezas más amplio de la comprensión colectiva del RL visual basado en reglas y su potencial en el aprendizaje multimodal. El código está disponible en: https://github.com/zifuwanggg/Jigsaw-R1.
Los recientes avances en los modelos de difusión de video han demostrado un gran potencial para generar datos de toma de decisiones robóticas, con condiciones de trayectoria que permiten un control más detallado. Sin embargo, los métodos basados en trayectoria existentes se centran principalmente en el movimiento de objetos individuales y tienen dificultades para capturar la interacción entre múltiples objetos, crucial en la manipulación robótica compleja. Esta limitación surge del entrelazamiento de múltiples características en regiones superpuestas, lo que conduce a una degradación de la fidelidad visual. Para abordar esto, presentamos RoboMaster, un marco novedoso que modela la dinámica entre objetos mediante una formulación colaborativa de trayectorias. A diferencia de los métodos anteriores que descomponen los objetos, nuestro enfoque principal es descomponer el proceso de interacción en tres subetapas: pre-interacción, interacción y post-interacción. Cada etapa se modela utilizando la característica del objeto dominante, específicamente el brazo robótico en las fases de pre- y post-interacción y el objeto manipulado durante la interacción, mitigando así el inconveniente de la fusión de características de múltiples objetos presente en trabajos anteriores. Para garantizar aún más la consistencia semántica del sujeto a lo largo del video, incorporamos representaciones latentes conscientes de la apariencia y la forma de los objetos. Experimentos exhaustivos en el desafiante conjunto de datos Bridge V2, así como evaluaciones en entornos reales, demuestran que nuestro método supera a los enfoques existentes, estableciendo un nuevo estado del arte en la generación de video controlado por trayectorias para la manipulación robótica.
El aprendizaje por refuerzo (RL, por sus siglas en inglés) se ha convertido en un paradigma destacado para entrenar modelos de lenguaje de gran escala (LLMs), especialmente en tareas de razonamiento. Un RL efectivo para LLMs requiere una paralelización masiva y plantea una necesidad urgente de sistemas de entrenamiento eficientes. La mayoría de los sistemas de RL a gran escala existentes para LLMs son síncronos, alternando generación y entrenamiento en un entorno por lotes, donde las trayectorias en cada lote de entrenamiento son generadas por el mismo (o el más reciente) modelo. Esto estabiliza el entrenamiento de RL, pero sufre de una grave ineficiencia a nivel del sistema. La generación debe esperar hasta que se complete la salida más larga en el lote antes de actualizar el modelo, lo que resulta en una subutilización de las GPU. Presentamos AReaL, un sistema de RL completamente asíncrono que desacopla por completo la generación del entrenamiento. Los trabajadores de generación en AReaL producen continuamente nuevas salidas sin esperar, mientras que los trabajadores de entrenamiento actualizan el modelo cada vez que se recopila un lote de datos. AReaL también incorpora una serie de optimizaciones a nivel del sistema, lo que conduce a una utilización sustancialmente mayor de las GPU. Para estabilizar el entrenamiento de RL, AReaL equilibra la carga de trabajo de los trabajadores de generación y entrenamiento para controlar la obsolescencia de los datos, y adopta una variante de PPO mejorada para manejar mejor las muestras de entrenamiento desactualizadas. Experimentos extensos en benchmarks de razonamiento matemático y de código muestran que AReaL logra una aceleración de hasta 2.57 veces en el entrenamiento en comparación con los mejores sistemas síncronos con el mismo número de GPUs y un rendimiento final igual o incluso mejorado. El código de AReaL está disponible en https://github.com/inclusionAI/AReaL/.
Los Modelos Multimodales de Gran Escala (LMMs, por sus siglas en inglés) han demostrado un rendimiento sólido en diversas tareas de visión y lenguaje. Sin embargo, a menudo tienen dificultades para comprender de manera integral los datos de Observación de la Tierra (EO, por sus siglas en inglés), los cuales son cruciales para monitorear el medio ambiente y los efectos de la actividad humana en él. En este trabajo, presentamos EarthMind, un marco novedoso de visión y lenguaje para la comprensión de datos EO multi-granulares y multi-sensores. EarthMind cuenta con dos componentes principales: (1) el Prompting de Atención Espacial (SAP, por sus siglas en inglés), que redistribuye la atención dentro del LLM para mejorar la comprensión a nivel de píxeles; y (2) la Fusión Cross-modal, que alinea modalidades heterogéneas en un espacio compartido y reajusta de manera adaptativa los tokens según su densidad de información para lograr una fusión efectiva. Para facilitar la evaluación de la fusión multi-sensor, proponemos EarthMind-Bench, un benchmark integral con más de 2,000 pares de imágenes-preguntas multi-sensor anotadas manualmente, que abarcan una amplia gama de tareas de percepción y razonamiento. Experimentos exhaustivos demuestran la efectividad de EarthMind. Este logra un rendimiento de vanguardia en EarthMind-Bench, superando a GPT-4o a pesar de tener solo 4B de escala. Además, EarthMind supera a los métodos existentes en múltiples benchmarks públicos de EO, mostrando su potencial para manejar tanto los desafíos multi-granulares como multi-sensores en un marco unificado.
Las leyes de escalamiento han moldeado los avances recientes en el aprendizaje automático al permitir un escalamiento predecible del rendimiento de los modelos en función del tamaño del modelo, el cómputo y el volumen de datos. Simultáneamente, el aumento en el costo computacional de la IA ha motivado técnicas de compresión de modelos, notablemente la cuantización y la esparsificación, que han surgido para mitigar las altas demandas computacionales asociadas con el entrenamiento e inferencia a gran escala. Este artículo investiga la interacción entre las leyes de escalamiento y los formatos de compresión, explorando si un marco de escalamiento unificado puede predecir con precisión el rendimiento del modelo cuando el entrenamiento se realiza sobre diversas representaciones comprimidas, como formatos esparsos, cuantizados escalarmente, esparso-cuantizados o incluso cuantizados vectorialmente. Nuestras contribuciones clave incluyen validar una formulación general de la ley de escalamiento y demostrar que es aplicable tanto individualmente como de manera compositiva entre tipos de compresión. Con base en esto, nuestro hallazgo principal es demostrar tanto teórica como empíricamente que existe una métrica simple de "capacidad" —basada en la capacidad de la representación para ajustar datos gaussianos aleatorios— que puede predecir de manera robusta la eficiencia de los parámetros en múltiples representaciones comprimidas. En el aspecto práctico, extendemos nuestra formulación para comparar directamente el potencial de precisión de diferentes formatos comprimidos y para derivar mejores algoritmos para el entrenamiento sobre formatos esparso-cuantizados.
Los modelos de lenguaje grandes (LLMs) existentes enfrentan desafíos al seguir instrucciones complejas, especialmente cuando están presentes múltiples restricciones organizadas en estructuras paralelas, encadenadas y ramificadas. Una solución intuitiva, conocida como cadena de pensamiento (CoT), se espera que mejore universalmente las capacidades de los LLMs. Sin embargo, encontramos que la CoT básica ejerce un impacto negativo en el rendimiento debido a su patrón de razonamiento superficial que simplemente parafrasea las instrucciones. No logra descomponer las restricciones para identificar su relación a través de jerarquías de tipos y dimensiones. Para abordar esto, proponemos un método sistemático para potenciar a los LLMs en el manejo de instrucciones complejas mediante la incentivación del razonamiento para la escalabilidad del cómputo en tiempo de prueba. Primero, partimos de la descomposición de instrucciones complejas bajo taxonomías existentes y proponemos un método reproducible de adquisición de datos. Segundo, utilizamos aprendizaje por refuerzo (RL) con señales de recompensa centradas en reglas verificables para cultivar el razonamiento específicamente para el seguimiento de instrucciones. Abordamos la naturaleza superficial y no esencial del razonamiento bajo instrucciones complejas mediante contraste por muestra para una aplicación superior de CoT. También aprovechamos la clonación de comportamiento de expertos para facilitar un cambio de distribución estable desde LLMs de pensamiento rápido hacia razonadores hábiles. Evaluaciones extensas en siete benchmarks completos confirman la validez del método propuesto, donde un LLM de 1.5B logra mejoras del 11.74% con un rendimiento comparable a un LLM de 8B. Los códigos y datos están disponibles en https://github.com/yuleiqin/RAIF.
El modelado de recompensas es un paso clave en la construcción de modelos base seguros al aplicar el aprendizaje por refuerzo a partir de retroalimentación humana (RLHF) para alinear modelos de lenguaje de gran escala (LLMs). Sin embargo, el modelado de recompensas basado en el modelo de Bradley-Terry (BT) asume una función de recompensa global, lo que no logra capturar las preferencias humanas inherentemente diversas y heterogéneas. Por lo tanto, esta simplificación excesiva limita la capacidad de los LLMs para apoyar la personalización y la alineación pluralista. Teóricamente, demostramos que cuando las preferencias humanas siguen una distribución mixta de subgrupos diversos, un único modelo BT tiene un error irreducible. Aunque soluciones existentes, como el aprendizaje multiobjetivo con anotaciones detalladas, ayudan a abordar este problema, son costosas y están limitadas por atributos predefinidos, lo que no permite capturar plenamente la riqueza de los valores humanos. En este trabajo, presentamos MiCRo, un marco de dos etapas que mejora el aprendizaje de preferencias personalizadas al aprovechar grandes conjuntos de datos de preferencias binarias sin requerir anotaciones detalladas explícitas. En la primera etapa, MiCRo introduce un enfoque de modelado mixto consciente del contexto para capturar diversas preferencias humanas. En la segunda etapa, MiCRo integra una estrategia de enrutamiento en línea que adapta dinámicamente los pesos de la mezcla según el contexto específico para resolver ambigüedades, permitiendo una adaptación de preferencias eficiente y escalable con una supervisión adicional mínima. Los experimentos en múltiples conjuntos de datos de preferencias demuestran que MiCRo captura efectivamente las preferencias humanas diversas y mejora significativamente la personalización en tareas posteriores.
El rápido avance del Contenido Generado por Inteligencia Artificial (AIGC) en dominios visuales ha dado lugar a imágenes y videos sintéticos altamente realistas, impulsados por marcos generativos sofisticados como las arquitecturas basadas en difusión. Si bien estos avances abren oportunidades sustanciales, también plantean preocupaciones críticas sobre la autenticidad e integridad del contenido. Muchos de los métodos actuales de detección de AIGC funcionan como clasificadores binarios de caja negra, que ofrecen una interpretabilidad limitada, y ningún enfoque permite detectar tanto imágenes como videos en un marco unificado. Esta doble limitación compromete la transparencia del modelo, reduce su confiabilidad y dificulta su implementación práctica. Para abordar estos desafíos, presentamos IVY-FAKE, un conjunto de datos novedoso, unificado y a gran escala diseñado específicamente para la detección explicable de AIGC multimodal. A diferencia de los puntos de referencia anteriores, que sufren de una cobertura de modalidad fragmentada y anotaciones escasas, IVY-FAKE contiene más de 150,000 muestras de entrenamiento ricamente anotadas (imágenes y videos) y 18,700 ejemplos de evaluación, cada uno acompañado de un razonamiento detallado en lenguaje natural más allá de simples etiquetas binarias. Sobre esta base, proponemos Ivy Explainable Detector (IVY-XDETECTOR), una arquitectura unificada de detección y explicación de AIGC que realiza conjuntamente la detección explicable tanto para contenido de imagen como de video. Nuestro modelo unificado de visión y lenguaje logra un rendimiento de vanguardia en múltiples puntos de referencia de detección de imágenes y videos, destacando los avances significativos habilitados por nuestro conjunto de datos y marco de modelado. Nuestros datos están disponibles públicamente en https://huggingface.co/datasets/AI-Safeguard/Ivy-Fake.
El enfoque Chain-of-Thought (CoT) permite el razonamiento complejo en modelos de lenguaje de gran escala (LLMs), incluyendo aplicaciones en recuperación de información (IR). Sin embargo, a menudo conduce a un sobrepensamiento, donde los modelos producen trazas excesivamente largas y semánticamente redundantes con poco o ningún beneficio. Identificamos dos desafíos clave en IR: trayectorias redundantes que revisitan estados similares y razonamientos desviados que divergen de la intención del usuario. Para abordar estos problemas, proponemos State Machine Reasoning (SMR), un marco de razonamiento basado en transiciones compuesto por acciones discretas (Refinar, Reordenar, Detener) que permiten una detención temprana y un control detallado. Los experimentos en los benchmarks BEIR y BRIGHT muestran que SMR mejora el rendimiento en recuperación (nDCG@10) en un 3.4% mientras reduce el uso de tokens en un 74.4%. Además, se generaliza en diferentes LLMs y sistemas de recuperación sin necesidad de ajustes específicos por tarea, ofreciendo una alternativa práctica al razonamiento CoT convencional. El código y los detalles están disponibles en https://github.com/ldilab/SMR.
Entrenar directamente Modelos de Lenguaje de Gran Escala (LLMs) para Sistemas Multi-Agente (MAS) sigue siendo un desafío debido al modelado intrincado de recompensas, las interacciones dinámicas entre agentes y los exigentes requisitos de generalización. Este artículo explora si las técnicas de post-entrenamiento, específicamente el Ajuste Fino Supervisado (SFT) y el Aprendizaje por Refuerzo con Recompensas Verificables (RLVR), pueden generalizar efectivamente a escenarios multi-agente. Utilizamos el razonamiento económico como banco de pruebas, aprovechando sus sólidos fundamentos en matemáticas y teoría de juegos, su demanda de razonamiento analítico estructurado y su relevancia para aplicaciones del mundo real como el diseño de mercados, la asignación de recursos y el análisis de políticas. Presentamos Recon (Razonar como un ECONomista), un LLM de código abierto con 7 mil millones de parámetros post-entrenado en un conjunto de datos cuidadosamente seleccionado de 2,100 problemas de alta calidad sobre razonamiento económico. Una evaluación exhaustiva en benchmarks de razonamiento económico y juegos multi-agente revela mejoras claras en el razonamiento estructurado y la racionalidad económica. Estos resultados subrayan la promesa del post-entrenamiento alineado con el dominio para mejorar el razonamiento y la alineación de los agentes, arrojando luz sobre los roles del SFT y el RL en la configuración del comportamiento del modelo. El código está disponible en https://github.com/MasterZhou1/Recon.
La edición de imágenes es una tarea importante en gráficos por computadora, visión artificial y efectos visuales, con métodos recientes basados en difusión que logran resultados rápidos y de alta calidad. Sin embargo, las ediciones que requieren cambios estructurales significativos, como deformaciones no rígidas, modificaciones de objetos o generación de contenido, siguen siendo un desafío. Los enfoques existentes de edición en pocos pasos producen artefactos como texturas irrelevantes o tienen dificultades para preservar atributos clave de la imagen original (por ejemplo, la pose). Presentamos Cora, un marco de edición novedoso que aborda estas limitaciones mediante la introducción de corrección de ruido consciente de correspondencias y mapas de atención interpolados. Nuestro método alinea texturas y estructuras entre la imagen fuente y la imagen objetivo a través de correspondencia semántica, permitiendo una transferencia precisa de texturas mientras genera nuevo contenido cuando es necesario. Cora ofrece control sobre el equilibrio entre la generación y la preservación de contenido. Experimentos extensos demuestran que, cuantitativa y cualitativamente, Cora sobresale en mantener la estructura, las texturas y la identidad en diversas ediciones, incluyendo cambios de pose, adición de objetos y refinamientos de textura. Estudios con usuarios confirman que Cora ofrece resultados superiores, superando a las alternativas.
Impulsado por un modelo de lenguaje grande (LLM, por sus siglas en inglés), un agente de navegación web opera navegadores de manera similar a los humanos y ofrece un camino altamente transparente hacia la automatización de una amplia gama de tareas cotidianas. A medida que los agentes web se vuelven cada vez más capaces y demuestran competencia en tareas generales de navegación, surge una pregunta crítica: ¿Pueden ir más allá de la navegación general para manejar de manera robusta tareas tediosas y complejas, o aquellas que los humanos a menudo evitan realizar por sí mismos? En este artículo, presentamos WebChoreArena, un nuevo benchmark completamente reproducible que comprende 532 tareas cuidadosamente seleccionadas, diseñadas para extender el alcance de WebArena más allá de la navegación general hacia tareas más laboriosas y tediosas. WebChoreArena integra sistemáticamente tres desafíos clave: (i) tareas de Memoria Masiva que requieren la recuperación precisa de grandes cantidades de información en las observaciones, (ii) tareas de Cálculo que exigen razonamiento matemático preciso, y (iii) tareas de Memoria a Largo Plazo que necesitan memoria a largo plazo a través de múltiples páginas web. Construido sobre los cuatro entornos de simulación de WebArena, completamente reproducibles y ampliamente adoptados, WebChoreArena garantiza una estricta reproducibilidad y permite comparaciones directas y justas con el benchmark establecido de WebArena, ofreciendo insights clave sobre el progreso de los agentes. Nuestros resultados experimentales demuestran que, a medida que los LLM evolucionan, representados por GPT-4o, Claude 3.7 Sonnet y Gemini 2.5 Pro, se observan mejoras significativas en el rendimiento en WebChoreArena. Estos hallazgos sugieren que WebChoreArena está bien adaptado para medir el avance de los LLM de última generación con mayor claridad. Sin embargo, los resultados también indican que, incluso con Gemini 2.5 Pro, aún queda un margen sustancial de mejora en comparación con WebArena, destacando los mayores desafíos que plantea WebChoreArena.
Los sistemas de IA actuales tienen arquitecturas fijas diseñadas por humanos y no pueden mejorarse de manera autónoma y continua. El avance de la IA podría automatizarse. Si se hace de manera segura, esto aceleraría el desarrollo de la IA y nos permitiría obtener sus beneficios mucho antes. El metaaprendizaje puede automatizar el descubrimiento de nuevos algoritmos, pero está limitado por mejoras de primer orden y el diseño humano de un espacio de búsqueda adecuado. La máquina de Gödel propuso una alternativa teórica: una IA que se mejora a sí misma modificándose repetidamente de manera demostrablemente beneficiosa. Desafortunadamente, demostrar que la mayoría de los cambios son beneficiosos netos es imposible en la práctica. Introducimos la Máquina de Gödel Darwin (DGM, por sus siglas en inglés), un sistema que se mejora a sí mismo modificando iterativamente su propio código (mejorando así también su capacidad para modificar su base de código) y valida empíricamente cada cambio utilizando puntos de referencia de codificación. Inspirada por la evolución darwiniana y la investigación de apertura sin límites, la DGM mantiene un archivo de agentes de codificación generados. Hace crecer el archivo muestreando un agente de él y utilizando un modelo base para crear una nueva versión interesante del agente muestreado. Esta exploración sin límites forma un árbol en crecimiento de agentes diversos y de alta calidad, permitiendo la exploración paralela de múltiples caminos a través del espacio de búsqueda. Empíricamente, la DGM mejora automáticamente sus capacidades de codificación (por ejemplo, mejores herramientas de edición de código, gestión de ventanas de contexto largo, mecanismos de revisión por pares), aumentando el rendimiento en SWE-bench del 20.0% al 50.0%, y en Polyglot del 14.2% al 30.7%. Además, la DGM supera significativamente a las líneas base sin automejora o exploración sin límites. Todos los experimentos se realizaron con precauciones de seguridad (por ejemplo, aislamiento, supervisión humana). La DGM es un paso significativo hacia una IA que se mejora a sí misma, capaz de recoger sus propios peldaños a lo largo de caminos que se despliegan en una innovación sin fin.
Se espera que los modelos de lenguaje visual (VLMs, por sus siglas en inglés) realicen un razonamiento multimodal efectivo y tomen decisiones lógicamente coherentes, lo cual es crucial para tareas como la comprensión de diagramas y la resolución de problemas espaciales. Sin embargo, el razonamiento de los VLMs actuales carece de conjuntos de datos de entrenamiento a gran escala y bien estructurados. Para cerrar esta brecha, proponemos VisualSphinx, un conjunto de datos de entrenamiento sintético a gran escala para el razonamiento lógico visual, el primero en su tipo. Para abordar el desafío de la síntesis de imágenes con respuestas fundamentadas, proponemos una canalización de síntesis de reglas a imágenes, que extrae y expande las reglas de rompecabezas a partir de preguntas iniciales y genera el código de síntesis de imágenes fundamentadas para el ensamblaje de muestras de rompecabezas. Los experimentos demuestran que los VLMs entrenados utilizando GRPO en VisualSphinx se benefician de la coherencia lógica y la legibilidad de nuestro conjunto de datos y muestran un mejor rendimiento en tareas de razonamiento lógico. Las capacidades de razonamiento mejoradas desarrolladas a partir de VisualSphinx también benefician otras tareas de razonamiento, como el razonamiento algebraico, el razonamiento aritmético y el razonamiento geométrico.
La guía negativa —la supresión explícita de atributos no deseados— sigue siendo un desafío fundamental en los modelos de difusión, particularmente en regímenes de muestreo con pocos pasos. Si bien la Guía Libre de Clasificadores (CFG, por sus siglas en inglés) funciona bien en configuraciones estándar, falla bajo una compresión agresiva de los pasos de muestreo debido a predicciones divergentes entre las ramas positiva y negativa. Presentamos la Guía de Atención Normalizada (NAG, por sus siglas en inglés), un mecanismo eficiente y sin necesidad de entrenamiento que aplica extrapolación en el espacio de atención con normalización y refinamiento basados en L1. NAG restaura la guía negativa efectiva donde CFG colapsa, manteniendo la fidelidad. A diferencia de los enfoques existentes, NAG se generaliza en distintas arquitecturas (UNet, DiT), regímenes de muestreo (pocos pasos, múltiples pasos) y modalidades (imagen, video), funcionando como un complemento universal con un mínimo sobrecosto computacional. A través de una extensa experimentación, demostramos mejoras consistentes en la alineación de texto (Puntaje CLIP), fidelidad (FID, PFID) y calidad percibida por humanos (ImageReward). Nuestros estudios de ablación validan cada componente del diseño, mientras que los estudios de usuarios confirman una preferencia significativa por los resultados guiados por NAG. Como un enfoque agnóstico al modelo en tiempo de inferencia que no requiere reentrenamiento, NAG proporciona una guía negativa sin esfuerzo para todos los marcos modernos de difusión —¡el pseudocódigo está en el Apéndice!
Los modelos de lenguaje basados en difusión ofrecen una alternativa convincente a los modelos autoregresivos (AR) al permitir una generación paralela y controlable. Dentro de esta familia de modelos, los Modelos de Difusión Enmascarada (MDMs) logran el mejor rendimiento, pero aún se desempeñan peor que los modelos AR en términos de perplejidad y carecen de características clave de eficiencia en la inferencia, especialmente el almacenamiento en caché de KV (KV caching). En este trabajo, presentamos Eso-LMs, una nueva familia de modelos que fusiona los paradigmas AR y MDM, permitiendo una interpolación suave entre sus niveles de perplejidad mientras supera sus respectivas limitaciones. Eso-LMs establecen un nuevo estado del arte en benchmarks estándar de modelado de lenguaje. De manera crucial, somos los **primeros en introducir el almacenamiento en caché de KV para MDMs** mientras preservamos la generación paralela, mejorando significativamente la eficiencia en la inferencia. Combinado con un esquema de muestreo optimizado, nuestro método logra una inferencia hasta **65 veces** más rápida que los MDMs estándar y **4 veces** más rápida que enfoques semi-autoregresivos previos. Proporcionamos el código y los puntos de control del modelo en la página del proyecto: [http://s-sahoo.github.io/Eso-LMs](http://s-sahoo.github.io/Eso-LMs).
El proyecto Open Whisper-style Speech Models (OWSM) ha desarrollado una serie de modelos de base de voz completamente abiertos utilizando recursos a escala académica, aunque sus datos de entrenamiento siguen siendo insuficientes. Este trabajo mejora OWSM mediante la integración de YODAS, un conjunto de datos a gran escala obtenido mediante web crawling y con licencia Creative Commons. Sin embargo, incorporar YODAS no es trivial debido a su naturaleza desordenada, lo que introduce desafíos como etiquetas de idioma incorrectas y desalineaciones entre audio y texto. Para abordar esto, desarrollamos una pipeline escalable de limpieza de datos utilizando herramientas públicas, obteniendo un conjunto de datos con 166,000 horas de habla en 75 idiomas. Nuestra nueva serie de modelos OWSM v4, entrenada en este conjunto de datos curado junto con los datos existentes de OWSM, supera significativamente a las versiones anteriores en benchmarks multilingües. Nuestros modelos incluso igualan o superan a modelos industriales de vanguardia como Whisper y MMS en múltiples escenarios. Publicaremos los datos limpios de YODAS, los modelos preentrenados y todos los scripts asociados a través del toolkit ESPnet.
Investigaciones previas han explorado la aplicación de Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) en la comprensión de escenas 3D al interpretarlas como videos. Estos enfoques generalmente dependen de entradas exhaustivas de datos 3D, como nubes de puntos o mapas reconstruidos en vista de pájaro (BEV, por sus siglas en inglés). En nuestra investigación, avanzamos en este campo al mejorar la capacidad de los MLLMs para comprender y razonar en espacios 3D directamente a partir de datos de video, sin la necesidad de entradas adicionales en 3D. Proponemos un método novedoso y eficiente, el Modelo de Lenguaje de Gran Escala de Geometría 3D a partir de Video (VG LLM, por sus siglas en inglés). Nuestro enfoque emplea un codificador de geometría visual 3D que extrae información previa en 3D a partir de secuencias de video. Esta información se integra con tokens visuales y se introduce en el MLLM. Experimentos exhaustivos han demostrado que nuestro método ha logrado mejoras sustanciales en diversas tareas relacionadas con la comprensión de escenas 3D y el razonamiento espacial, todo aprendido directamente a partir de fuentes de video. De manera impresionante, nuestro modelo de 4B, que no depende de entradas explícitas de datos 3D, obtiene resultados competitivos en comparación con los métodos más avanzados existentes, e incluso supera al Gemini-1.5-Pro en las evaluaciones del VSI-Bench.
Los recientes avances en Inteligencia Artificial Generativa y Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) han permitido la creación de contenido sintético altamente realista, lo que ha generado preocupación sobre su uso malintencionado, como la desinformación y la manipulación. Además, la detección de Texto Generado por Máquina (MGT, por sus siglas en inglés) sigue siendo un desafío debido a la falta de puntos de referencia robustos que evalúen la generalización a escenarios del mundo real. En este trabajo, presentamos una metodología para probar la resistencia de los detectores de MGT más avanzados (por ejemplo, Mage, Radar, LLM-DetectAIve) frente a ataques adversarios lingüísticamente informados. Para desafiar a los detectores, ajustamos modelos de lenguaje utilizando Optimización Directa de Preferencias (DPO, por sus siglas en inglés) para acercar el estilo del MGT al texto escrito por humanos (HWT, por sus siglas en inglés). Esto explota la dependencia de los detectores en pistas estilísticas, haciendo que las nuevas generaciones sean más difíciles de detectar. Adicionalmente, analizamos los cambios lingüísticos inducidos por la alineación y qué características utilizan los detectores para identificar textos MGT. Nuestros resultados muestran que los detectores pueden ser engañados fácilmente con relativamente pocos ejemplos, lo que resulta en una caída significativa en el rendimiento de detección. Esto subraya la importancia de mejorar los métodos de detección y hacerlos robustos frente a textos inéditos dentro del dominio.
Los grandes modelos de lenguaje (LLMs, por sus siglas en inglés) entrenados mediante aprendizaje por refuerzo con recompensa verificable (RLVR, por sus siglas en inglés) han logrado avances significativos en tareas con verificación explícita y automatizable, como la programación de software y la resolución de problemas matemáticos. Sin embargo, extender el RLVR a la automatización del diseño electrónico (EDA, por sus siglas en inglés), especialmente en la generación automática de lenguajes de descripción de hardware (HDLs, por sus siglas en inglés) como Verilog a partir de especificaciones en lenguaje natural (NL, por sus siglas en inglés), presenta tres desafíos clave: la falta de entornos de verificación automatizados y precisos, la escasez de pares NL-código de alta calidad y el costo computacional prohibitivo del RLVR. Para abordar estos problemas, presentamos CodeV-R1, un marco de RLVR para entrenar LLMs en la generación de Verilog. En primer lugar, desarrollamos un generador de bancos de pruebas basado en reglas que realiza una verificación robusta de equivalencia frente a referencias doradas. En segundo lugar, proponemos un método de síntesis de datos de ida y vuelta que empareja fragmentos de Verilog de código abierto con descripciones en NL generadas por LLMs, verifica la consistencia código-NL-código mediante el banco de pruebas generado y filtra los ejemplos no equivalentes para obtener un conjunto de datos de alta calidad. En tercer lugar, empleamos una canalización de entrenamiento en dos etapas "distilar-y-luego-RL": destilación para el arranque en frío de las habilidades de razonamiento, seguida de DAPO adaptativo, nuestro novedoso algoritmo de RLVR que puede reducir el costo de entrenamiento ajustando adaptativamente la tasa de muestreo. El modelo resultante, CodeV-R1-7B, alcanza un 68.6% y un 72.9% en pass@1 en VerilogEval v2 y RTLLM v1.1, respectivamente, superando el estado del arte anterior en un 12~20%, mientras iguala o incluso supera el rendimiento de DeepSeek-R1 de 671B. Publicaremos nuestro modelo, la canalización de entrenamiento y el conjunto de datos para facilitar la investigación en las comunidades de EDA y LLMs.
Los puntos de referencia abiertos son esenciales para evaluar y avanzar en los modelos de lenguaje grandes, ofreciendo reproducibilidad y transparencia. Sin embargo, su accesibilidad los convierte en objetivos probables de contaminación del conjunto de pruebas. En este trabajo, presentamos DyePack, un marco que aprovecha los ataques de puerta trasera para identificar modelos que utilizaron conjuntos de pruebas de referencia durante el entrenamiento, sin necesidad de acceder a la pérdida, los logits o cualquier detalle interno del modelo. Al igual que los bancos mezclan paquetes de tinte con su dinero para marcar a los ladrones, DyePack mezcla muestras de puerta trasera con los datos de prueba para señalar modelos que se entrenaron con ellos. Proponemos un diseño fundamentado que incorpora múltiples puertas traseras con objetivos estocásticos, permitiendo el cálculo exacto de la tasa de falsos positivos (FPR) al señalar cada modelo. Esto evita de manera comprobable acusaciones falsas mientras proporciona evidencia sólida para cada caso detectado de contaminación. Evaluamos DyePack en cinco modelos a través de tres conjuntos de datos, cubriendo tanto tareas de opción múltiple como de generación abierta. Para preguntas de opción múltiple, detecta con éxito todos los modelos contaminados con FPR garantizados tan bajos como 0.000073% en MMLU-Pro y 0.000017% en Big-Bench-Hard utilizando ocho puertas traseras. Para tareas de generación abierta, generaliza bien e identifica todos los modelos contaminados en Alpaca con una tasa de falsos positivos garantizada de solo 0.127% utilizando seis puertas traseras.
La eficiencia de la tokenización juega un papel crucial en el rendimiento y el costo de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés), sin embargo, la mayoría de los modelos dependen de tokenizadores estáticos optimizados para corpus de propósito general. Los vocabularios fijos de estos tokenizadores a menudo no logran adaptarse a entradas específicas de un dominio o idioma, lo que resulta en secuencias de tokens más largas y mayores costos computacionales. Presentamos zip2zip, un marco que permite a los LLMs ajustar dinámicamente el vocabulario de tokens durante la inferencia, permitiendo generar menos tokens y, por lo tanto, una inferencia más rápida. zip2zip consta de tres componentes clave: (1) un tokenizador basado en la compresión Lempel-Ziv-Welch (LZW) que comprime incrementalmente tokens en "hipertokens" reutilizables sobre la marcha; (2) una capa de embeddings que calcula embeddings para los hipertokens recién formados en tiempo de ejecución; y (3) una variante de modelado de lenguaje causal que entrena al modelo para operar en secuencias comprimidas y hipertokenizadas. Demostramos que un LLM existente puede ser adaptado a zip2zip en 10 horas de GPU mediante un ajuste fino eficiente en parámetros. Los LLMs resultantes con zip2zip aprenden efectivamente a usar hipertokens durante la inferencia, reduciendo la longitud de las secuencias de entrada y salida en un 20-60\%, con mejoras significativas en la latencia de inferencia.
Los sistemas de diálogo orientados a tareas a menudo enfrentan dificultades cuando las expresiones de los usuarios parecen semánticamente completas pero carecen de la información estructural necesaria para una acción adecuada del sistema. Esto ocurre porque los usuarios frecuentemente no comprenden plenamente sus propias necesidades, mientras que los sistemas requieren definiciones precisas de intenciones. Los agentes actuales basados en LLM no pueden distinguir efectivamente entre expresiones lingüísticamente completas y aquellas que pueden ser activadas contextualmente, careciendo de marcos para la formación colaborativa de intenciones. Presentamos STORM, un marco que modela la dinámica de información asimétrica a través de conversaciones entre UserLLM (acceso interno completo) y AgentLLM (solo comportamiento observable). STORM produce corpus anotados que capturan trayectorias de expresión y transiciones cognitivas latentes, permitiendo un análisis sistemático del desarrollo de la comprensión colaborativa. Nuestras contribuciones incluyen: (1) formalizar el procesamiento de información asimétrica en sistemas de diálogo; (2) modelar la formación de intenciones rastreando la evolución de la comprensión colaborativa; y (3) métricas de evaluación que miden mejoras cognitivas internas junto con el desempeño en tareas. Experimentos en cuatro modelos de lenguaje revelan que una incertidumbre moderada (40-60%) puede superar la transparencia completa en ciertos escenarios, con patrones específicos del modelo que sugieren reconsiderar la completitud óptima de la información en la colaboración humano-IA. Estos hallazgos contribuyen a comprender la dinámica del razonamiento asimétrico e informan el diseño de sistemas de diálogo calibrados para la incertidumbre.
La destilación de modelos se ha vuelto esencial para crear modelos de lenguaje más pequeños y desplegables que conserven las capacidades de sistemas más grandes. Sin embargo, el despliegue generalizado plantea preocupaciones sobre la resiliencia frente a la manipulación adversaria. Este artículo investiga la vulnerabilidad de los modelos destilados a la inyección adversaria de contenido sesgado durante el entrenamiento. Demostramos que los adversarios pueden inyectar sesgos sutiles en los modelos maestros mediante un envenenamiento mínimo de datos, lo cual se propaga a los modelos estudiantes y se amplifica significativamente. Proponemos dos modos de propagación: Propagación No Dirigida, donde el sesgo afecta múltiples tareas, y Propagación Dirigida, enfocándose en tareas específicas mientras se mantiene un comportamiento normal en otros aspectos. Con solo 25 muestras envenenadas (tasa de envenenamiento del 0.25%), los modelos estudiantes generan respuestas sesgadas el 76.9% de las veces en escenarios dirigidos, superior al 69.4% en los modelos maestros. Para la propagación no dirigida, el sesgo adversario aparece de 6 a 29 veces más frecuentemente en los modelos estudiantes en tareas no vistas. Validamos los hallazgos en seis tipos de sesgos (anuncios dirigidos, enlaces de phishing, manipulaciones narrativas, prácticas de codificación inseguras), varios métodos de destilación y diferentes modalidades que abarcan la generación de texto y código. Nuestra evaluación revela deficiencias en las defensas actuales —filtrado de perplejidad, sistemas de detección de sesgos y marcos de autorater basados en LLM— frente a estos ataques. Los resultados exponen vulnerabilidades de seguridad significativas en los modelos destilados, destacando la necesidad de salvaguardas especializadas. Proponemos principios de diseño prácticos para construir estrategias efectivas de mitigación de sesgos adversarios.
La Comprensión de Anomalías en Video (VAU, por sus siglas en inglés) es esencial para aplicaciones como ciudades inteligentes, vigilancia de seguridad y sistemas de alerta de desastres, pero sigue siendo un desafío debido a su demanda de percepción espacio-temporal de grano fino y razonamiento robusto bajo ambigüedad. A pesar de los avances en la detección de anomalías, los métodos existentes a menudo carecen de interpretabilidad y luchan por capturar los aspectos causales y contextuales de eventos anómalos. Esta limitación se ve agravada por la ausencia de puntos de referencia integrales para evaluar la capacidad de razonamiento en escenarios de anomalías. Para abordar ambos desafíos, presentamos VAU-R1, un marco eficiente en datos basado en Modelos de Lenguaje Multimodal de Gran Escala (MLLMs), que mejora el razonamiento de anomalías mediante Ajuste Fino por Refuerzo (RFT). Además, proponemos VAU-Bench, el primer punto de referencia de Cadena de Pensamiento diseñado específicamente para el razonamiento de anomalías en video, que incluye preguntas de opción múltiple, razonamientos detallados, anotaciones temporales y descripciones narrativas. Los resultados empíricos muestran que VAU-R1 mejora significativamente la precisión en la respuesta a preguntas, la localización temporal y la coherencia del razonamiento en diversos contextos. Juntos, nuestro método y punto de referencia establecen una base sólida para la comprensión de anomalías en video interpretable y consciente del razonamiento. Nuestro código está disponible en https://github.com/GVCLab/VAU-R1.
La desintoxicación, la tarea de reescribir lenguaje dañino en texto no tóxico, ha adquirido una importancia creciente ante la prevalencia cada vez mayor de contenido tóxico en línea. Sin embargo, los conjuntos de datos paralelos de alta calidad para la desintoxicación, especialmente en el caso del discurso de odio, siguen siendo escasos debido al costo y la sensibilidad de la anotación humana. En este artículo, proponemos una novedosa canalización de LLM-en-el-bucle que aprovecha GPT-4o-mini para la desintoxicación automatizada. Primero replicamos la canalización de ParaDetox reemplazando a los anotadores humanos con un LLM y demostramos que el LLM tiene un rendimiento comparable al de la anotación humana. Sobre esta base, construimos PARADEHATE, un conjunto de datos paralelo a gran escala específicamente para la desintoxicación del discurso de odio. Publicamos PARADEHATE como un punto de referencia que contiene más de 8K pares de texto de odio/no odio y evaluamos una amplia gama de métodos de referencia. Los resultados experimentales muestran que modelos como BART, ajustados en PARADEHATE, logran un mejor rendimiento en precisión de estilo, preservación de contenido y fluidez, demostrando la efectividad del texto de desintoxicación generado por LLM como una alternativa escalable a la anotación humana.
La Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) mejora la actualidad y la factualidad de las respuestas. Sin embargo, las evaluaciones existentes rara vez prueban qué tan bien estos sistemas manejan el ruido del mundo real, los conflictos entre contextos recuperados internos y externos, o los hechos que cambian rápidamente. Presentamos la Evaluación de Robustez Consciente de la Recuperación (RARE, por sus siglas en inglés), un marco unificado y un benchmark a gran escala que somete a pruebas de estrés conjuntas las perturbaciones en consultas y documentos sobre corpus dinámicos y sensibles al tiempo. Una de las características centrales de RARE es una canalización de síntesis impulsada por grafos de conocimiento (RARE-Get) que extrae automáticamente relaciones de uno y varios saltos del corpus personalizado y genera conjuntos de preguntas de múltiples niveles sin intervención manual. Aprovechando esta canalización, construimos un conjunto de datos (RARE-Set) que abarca 400 documentos expertos sensibles al tiempo en finanzas, economía y política, y 48,322 preguntas cuya distribución evoluciona a medida que cambian las fuentes subyacentes. Para cuantificar la resiliencia, formalizamos métricas de robustez condicionadas por la recuperación (RARE-Met) que capturan la capacidad de un modelo para mantenerse correcto o recuperarse cuando las consultas, los documentos o los resultados de recuperación del mundo real se alteran sistemáticamente. Nuestros resultados muestran que los sistemas RAG exhiben una vulnerabilidad sorprendente a las perturbaciones, siendo la robustez de los documentos consistentemente el punto más débil, independientemente del tamaño o la arquitectura del generador. Los sistemas RAG muestran consistentemente una menor robustez en consultas de varios saltos en comparación con las de un solo salto en todos los dominios.
Los modelos de lenguaje de gran escala (LLMs) son cada vez más evaluados en tareas de opción múltiple con una única respuesta correcta, sin embargo, muchos problemas del mundo real requieren identificar todas las respuestas correctas de un conjunto de opciones. Esta capacidad sigue siendo poco explorada. Presentamos SATA-BENCH, el primer benchmark dedicado a evaluar LLMs en preguntas de "Seleccione Todo lo que Aplique" (SATA) en diversos dominios, incluyendo comprensión lectora, derecho y biomedicina. Nuestra evaluación de 27 modelos de código abierto y propietarios revela una brecha significativa: incluso el modelo más fuerte alcanza solo un 41.8% de coincidencia exacta, exponiendo la incapacidad de los LLMs para identificar de manera confiable todas las respuestas correctas. Descubrimos que esta debilidad proviene de dos desafíos principales: sesgo de selección - los modelos favorecen ciertas opciones independientemente del contenido, y sesgo de conteo - los modelos no logran predecir el número correcto de respuestas. Para abordar estos problemas, proponemos Choice Funnel, una estrategia de decodificación que combina la eliminación de sesgos en tokens con umbralización adaptativa para guiar a los modelos hacia selecciones completas y precisas. Choice Funnel logra hasta un 29% más de coincidencia exacta que los baselines competitivos, mientras reduce el costo de inferencia en más del 64%. Nuestros hallazgos exponen limitaciones fundamentales en los LLMs actuales e introducen un nuevo marco para diagnosticar y mejorar el razonamiento de múltiples respuestas. Publicamos SATA-BENCH y Choice Funnel para promover el desarrollo de LLMs en la toma de decisiones robustas en aplicaciones realistas de múltiples respuestas.
La edición 3D guiada por texto tiene como objetivo editar con precisión regiones locales 3D semánticamente relevantes, lo que tiene un potencial significativo para diversas aplicaciones prácticas, desde juegos 3D hasta producción cinematográfica. Los métodos existentes suelen seguir un paradigma indiferenciado por vista: editan indiscriminadamente vistas 2D y las proyectan de nuevo en el espacio 3D. Sin embargo, pasan por alto las diferentes interdependencias entre vistas, lo que resulta en una edición multivista inconsistente. En este estudio, argumentamos que una edición 3D consistente ideal puede lograrse mediante un paradigma de vistas progresivas, que propaga la semántica de la edición desde la vista más destacada para la edición hacia otras vistas menos relevantes. Específicamente, proponemos Pro3D-Editor, un marco novedoso que incluye principalmente el Muestreador de Vista Primaria, el Renderizador de Vistas Clave y el Refinador de Vistas Completas. El Muestreador de Vista Primaria selecciona y edita dinámicamente la vista más destacada para la edición como vista primaria. El Renderizador de Vistas Clave propaga con precisión la semántica de la edición desde la vista primaria hacia otras vistas clave mediante su Adaptación de Bajo Rango de Mezcla de Expertos de Vista (MoVE-LoRA). El Refinador de Vistas Completas edita y refina el objeto 3D basándose en las vistas editadas. Experimentos exhaustivos demuestran que nuestro método supera a los métodos existentes en precisión de edición y consistencia espacial.
Los crecientes costos computacionales y los recursos limitados subrayan la necesidad crítica de un entrenamiento con iteraciones presupuestadas, que busca lograr un aprendizaje óptimo dentro de presupuestos de iteración predeterminados. Si bien los programas de tasas de aprendizaje gobiernan fundamentalmente el rendimiento de diferentes redes y tareas, especialmente en escenarios de iteraciones presupuestadas, su diseño sigue siendo en gran medida heurístico, careciendo de fundamentos teóricos. Además, el programa óptimo de tasas de aprendizaje requiere una extensa selección por prueba y error, lo que hace que el proceso de entrenamiento sea ineficiente. En este trabajo, proponemos el programa Unificado Consciente del Presupuesto (UBA), un programa de tasas de aprendizaje fundamentado teóricamente que supera consistentemente los programas comúnmente utilizados en diversas arquitecturas y tareas bajo diferentes presupuestos de entrenamiento restringidos. Primero, cerramos la brecha construyendo un novedoso marco de optimización consciente del presupuesto de entrenamiento, que explícitamente tiene en cuenta la robustez a las variaciones de curvatura del paisaje. A partir de este marco, derivamos el programa UBA, controlado por un único hiperparámetro varphi que ofrece un equilibrio entre flexibilidad y simplicidad, eliminando la necesidad de optimización numérica por red. Además, establecemos una conexión teórica entre varphi y el número de condición, añadiendo interpretación y justificación a nuestro enfoque. También demostramos la convergencia para diferentes valores de varphi. Ofrecemos pautas prácticas para su selección mediante análisis teórico y resultados empíricos. Los extensos resultados experimentales muestran que UBA supera consistentemente los programas comúnmente utilizados en diversas tareas de visión y lenguaje, abarcando arquitecturas de red (por ejemplo, ResNet, OLMo) y escalas, bajo diferentes presupuestos de iteraciones de entrenamiento.
Este artículo aborda brechas críticas en la evaluación de modelos de lenguaje en árabe mediante el establecimiento de pautas teóricas integrales y la introducción de un marco de evaluación novedoso. Primero analizamos los conjuntos de datos de evaluación en árabe existentes, identificando problemas significativos en la precisión lingüística, la alineación cultural y el rigor metodológico. Para abordar estas limitaciones en los LLM, presentamos el Arabic Depth Mini Dataset (ADMD), una colección cuidadosamente curada de 490 preguntas desafiantes que abarcan diez dominios principales (42 subdominios, ver Figura 1). Utilizando ADMD, evaluamos cinco modelos de lenguaje líderes: GPT-4, Claude 3.5 Sonnet, Gemini Flash 1.5, CommandR 100B y Qwen-Max. Nuestros resultados revelan variaciones significativas en el rendimiento de los modelos en diferentes dominios, con desafíos particulares en áreas que requieren un profundo entendimiento cultural y conocimiento especializado. Claude 3.5 Sonnet demostró la mayor precisión general con un 30\%, mostrando fortalezas relativas en teoría matemática en árabe, lengua árabe y dominios islámicos. Este trabajo proporciona fundamentos teóricos y perspectivas prácticas para mejorar la evaluación de modelos de lenguaje en árabe, enfatizando la importancia de la competencia cultural junto con las capacidades técnicas.
Este artículo aborda brechas críticas en la evaluación de modelos de lenguaje en árabe mediante el establecimiento de pautas teóricas integrales y la introducción de un marco de evaluación novedoso. Primero analizamos los conjuntos de datos de evaluación en árabe existentes, identificando problemas significativos en la precisión lingüística, la alineación cultural y el rigor metodológico. Para abordar estas limitaciones en los LLM, presentamos el Arabic Depth Mini Dataset (ADMD), una colección cuidadosamente curada de 490 preguntas desafiantes que abarcan diez dominios principales (42 subdominios, ver Figura 1). Utilizando ADMD, evaluamos cinco modelos de lenguaje líderes: GPT-4, Claude 3.5 Sonnet, Gemini Flash 1.5, CommandR 100B y Qwen-Max. Nuestros resultados revelan variaciones significativas en el rendimiento de los modelos en diferentes dominios, con desafíos particulares en áreas que requieren un profundo entendimiento cultural y conocimiento especializado. Claude 3.5 Sonnet demostró la mayor precisión general con un 30\%, mostrando fortalezas relativas en teoría matemática en árabe, lengua árabe y dominios islámicos. Este trabajo proporciona fundamentos teóricos y perspectivas prácticas para mejorar la evaluación de modelos de lenguaje en árabe, enfatizando la importancia de la competencia cultural junto con las capacidades técnicas.
La generación de imágenes a partir de texto que involucra arreglos de objetos complejos y novedosos sigue siendo un desafío significativo para los modelos actuales de texto a imagen (T2I). Aunque los métodos previos basados en diseños mejoran los arreglos de objetos utilizando restricciones espaciales con diseños 2D, a menudo tienen dificultades para capturar el posicionamiento 3D y sacrifican la calidad y coherencia. En este trabajo, presentamos ComposeAnything, un marco novedoso para mejorar la generación de imágenes composicionales sin necesidad de reentrenar los modelos T2I existentes. Nuestro enfoque primero aprovecha las capacidades de razonamiento de cadena de pensamiento de los LLM para producir diseños semánticos 2.5D a partir de texto, que consisten en cuadros delimitadores 2D de objetos enriquecidos con información de profundidad y descripciones detalladas. Basándonos en este diseño, generamos un compuesto grueso de objetos consciente del espacio y la profundidad que captura la composición deseada, sirviendo como un previo fuerte e interpretable que reemplaza la inicialización de ruido estocástico en los modelos T2I basados en difusión. Este previo guía el proceso de eliminación de ruido mediante el refuerzo de previos de objetos y la eliminación de ruido controlada espacialmente, permitiendo la generación fluida de objetos composicionales y fondos coherentes, al mismo tiempo que permite el refinamiento de previos inexactos. ComposeAnything supera a los métodos más avanzados en los benchmarks T2I-CompBench y NSR-1K para prompts con arreglos espaciales 2D/3D, altos recuentos de objetos y composiciones surrealistas. Las evaluaciones humanas demuestran además que nuestro modelo genera imágenes de alta calidad con composiciones que reflejan fielmente el texto.
En este artículo, presentamos la Generación de Respuestas Conversacionales Multimodales en Tiempo Real (OMCRG, por sus siglas en inglés), una tarea novedosa que busca generar de manera sincronizada retroalimentación verbal y no verbal del oyente, condicionada por la entrada multimodal del hablante. OMCRG refleja interacciones diádicas naturales y plantea nuevos desafíos en la sincronización entre las respuestas de audio y faciales generadas del oyente. Para abordar estos desafíos, introducimos de manera innovadora el texto como una modalidad intermedia que conecta las respuestas de audio y faciales. Proponemos OmniResponse, un Modelo de Lenguaje Multimodal de Gran Escala (MLLM) que genera autoregresivamente respuestas multimodales de alta calidad del oyente. OmniResponse aprovecha un LLM preentrenado mejorado con dos componentes novedosos: Chrono-Text, que ancla temporalmente los tokens de texto generados, y TempoVoice, un módulo de síntesis de voz en tiempo real controlable que produce habla sincronizada con las reacciones faciales. Para apoyar futuras investigaciones en OMCRG, presentamos ResponseNet, un nuevo conjunto de datos que incluye 696 interacciones diádicas de alta calidad con videos divididos sincronizados, audio multicanal, transcripciones y anotaciones de comportamiento facial. Evaluaciones exhaustivas realizadas en ResponseNet demuestran que OmniResponse supera significativamente a los modelos de referencia en términos de contenido semántico del habla, sincronización audiovisual y calidad de generación.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han logrado un éxito notable en tareas de razonamiento complejo, pero su inferencia sigue siendo computacionalmente ineficiente. Observamos un modo de fallo común en muchos LLMs prevalentes, el *sobrepensamiento*, donde los modelos generan trazas de razonamiento verbosas y tangenciales incluso para consultas simples. Trabajos recientes han intentado mitigar esto imponiendo presupuestos fijos de tokens; sin embargo, esto puede llevar a un *subpensamiento*, especialmente en problemas más difíciles. A través de un análisis empírico, identificamos que esta ineficiencia a menudo surge de estrategias poco claras para resolver problemas. Para formalizar esto, desarrollamos un modelo teórico, BBAM (Modelo de Asignación de Presupuesto Bayesiano), que modela el razonamiento como una secuencia de subpreguntas con incertidumbre variable, e introducimos la métrica E^3 para capturar el equilibrio entre la corrección y la eficiencia computacional. Basándonos en los resultados teóricos de BBAM, proponemos *Plan-and-Budget*, un marco agnóstico al modelo y en tiempo de prueba que descompone consultas complejas en subpreguntas y asigna presupuestos de tokens según la complejidad estimada mediante programación adaptativa. *Plan-and-Budget* mejora la eficiencia del razonamiento en una variedad de tareas y modelos, logrando ganancias de precisión de hasta +70%, una reducción de tokens del -39% y una mejora del +187.5% en E^3. Notablemente, eleva un modelo más pequeño (DS-Qwen-32B) para igualar la eficiencia de un modelo más grande (DS-LLaMA-70B), demostrando la capacidad de *Plan-and-Budget* para cerrar brechas de rendimiento sin necesidad de reentrenamiento. Nuestro código está disponible en anonymous.4open.science/r/P-and-B-6513/.
Varios estudios han explorado los mecanismos de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) en tareas de codificación, pero la mayoría se ha centrado en lenguajes de programación (PLs, por sus siglas en inglés) en un entorno monolingüe. En este artículo, investigamos la relación entre múltiples PLs y el inglés en el espacio conceptual de los LLMs. Realizamos una tarea de traducción con pocos ejemplos en 21 pares de PLs utilizando dos modelos basados en Llama. Al decodificar los embeddings de las capas intermedias durante esta tarea, observamos que el espacio conceptual está más cerca del inglés (incluyendo palabras clave de los PLs) y asigna altas probabilidades a los tokens en inglés en la segunda mitad de las capas intermedias. Analizamos las activaciones neuronales para 11 PLs y el inglés, encontrando que, aunque las neuronas específicas del lenguaje se concentran principalmente en las capas inferiores, aquellas exclusivas de cada PL tienden a aparecer en las capas superiores. Para los PLs que están altamente alineados con múltiples otros PLs, identificar neuronas específicas del lenguaje no es factible. Estos PLs también tienden a tener un conjunto de palabras clave más amplio que otros PLs y están más cerca del espacio conceptual del modelo, independientemente del PL de entrada/salida en la tarea de traducción. Nuestros hallazgos proporcionan información sobre cómo los LLMs representan internamente los PLs, revelando patrones estructurales en el espacio conceptual del modelo. El código está disponible en https://github.com/cisnlp/code-specific-neurons.
Presentamos SealQA, un nuevo punto de referencia para evaluar modelos de lenguaje aumentados con búsqueda (SEarch-Augmented Language models) en preguntas de búsqueda de hechos donde la búsqueda web produce resultados conflictivos, ruidosos o poco útiles. SealQA se presenta en tres variantes: (1) Seal-0 (principal) y (2) Seal-Hard, que evalúan la precisión factual y las capacidades de razonamiento, con Seal-0 centrándose en las preguntas más desafiantes donde los modelos de chat (por ejemplo, GPT-4.1) suelen alcanzar una precisión cercana a cero; y (3) LongSeal, que extiende SealQA para probar el razonamiento de contexto largo y multi-documento en escenarios de "aguja en un pajar". Nuestra evaluación revela limitaciones críticas en los modelos actuales: incluso los modelos de lenguaje más avanzados (LLMs) tienen un rendimiento deficiente en todas las variantes de SealQA. En Seal-0, los modelos agentes más avanzados equipados con herramientas como o3 y o4-mini logran solo un 17,1% y un 6,3% de precisión, respectivamente, en sus mejores esfuerzos de razonamiento. Descubrimos que modelos avanzados de razonamiento como DeepSeek-R1-671B y o3-mini son altamente vulnerables a resultados de búsqueda ruidosos. Notablemente, aumentar el cómputo en tiempo de prueba no produce mejoras confiables en o3-mini, o4-mini y o3, con el rendimiento a menudo estancándose o incluso disminuyendo tempranamente. Además, aunque los modelos recientes se ven menos afectados por el problema de "perdido-en-el-medio", aún fallan en identificar de manera confiable documentos relevantes en LongSeal cuando se enfrentan a numerosos distractores. Para facilitar trabajos futuros, publicamos SealQA en huggingface.co/datasets/vtllms/sealqa.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se han aplicado recientemente a tareas de pronóstico, con algunos trabajos afirmando que estos sistemas igualan o superan el desempeño humano. En este artículo, argumentamos que, como comunidad, debemos ser cautelosos con tales conclusiones, ya que evaluar a los pronosticadores basados en LLMs presenta desafíos únicos. Identificamos dos categorías amplias de problemas: (1) la dificultad para confiar en los resultados de la evaluación debido a diversas formas de fuga temporal, y (2) la dificultad para extrapolar el desempeño en la evaluación al pronóstico en el mundo real. A través de un análisis sistemático y ejemplos concretos de trabajos previos, demostramos cómo los defectos en la evaluación pueden generar preocupaciones sobre las afirmaciones actuales y futuras de desempeño. Argumentamos que se necesitan metodologías de evaluación más rigurosas para evaluar con confianza las capacidades de pronóstico de los LLMs.
La Distilación de Coincidencia de Distribución (DMD, por sus siglas en inglés) se ha aplicado con éxito a modelos de difusión de texto a imagen, como Stable Diffusion (SD) 1.5. Sin embargo, la DMD básica presenta dificultades de convergencia en modelos de texto a imagen basados en flujo a gran escala, como SD 3.5 y FLUX. En este artículo, primero analizamos los problemas que surgen al aplicar la DMD básica en modelos a gran escala. Luego, para superar el desafío de escalabilidad, proponemos la alineación implícita de distribución (IDA, por sus siglas en inglés) para regularizar la distancia entre el generador y la distribución falsa. Además, proponemos la guía intra-segmento (ISG, por sus siglas en inglés) para reubicar la distribución de importancia de los pasos temporales del modelo maestro. Con solo IDA, la DMD converge para SD 3.5; al emplear tanto IDA como ISG, la DMD converge para SD 3.5 y FLUX.1 dev. Junto con otras mejoras, como modelos de discriminadores escalados, nuestro modelo final, denominado SenseFlow, logra un rendimiento superior en la distilación tanto para modelos de texto a imagen basados en difusión, como SDXL, como para modelos de coincidencia de flujo, como SD 3.5 Large y FLUX. El código fuente estará disponible en https://github.com/XingtongGe/SenseFlow.
Los códecs neuronales de audio han logrado avances significativos en el mapeo eficiente de formas de onda de audio en bruto hacia representaciones discretas de tokens, las cuales son fundamentales para los modelos generativos de audio contemporáneos. Sin embargo, la mayoría de los códecs existentes están optimizados principalmente para la calidad de reconstrucción, a menudo a expensas de la modelabilidad descendente de los tokens codificados. Motivados por la necesidad de superar este cuello de botella, presentamos MagiCodec, un novedoso códec de audio basado en Transformers de una sola capa y en tiempo real. MagiCodec está diseñado con una canalización de entrenamiento en múltiples etapas que incorpora inyección de ruido gaussiano y regularización latente, apuntando explícitamente a mejorar la expresividad semántica en los códigos generados mientras se preserva una alta fidelidad de reconstrucción. Analíticamente derivamos el efecto de la inyección de ruido en el dominio de la frecuencia, demostrando su eficacia en la atenuación de componentes de alta frecuencia y el fomento de una tokenización robusta. Evaluaciones experimentales exhaustivas muestran que MagiCodec supera a los códecs más avanzados tanto en calidad de reconstrucción como en tareas descendentes. Es notable que los tokens producidos por MagiCodec exhiben distribuciones similares a las de Zipf, como se observa en los lenguajes naturales, mejorando así la compatibilidad con arquitecturas generativas basadas en modelos de lenguaje. El código y los modelos preentrenados están disponibles en https://github.com/Ereboas/MagiCodec.
Los Modelos de Lenguaje Aumentados con Recuperación (RALMs, por sus siglas en inglés) representan un paradigma clásico en el que los modelos mejoran sus capacidades generativas utilizando conocimiento externo recuperado a través de un módulo especializado. Los avances recientes en técnicas de Agentes permiten que los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) utilicen herramientas de manera autónoma para la recuperación, planificación y razonamiento. Si bien los métodos basados en entrenamiento existentes muestran potencial, sus habilidades agentivas están limitadas por las características inherentes de los datos específicos de la tarea utilizados durante el entrenamiento. Para mejorar aún más la capacidad de búsqueda universal de los agentes, proponemos un novedoso marco de pre-entrenamiento, denominado MaskSearch. En la etapa de pre-entrenamiento, introducimos la tarea de Predicción de Mascaras Aumentada con Recuperación (RAMP, por sus siglas en inglés), donde el modelo aprende a aprovechar herramientas de búsqueda para completar segmentos enmascarados en una gran cantidad de datos de pre-entrenamiento, adquiriendo así capacidades universales de recuperación y razonamiento para los LLMs. Posteriormente, el modelo se entrena en tareas posteriores para lograr una mejora adicional. Aplicamos tanto el Ajuste Supervisado (SFT, por sus siglas en inglés) como el Aprendizaje por Refuerzo (RL, por sus siglas en inglés) para el entrenamiento. Para el SFT, combinamos métodos basados en agentes y en destilación para generar datos de entrenamiento, comenzando con un sistema multiagente compuesto por un planificador, reescritor, observador y seguido por un modelo docente auto-evolutivo. Mientras que para el RL, empleamos DAPO como marco de entrenamiento y adoptamos un sistema de recompensas híbrido que incluye recompensas por respuestas y recompensas por formato. Además, introducimos un enfoque de aprendizaje curricular que permite al modelo aprender progresivamente desde instancias más fáciles hasta más desafiantes, basado en el número de segmentos enmascarados. Evaluamos la efectividad de nuestro marco en el escenario de respuesta a preguntas de múltiples saltos en dominios abiertos. A través de experimentos exhaustivos, demostramos que MaskSearch mejora significativamente el rendimiento de los agentes de búsqueda basados en LLMs tanto en tareas posteriores dentro del dominio como fuera de él.
A medida que los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) se integran profundamente en la vida humana y ejercen una influencia creciente en la toma de decisiones, es crucial evaluar si, y en qué medida, exhiben preferencias, opiniones y creencias subjetivas. Estas tendencias pueden originarse en sesgos dentro de los modelos, los cuales podrían moldear su comportamiento, influir en los consejos y recomendaciones que ofrecen a los usuarios y, potencialmente, reforzar ciertos puntos de vista. Este artículo presenta la encuesta de Preferencias, Opiniones y Creencias (POBs, por sus siglas en inglés), un punto de referencia desarrollado para evaluar las inclinaciones subjetivas de los LLMs en ámbitos sociales, culturales, éticos y personales. Aplicamos nuestro punto de referencia para evaluar los principales LLMs de código abierto y cerrado, midiendo propiedades deseables como la fiabilidad, neutralidad y consistencia. Además, investigamos el efecto de aumentar el cómputo en tiempo de prueba, mediante mecanismos de razonamiento y autorreflexión, en estas métricas. Aunque efectivos en otras tareas, nuestros resultados muestran que estos mecanismos ofrecen solo mejoras limitadas en nuestro dominio. Asimismo, revelamos que las versiones más recientes de los modelos se están volviendo menos consistentes y más sesgadas hacia puntos de vista específicos, lo que destaca un punto ciego y una tendencia preocupante. POBS: https://ibm.github.io/POBS
Introducimos los Frankentextos, un nuevo tipo de narrativa extensa generada por LLMs bajo la extrema restricción de que la mayoría de los tokens (por ejemplo, el 90%) deben copiarse textualmente de escritos humanos. Esta tarea representa un desafío complejo para la generación controlada, ya que requiere que los modelos satisfagan una consigna de escritura, integren fragmentos de texto dispares y, aun así, produzcan una narrativa coherente. Para generar Frankentextos, instruimos al modelo a producir un borrador seleccionando y combinando pasajes escritos por humanos, y luego revisamos iterativamente el borrador mientras mantenemos una proporción de copia especificada por el usuario. Evaluamos los Frankentextos resultantes en tres ejes: calidad de escritura, adherencia a las instrucciones y detectabilidad. Gemini-2.5-Pro se desempeña sorprendentemente bien en esta tarea: el 81% de sus Frankentextos son coherentes y el 100% relevantes para la consigna. Notablemente, hasta el 59% de estas salidas son mal clasificadas como escritas por humanos por detectores como Pangram, lo que revela limitaciones en los detectores de texto generado por IA. Los anotadores humanos pueden identificar a veces los Frankentextos a través de sus cambios abruptos de tono y gramática inconsistente entre segmentos, especialmente en generaciones más largas. Más allá de presentar una tarea de generación desafiante, los Frankentextos invitan a la discusión sobre la construcción de detectores efectivos para esta nueva zona gris de autoría, proporcionan datos de entrenamiento para la detección de autoría mixta y sirven como un entorno de pruebas para estudiar los procesos de co-escritura humano-IA.
Los modelos de visión-lenguaje (VLMs) alineados con objetivos humanos generales, como ser inofensivos y libres de alucinaciones, se han convertido en valiosos asistentes para los humanos en la gestión de tareas visuales. Sin embargo, las personas con diversos antecedentes tienen diferentes cogniciones incluso en la misma situación. En consecuencia, pueden tener expectativas personalizadas para los asistentes VLM. Esto resalta la necesidad urgente de alinear los asistentes VLM con la cognición situada personalizada para la asistencia en el mundo real. Para estudiar este problema, primero lo simplificamos caracterizando a los individuos basándonos en el concepto sociológico de Conjunto de Roles. Luego, proponemos evaluar las acciones de los individuos para examinar si se ha logrado la alineación personalizada. Además, construimos un punto de referencia llamado PCogAlignBench, que incluye 18k instancias y 20 individuos con diferentes Conjuntos de Roles. Finalmente, presentamos un marco llamado PCogAlign, que construye un modelo de recompensa basado en acciones y consciente de la cognición para la alineación personalizada. Los resultados experimentales y las evaluaciones humanas demuestran la confiabilidad del PCogAlignBench y la efectividad de nuestro PCogAlign propuesto. Abriremos el código y el punto de referencia construido en https://github.com/NLPGM/PCogAlign.
Estudios recientes han demostrado que el ajuste fino supervisado de LLMs en un pequeño número de conjuntos de datos de alta calidad puede generar capacidades de razonamiento sólidas. Sin embargo, el ajuste fino completo (Full FT), aunque potente, es computacionalmente costoso y susceptible a sobreajuste y olvido catastrófico, especialmente cuando los datos son limitados. El ajuste fino disperso, que anteriormente logró un éxito notable al actualizar solo un subconjunto pequeño de los parámetros del modelo, ofrece un equilibrio prometedor entre eficiencia y efectividad. No obstante, se ha quedado rezagado en la era de los LLMs debido a la dificultad de identificar los parámetros verdaderamente críticos para el razonamiento. En este trabajo, afirmamos que los pesos con la mayor magnitud después de una aproximación de bajo rango son pesos críticos para el ajuste fino, a los que llamamos Pesos Principales. Sorprendentemente, aunque el ajuste fino disperso basado en magnitud tiene un rendimiento deficiente como línea base en el ajuste fino de LLMs, se vuelve altamente efectivo después de la reducción de rango. Estas ideas motivan nuestro método: Ajuste Fino Disperso Informado por Bajo Rango (LIFT). LIFT solo actualiza el 5% superior de los Pesos Principales durante el entrenamiento y logra consistentemente un mejor rendimiento en tareas de razonamiento que Full FT, manteniendo una eficiencia de memoria comparable con los métodos populares de ajuste fino eficiente en parámetros. Además de un fuerte rendimiento en dominios objetivo como el razonamiento aritmético, LIFT también retiene hasta un 20% más de conocimiento del dominio fuente, en comparación con Full FT y LoRA. Nuestro código está disponible en: https://github.com/zihanghliu/LIFT.
Comprender las condiciones socioeconómicas urbanas a través de datos visuales es una tarea desafiante pero esencial para el desarrollo urbano sostenible y la planificación de políticas. En este trabajo, presentamos CityLens, un punto de referencia integral diseñado para evaluar las capacidades de los modelos avanzados de lenguaje y visión (LLVMs, por sus siglas en inglés) en la predicción de indicadores socioeconómicos a partir de imágenes satelitales y de vista de calle. Construimos un conjunto de datos multimodal que abarca un total de 17 ciudades distribuidas globalmente, cubriendo 6 dominios clave: economía, educación, crimen, transporte, salud y medio ambiente, reflejando la naturaleza multifacética de la vida urbana. Basándonos en este conjunto de datos, definimos 11 tareas de predicción y utilizamos tres paradigmas de evaluación: Predicción Directa de Métricas, Estimación Normalizada de Métricas y Regresión Basada en Características. Evaluamos 17 LLVMs de última generación en estas tareas. Nuestros resultados revelan que, aunque los LLVMs demuestran capacidades perceptivas y de razonamiento prometedoras, aún presentan limitaciones en la predicción de indicadores socioeconómicos urbanos. CityLens proporciona un marco unificado para diagnosticar estas limitaciones y guiar esfuerzos futuros en el uso de LLVMs para comprender y predecir patrones socioeconómicos urbanos. Nuestros códigos y conjuntos de datos están disponibles públicamente en https://github.com/tsinghua-fib-lab/CityLens.
Este artículo investiga una decisión crítica de diseño en la práctica del preentrenamiento continuo masivamente multilingüe: la inclusión de datos paralelos. Específicamente, estudiamos el impacto de los datos de traducción bilingüe en la adaptación masivamente multilingüe de los modelos de la familia Llama3 a 500 idiomas. Para ello, construimos el corpus de traducción bilingüe MaLA, que contiene datos de más de 2,500 pares de idiomas. Posteriormente, desarrollamos la suite EMMA-500 Llama 3, compuesta por cuatro modelos masivamente multilingües, preentrenados continuamente a partir de los modelos base de la familia Llama 3 con mezclas de datos diversos que alcanzan hasta 671B tokens, y exploramos el efecto del preentrenamiento continuo con o sin datos de traducción bilingüe. Una evaluación exhaustiva en 7 tareas y 12 benchmarks demuestra que los datos bilingües tienden a mejorar la transferencia lingüística y el rendimiento, especialmente en idiomas de bajos recursos. Hacemos públicos el corpus MaLA, los artefactos de la suite EMMA-500 Llama 3, el código y las generaciones de los modelos.
La decodificación del lenguaje continuo a partir de señales neurales sigue siendo un desafío significativo en la intersección entre la neurociencia y la inteligencia artificial. Presentamos Neuro2Semantic, un marco novedoso que reconstruye el contenido semántico del habla percibida a partir de registros de electroencefalografía intracraneal (iEEG). Nuestro enfoque consta de dos fases: primero, un adaptador basado en LSTM alinea las señales neurales con incrustaciones de texto preentrenadas; segundo, un módulo corrector genera texto continuo y natural directamente a partir de estas incrustaciones alineadas. Este método flexible supera las limitaciones de los enfoques de decodificación previos y permite la generación de texto sin restricciones. Neuro2Semantic logra un rendimiento sólido con tan solo 30 minutos de datos neurales, superando un método reciente de vanguardia en entornos de baja disponibilidad de datos. Estos resultados resaltan el potencial para aplicaciones prácticas en interfaces cerebro-computadora y tecnologías de decodificación neural.
La renderización binaural tiene como objetivo sintetizar audio binaural que imite la audición natural basándose en un audio mono y las ubicaciones del hablante y el oyente. Aunque se han propuesto muchos métodos para resolver este problema, estos enfrentan dificultades en cuanto a la calidad de la renderización y la inferencia en tiempo real. La síntesis de audio binaural de alta calidad que sea indistinguible de las grabaciones del mundo real requiere un modelado preciso de las señales binaurales, la reverberación de la habitación y los sonidos ambientales. Además, las aplicaciones del mundo real exigen inferencia en tiempo real. Para abordar estos desafíos, proponemos un marco de síntesis de voz binaural en tiempo real basado en emparejamiento de flujos, denominado BinauralFlow. Consideramos la renderización binaural como un problema de generación en lugar de un problema de regresión y diseñamos un modelo de emparejamiento de flujos condicional para renderizar audio de alta calidad. Además, diseñamos una arquitectura causal U-Net que estima el fotograma de audio actual únicamente basándose en información pasada para adaptar los modelos generativos a la inferencia en tiempo real. Finalmente, introducimos una canalización de inferencia continua que incorpora operaciones de STFT/ISTFT en tiempo real, un banco de búferes, un solucionador de punto medio y un esquema de salto temprano para mejorar la continuidad y la velocidad de la renderización. Las evaluaciones cuantitativas y cualitativas demuestran la superioridad de nuestro método sobre los enfoques más avanzados (SOTA). Un estudio perceptual revela además que nuestro modelo es casi indistinguible de las grabaciones del mundo real, con una tasa de confusión del 42%.
A pesar de los avances en razonamiento y planificación de modelos similares a R1, los Modelos de Lenguaje de Gran Escala (LLMs) aún tienen dificultades con tareas que requieren cálculos precisos, manipulación simbólica, optimización y razonamiento algorítmico, donde el razonamiento textual carece del rigor de la ejecución de código. Un desafío clave es permitir que los LLMs decidan cuándo utilizar razonamiento textual frente a la generación de código. Mientras que OpenAI entrena modelos para invocar un Intérprete de Código según sea necesario, la investigación pública carece de orientación sobre cómo alinear LLMs preentrenados para aprovechar eficazmente el código y generalizar en diversas tareas. Presentamos R1-Code-Interpreter, una extensión de un LLM de solo texto entrenado mediante ajuste fino supervisado (SFT) de múltiples turnos y aprendizaje por refuerzo (RL) para generar autónomamente múltiples consultas de código durante el razonamiento paso a paso. Curatoriamos 144 tareas de razonamiento y planificación (107 para entrenamiento, 37 para pruebas), cada una con más de 200 preguntas diversas. Ajustamos finamente modelos Qwen-2.5 (3B/7B/14B) utilizando varias estrategias de SFT y RL, investigando diferentes formatos de respuesta, modelos de razonamiento frente a no razonamiento, arranques en frío frente a calientes, GRPO frente a PPO, y salidas de código enmascaradas frente a no enmascaradas. A diferencia de trabajos previos de RL en dominios estrechos, encontramos que el entrenamiento del Intérprete de Código es significativamente más difícil debido a la alta diversidad de tareas y la costosa ejecución de código, destacando el papel crítico de la etapa de SFT. Nuestro modelo final, R1-CI-14B, mejora la precisión promedio en las 37 tareas de prueba del 44.0\% al 64.1\%, superando a GPT-4o (solo texto: 58.6\%) y acercándose a GPT-4o con Intérprete de Código (70.9\%), con un comportamiento emergente de autoverificación mediante generación de código. Los conjuntos de datos, códigos y modelos están disponibles en https://github.com/yongchao98/R1-Code-Interpreter y https://huggingface.co/yongchao98.
Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) tienen un buen desempeño en tareas como la respuesta a preguntas visuales, pero aún no está claro si su razonamiento depende más del conocimiento del mundo memorizado o de la información visual presente en la imagen de entrada. Para investigar esto, presentamos Visual CounterFact, un nuevo conjunto de datos de contrahechos visualmente realistas que ponen en conflicto directo los conocimientos previos del mundo (por ejemplo, una fresa roja) con la entrada visual (por ejemplo, una fresa azul). Utilizando Visual CounterFact, demostramos que las predicciones del modelo inicialmente reflejan conocimientos previos memorizados, pero se desplazan hacia la evidencia visual en las capas intermedias y finales. Esta dinámica revela una competencia entre las dos modalidades, donde la entrada visual finalmente anula los conocimientos previos durante la evaluación. Para controlar este comportamiento, proponemos los vectores de dirección Píxeles versus Conocimientos Previos (PvP, por sus siglas en inglés), un mecanismo para controlar las salidas del modelo hacia el conocimiento del mundo o la entrada visual mediante intervenciones a nivel de activación. En promedio, PvP logra desplazar el 92.5% de las predicciones de color y el 74.6% de las predicciones de tamaño desde los conocimientos previos hacia los contrahechos. En conjunto, estos hallazgos ofrecen nuevas herramientas para interpretar y controlar el comportamiento factual en modelos multimodales.
La adquisición de datos de habla emocional a gran escala con una fuerte consistencia sigue siendo un desafío para la síntesis de voz. Este artículo presenta MIKU-PAL, una canalización multimodal completamente automatizada para extraer habla emocional de alta consistencia a partir de datos de video sin etiquetar. Aprovechando algoritmos de detección y seguimiento facial, desarrollamos un sistema automático de análisis de emociones utilizando un modelo de lenguaje multimodal de gran escala (MLLM). Nuestros resultados demuestran que MIKU-PAL puede alcanzar una precisión a nivel humano (68.5% en MELD) y una consistencia superior (puntuación Fleiss kappa de 0.93), siendo además mucho más económico y rápido que la anotación humana. Con la anotación de alta calidad, flexible y consistente de MIKU-PAL, podemos etiquetar categorías de emociones en el habla de hasta 26 tipos, validadas por anotadores humanos con un 83% de calificaciones de racionalidad. Basándonos en nuestro sistema propuesto, hemos lanzado además un conjunto de datos de habla emocional detallado, MIKU-EmoBench (131.2 horas), como un nuevo punto de referencia para la conversión de texto a voz emocional y la clonación visual de voz.
Este trabajo investiga la Adaptación de Dominio sin Fuente (SFDA, por sus siglas en inglés), donde un modelo se adapta a un dominio objetivo sin acceso a los datos de origen. Se introduce una nueva técnica de aumento, Shuffle PatchMix (SPM), y una estrategia novedosa de reponderación para mejorar el rendimiento. SPM mezcla y combina parches de imágenes para generar aumentaciones diversas y desafiantes, mientras que la estrategia de reponderación prioriza pseudoetiquetas confiables para mitigar el ruido en las etiquetas. Estas técnicas son particularmente efectivas en conjuntos de datos más pequeños como PACS, donde el sobreajuste y el ruido en las pseudoetiquetas representan riesgos mayores. Se logran resultados de vanguardia en tres benchmarks principales: PACS, VisDA-C y DomainNet-126. Destacan mejoras del 7.3% (de 79.4% a 86.7%) y 7.2% en configuraciones de objetivo único y múltiple, respectivamente, en PACS, mientras que se obtienen ganancias del 2.8% y 0.7% en DomainNet-126 y VisDA-C. Esta combinación de aumento avanzado y reponderación robusta de pseudoetiquetas establece un nuevo estándar para SFDA. El código está disponible en: https://github.com/PrasannaPulakurthi/SPM.
La compilación eficiente de operaciones cuánticas sigue siendo un cuello de botella importante en la escalabilidad de la computación cuántica. Los métodos más avanzados actuales logran un bajo error de compilación al combinar algoritmos de búsqueda con optimización de parámetros basada en gradientes, pero incurren en tiempos de ejecución prolongados y requieren múltiples llamadas al hardware cuántico o simulaciones clásicas costosas, lo que hace que su escalabilidad sea prohibitiva. Recientemente, los modelos de aprendizaje automático han surgido como una alternativa, aunque actualmente están restringidos a conjuntos de puertas discretas. Aquí, presentamos un modelo de difusión multimodal de eliminación de ruido que genera simultáneamente la estructura de un circuito y sus parámetros continuos para compilar una unitaria objetivo. Este modelo aprovecha dos procesos de difusión independientes, uno para la selección de puertas discretas y otro para la predicción de parámetros. Evaluamos el modelo en diferentes experimentos, analizando la precisión del método en función del número de qubits, la profundidad del circuito y la proporción de puertas parametrizadas. Finalmente, al aprovechar su rápida generación de circuitos, creamos grandes conjuntos de datos de circuitos para operaciones específicas y los utilizamos para extraer heurísticas valiosas que pueden ayudarnos a descubrir nuevos conocimientos sobre la síntesis de circuitos cuánticos.