Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos MiniMax-Speech, un modelo de Texto a Voz (TTS) basado en Transformers autoregresivos que genera voz de alta calidad. Una innovación clave es nuestro codificador de hablante entrenable, que extrae características de timbre de un audio de referencia sin requerir su transcripción. Esto permite que MiniMax-Speech produzca voz altamente expresiva con un timbre consistente con la referencia de manera zero-shot, además de soportar clonación de voz one-shot con una similitud excepcionalmente alta con la voz de referencia. Además, la calidad general del audio sintetizado se mejora mediante el Flow-VAE propuesto. Nuestro modelo soporta 32 idiomas y demuestra un excelente rendimiento en múltiples métricas de evaluación objetivas y subjetivas. En particular, logra resultados state-of-the-art (SOTA) en métricas objetivas de clonación de voz (Tasa de Error de Palabras y Similitud de Hablante) y ha obtenido el primer puesto en el ranking público de TTS Arena. Otra fortaleza clave de MiniMax-Speech, otorgada por las representaciones robustas y desenredadas del codificador de hablante, es su extensibilidad sin modificar el modelo base, permitiendo diversas aplicaciones como: control arbitrario de emociones vocales mediante LoRA; texto a voz (T2V) sintetizando características de timbre directamente a partir de descripciones textuales; y clonación de voz profesional (PVC) ajustando finamente las características de timbre con datos adicionales. Invitamos a los lectores a visitar https://minimax-ai.github.io/tts_tech_report para más ejemplos.
Los sistemas de texto a audio, aunque cada vez más eficientes, son lentos en el tiempo de inferencia, lo que hace que su latencia sea poco práctica para muchas aplicaciones creativas. Presentamos el post-entrenamiento Adversarial Relativistic-Contrastive (ARC), el primer algoritmo de aceleración adversarial para modelos de difusión/flujo que no se basa en destilación. Mientras que los métodos anteriores de post-entrenamiento adversarial han tenido dificultades para competir con sus costosas contrapartes de destilación, el post-entrenamiento ARC es un procedimiento simple que (1) extiende una formulación adversarial relativista reciente al post-entrenamiento de difusión/flujo y (2) lo combina con un nuevo objetivo discriminador contrastivo para fomentar una mejor adherencia a las indicaciones. Acompañamos el post-entrenamiento ARC con una serie de optimizaciones a Stable Audio Open y construimos un modelo capaz de generar aproximadamente 12 segundos de audio estéreo a 44.1 kHz en aproximadamente 75 ms en una H100, y aproximadamente 7 segundos en un dispositivo móvil de borde, el modelo de texto a audio más rápido que conocemos.
Presentamos AM-Thinking-v1, un modelo de lenguaje denso de 32B que avanza la frontera del razonamiento, encarnando el espíritu colaborativo de la innovación de código abierto. Superando a DeepSeek-R1 y rivalizando con modelos líderes de Mezcla de Expertos (MoE) como Qwen3-235B-A22B y Seed1.5-Thinking, AM-Thinking-v1 logra puntuaciones impresionantes de 85.3 en AIME 2024, 74.4 en AIME 2025 y 70.3 en LiveCodeBench, mostrando capacidades matemáticas y de programación de vanguardia entre modelos de código abierto de escala similar. Construido completamente a partir del modelo base Qwen2.5-32B de código abierto y consultas públicamente disponibles, AM-Thinking-v1 aprovecha una canalización de post-entrenamiento meticulosamente diseñada —combinando ajuste fino supervisado y aprendizaje por refuerzo— para ofrecer capacidades de razonamiento excepcionales. Este trabajo demuestra que la comunidad de código abierto puede alcanzar un alto rendimiento en la escala de 32B, un punto óptimo práctico para la implementación y el ajuste fino. Al equilibrar el rendimiento de primer nivel con la usabilidad en el mundo real, esperamos que AM-Thinking-v1 inspire esfuerzos colaborativos adicionales para aprovechar modelos de escala media, impulsando los límites del razonamiento mientras se mantiene la accesibilidad en el núcleo de la innovación. Hemos liberado nuestro modelo en https://huggingface.co/a-m-team/AM-Thinking-v1{Hugging Face}.
La construcción de modelos de lenguaje multimodal es fundamentalmente desafiante: requiere alinear las modalidades de visión y lenguaje, curar datos de instrucción de alta calidad y evitar la degradación de las capacidades existentes basadas únicamente en texto una vez que se introduce la visión. Estas dificultades se amplían aún más en el entorno multilingüe, donde la necesidad de datos multimodales en diferentes idiomas exacerba la escasez de datos existente, la traducción automática a menudo distorsiona el significado y el olvido catastrófico es más pronunciado. Para abordar los desafíos mencionados, introducimos técnicas novedosas que abarcan tanto datos como modelado. En primer lugar, desarrollamos un marco de anotación sintética que cura datos de instrucción multimodal multilingüe de alta calidad y diversa, permitiendo que los modelos Aya Vision produzcan respuestas naturales y preferidas por los humanos para entradas multimodales en muchos idiomas. Complementando esto, proponemos una técnica de fusión de modelos cruzados que mitiga el olvido catastrófico, preservando efectivamente las capacidades basadas únicamente en texto mientras mejora simultáneamente el rendimiento generativo multimodal. Aya-Vision-8B logra un rendimiento líder en su clase en comparación con modelos multimodales fuertes como Qwen-2.5-VL-7B, Pixtral-12B e incluso modelos mucho más grandes como Llama-3.2-90B-Vision. Además, escalamos este enfoque con Aya-Vision-32B, que supera a modelos más del doble de su tamaño, como Molmo-72B y LLaMA-3.2-90B-Vision. Nuestro trabajo avanza el progreso multilingüe en la frontera multimodal y proporciona insights sobre técnicas que efectivamente reducen la necesidad de cómputo mientras ofrecen un rendimiento extremadamente alto.
La evaluación de seguimiento de instrucciones mide la capacidad de los modelos de lenguaje de gran escala (LLMs) para generar salidas que se ajusten a restricciones definidas por el usuario. Sin embargo, los puntos de referencia existentes suelen basarse en indicaciones de restricciones predefinidas, las cuales carecen de la diversidad del uso en el mundo real y limitan la evaluación detallada del rendimiento. Para abordar esta limitación, proponemos un marco de restricciones multidimensional que abarca tres patrones de restricciones, cuatro categorías de restricciones y cuatro niveles de dificultad. Basándonos en este marco, desarrollamos una canalización automatizada de generación de instrucciones que realiza expansión de restricciones, detección de conflictos y reescritura de instrucciones, produciendo 1,200 muestras de prueba verificables mediante código para el seguimiento de instrucciones. Evaluamos 19 LLMs de siete familias de modelos y descubrimos una variación sustancial en el rendimiento según las formas de restricción. Por ejemplo, el rendimiento promedio disminuye del 77.67% en el Nivel I al 32.96% en el Nivel IV. Además, demostramos la utilidad de nuestro enfoque utilizándolo para generar datos en el aprendizaje por refuerzo, logrando mejoras significativas en el seguimiento de instrucciones sin degradar el rendimiento general. Un análisis en profundidad indica que estas mejoras se deben principalmente a modificaciones en los parámetros de los módulos de atención del modelo, lo que mejora el reconocimiento y la adherencia a las restricciones. El código y los datos están disponibles en https://github.com/Junjie-Ye/MulDimIF.
Presentamos gg-bench, una colección de entornos de juego diseñados para evaluar capacidades de razonamiento general en modelos de lenguaje. A diferencia de la mayoría de los benchmarks estáticos, gg-bench es un proceso de generación de datos donde se pueden crear nuevas instancias de evaluación a voluntad. En particular, gg-bench se genera sintéticamente mediante (1) el uso de un modelo de lenguaje grande (LLM) para generar descripciones en lenguaje natural de juegos novedosos, (2) el uso del LLM para implementar cada juego en código como un entorno de Gym, y (3) el entrenamiento de agentes de aprendizaje por refuerzo (RL) mediante autojuego en los juegos generados. Evaluamos los modelos de lenguaje por su tasa de victoria contra estos agentes RL, solicitando a los modelos la descripción del juego, el estado actual del tablero y una lista de movimientos válidos, tras lo cual los modelos eligen los movimientos que desean realizar. gg-bench es desafiante: los LLM más avanzados, como GPT-4o y Claude 3.7 Sonnet, logran tasas de victoria del 7-9% en gg-bench utilizando aprendizaje en contexto, mientras que modelos de razonamiento como o1, o3-mini y DeepSeek-R1 alcanzan tasas de victoria promedio del 31-36%. Publicamos los juegos generados, el proceso de generación de datos y el código de evaluación para apoyar trabajos futuros de modelado y la expansión de nuestro benchmark.
Los Modelos de Visión-Lenguaje (VLMs, por sus siglas en inglés) combinan la percepción visual con las capacidades generales, como el razonamiento, de los Modelos de Lenguaje a Gran Escala (LLMs). Sin embargo, los mecanismos mediante los cuales estas dos habilidades pueden combinarse y contribuir siguen siendo poco comprendidos. En este trabajo, exploramos la composición de la percepción y el razonamiento a través de la fusión de modelos que conecta los parámetros de diferentes modelos. A diferencia de trabajos anteriores que suelen centrarse en fusionar modelos del mismo tipo, proponemos fusionar modelos a través de modalidades, permitiendo la incorporación de las capacidades de razonamiento de los LLMs en los VLMs. A través de extensos experimentos, demostramos que la fusión de modelos ofrece una vía exitosa para transferir habilidades de razonamiento de los LLMs a los VLMs de manera libre de entrenamiento. Además, utilizamos los modelos fusionados para comprender el mecanismo interno de la percepción y el razonamiento, y cómo la fusión lo afecta. Descubrimos que las capacidades de percepción están predominantemente codificadas en las capas iniciales del modelo, mientras que el razonamiento se facilita en gran medida por las capas intermedias y finales. Después de la fusión, observamos que todas las capas comienzan a contribuir al razonamiento, mientras que la distribución de las habilidades de percepción en las capas permanece en gran medida sin cambios. Estas observaciones arrojan luz sobre el potencial de la fusión de modelos como una herramienta para la integración e interpretación multimodal.
Este estudio aborda la brecha crítica en el procesamiento del lenguaje natural en árabe mediante el desarrollo de un sistema efectivo de Diccionario Inverso Árabe (RD, por sus siglas en inglés) que permite a los usuarios encontrar palabras basadas en sus descripciones o significados. Presentamos un enfoque novedoso basado en transformadores con una arquitectura de red neuronal semi-codificadora que incluye capas de disminución geométrica, logrando resultados de vanguardia en tareas de RD en árabe. Nuestra metodología incorpora un proceso integral de construcción de conjuntos de datos y establece estándares formales de calidad para las definiciones lexicográficas en árabe. Los experimentos con varios modelos preentrenados demuestran que los modelos específicos para árabe superan significativamente a los embeddings multilingües generales, con ARBERTv2 alcanzando la mejor puntuación de clasificación (0.0644). Además, proporcionamos una abstracción formal de la tarea del diccionario inverso que mejora la comprensión teórica y desarrollamos una biblioteca modular y extensible en Python (RDTL) con pipelines de entrenamiento configurables. Nuestro análisis de la calidad del conjunto de datos revela insights importantes para mejorar la construcción de definiciones en árabe, lo que lleva a ocho estándares específicos para la creación de recursos de diccionario inverso de alta calidad. Este trabajo contribuye significativamente a la lingüística computacional en árabe y proporciona herramientas valiosas para el aprendizaje del idioma, la redacción académica y la comunicación profesional en árabe.
Aprender a navegar en entornos dinámicos y abiertos es una habilidad importante pero desafiante para los robots. La mayoría de los métodos anteriores dependen de la localización y mapeo precisos o aprenden a partir de demostraciones costosas en el mundo real. En este artículo, proponemos la Política de Difusión de Navegación (NavDP), un marco de trabajo de extremo a extremo entrenado únicamente en simulación y capaz de transferirse de manera inmediata (zero-shot) a diferentes configuraciones físicas en diversos entornos del mundo real. El componente clave de la red de NavDP es la combinación de la generación de trayectorias basada en difusión y una función crítica para la selección de trayectorias, las cuales están condicionadas únicamente por tokens de observación local codificados desde un transformador de política compartido. Dada la información privilegiada del entorno global en simulación, escalamos las demostraciones de alta calidad para entrenar la política de difusión y formulamos los objetivos de la función de valor crítico con muestras negativas contrastivas. Nuestro enfoque de generación de demostraciones logra aproximadamente 2,500 trayectorias/GPU por día, 20 veces más eficiente que la recolección de datos en el mundo real, y resulta en un conjunto de datos de navegación a gran escala con 363.2 km de trayectorias en 1244 escenas. Entrenado con este conjunto de datos de simulación, NavDP alcanza un rendimiento de vanguardia y una capacidad de generalización consistentemente sobresaliente en robots cuadrúpedos, con ruedas y humanoides en diversos entornos interiores y exteriores. Además, presentamos un intento preliminar de utilizar Gaussian Splatting para realizar un ajuste fino de real a sim dentro del dominio, con el fin de reducir aún más la brecha entre simulación y realidad. Los experimentos muestran que agregar dichos datos de real a sim puede mejorar la tasa de éxito en un 30\% sin afectar su capacidad de generalización.
La creciente adopción de flujos de trabajo agentivos en diversos dominios genera una necesidad crítica de evaluar de manera escalable y sistemática las trazas complejas que estos sistemas producen. Los métodos de evaluación actuales dependen del análisis manual y específico del dominio realizado por humanos sobre trazas extensas de flujos de trabajo, un enfoque que no escala con la creciente complejidad y volumen de los resultados agentivos. El análisis de errores en estos contextos se complica aún más por la interacción entre los resultados de herramientas externas y el razonamiento de los modelos de lenguaje, lo que lo hace más desafiante que la depuración tradicional de software. En este trabajo, (1) planteamos la necesidad de métodos de evaluación robustos y dinámicos para las trazas de flujos de trabajo agentivos, (2) introducimos una taxonomía formal de los tipos de errores encontrados en sistemas agentivos y (3) presentamos un conjunto de 148 trazas anotadas manualmente (TRAIL) construidas utilizando esta taxonomía y basadas en benchmarks agentivos establecidos. Para garantizar la validez ecológica, seleccionamos trazas de sistemas tanto de un solo agente como de múltiples agentes, centrándonos en aplicaciones del mundo real como la ingeniería de software y la recuperación de información en entornos abiertos. Nuestras evaluaciones revelan que los modelos de lenguaje de contexto largo (LLM) modernos tienen un desempeño deficiente en la depuración de trazas, con el mejor modelo, Gemini-2.5-pro, obteniendo apenas un 11% en TRAIL. Nuestro conjunto de datos y código están disponibles públicamente para apoyar y acelerar futuras investigaciones en la evaluación escalable de flujos de trabajo agentivos.
Demostramos teóricamente que la generalización mejora no solo mediante el escalado de datos, sino también a través de la compresión de representaciones internas. Para operacionalizar esta idea, introducimos el objetivo de Modelado de Lenguaje con Cuello de Botella de Información (IBLM, por sus siglas en inglés), que reformula el modelado de lenguaje como un problema de optimización restringida: minimizar la entropía de las representaciones sujeto a un rendimiento predictivo óptimo. Empíricamente, observamos un ciclo emergente de memorización-compresión durante el preentrenamiento de modelos de lenguaje grandes (LLM), evidenciado por la oscilación en la alineación positiva/negativa de los gradientes entre la entropía cruzada y la Entropía Basada en Matrices (MBE, por sus siglas en inglés), una medida de la entropía de las representaciones. Este patrón refleja estrechamente el equilibrio predictivo-compresivo prescrito por IBLM y también se asemeja a la alternancia biológica entre el aprendizaje en estado de vigilia y la consolidación durante el sueño. Motivados por esta observación, proponemos la Transición de Fase con Compuerta (GAPT, por sus siglas en inglés), un algoritmo de entrenamiento que cambia de manera adaptativa entre fases de memorización y compresión. Al aplicarlo al preentrenamiento de GPT-2 en el conjunto de datos FineWeb, GAPT reduce la MBE en un 50% y mejora la entropía cruzada en un 4.8%. Además, GAPT mejora la generalización fuera de distribución (OOD) en un 35% en una tarea de preentrenamiento de multiplicación aritmética. En un escenario diseñado para simular el olvido catastrófico, GAPT reduce la interferencia al comprimir y separar las representaciones, logrando una mejora del 97% en la separación, lo que se asemeja al papel funcional de la consolidación durante el sueño.
Evaluar los niveles de habilidad humana en actividades complejas es un problema desafiante con aplicaciones en deportes, rehabilitación y entrenamiento. En este trabajo, presentamos SkillFormer, una arquitectura eficiente en parámetros para la estimación unificada de competencias multi-vista a partir de videos egocéntricos y exocéntricos. Basado en la estructura de TimeSformer, SkillFormer introduce un módulo de CrossViewFusion que fusiona características específicas de cada vista utilizando atención cruzada multi-cabeza, compuertas aprendibles y auto-calibración adaptativa. Aprovechamos la Adaptación de Bajo Rango (Low-Rank Adaptation) para ajustar solo un pequeño subconjunto de parámetros, reduciendo significativamente los costos de entrenamiento. De hecho, al evaluar en el conjunto de datos EgoExo4D, SkillFormer alcanza una precisión de vanguardia en configuraciones multi-vista, demostrando una notable eficiencia computacional, utilizando 4.5 veces menos parámetros y requiriendo 3.75 veces menos épocas de entrenamiento que los baselines anteriores. Destaca en múltiples tareas estructuradas, confirmando el valor de la integración multi-vista para la evaluación detallada de habilidades.
Los modelos de lenguaje de gran escala logran un alto rendimiento en tareas, pero a menudo alucinan o dependen de conocimientos desactualizados. La generación aumentada por recuperación (RAG, por sus siglas en inglés) aborda estas limitaciones al combinar la generación con búsquedas externas. Analizamos cómo los hiperparámetros influyen en la velocidad y la calidad en sistemas RAG, cubriendo almacenes de vectores como Chroma y Faiss, políticas de segmentación, reordenamiento con codificadores cruzados y temperatura, y evaluamos seis métricas: fidelidad, corrección de respuestas, relevancia de respuestas, precisión del contexto, recuperación del contexto y similitud de respuestas. Chroma procesa consultas un 13% más rápido, mientras que Faiss ofrece mayor precisión en la recuperación, revelando una clara compensación entre velocidad y precisión. La segmentación de longitud fija con ventanas pequeñas y superposición mínima supera a la segmentación semántica y sigue siendo la opción más rápida. El reordenamiento proporciona mejoras modestas en la calidad de la recuperación, pero aumenta el tiempo de ejecución aproximadamente en un factor de 5, por lo que su utilidad depende de las restricciones de latencia. Estos resultados ayudan a los profesionales a equilibrar el costo computacional y la precisión al ajustar sistemas RAG para obtener respuestas transparentes y actualizadas. Finalmente, reevaluamos las mejores configuraciones con un flujo de trabajo RAG correctivo y demostramos que sus ventajas persisten cuando el modelo puede solicitar evidencia adicional de manera iterativa. Obtenemos una precisión del contexto casi perfecta (99%), lo que demuestra que los sistemas RAG pueden alcanzar una precisión de recuperación extremadamente alta con la combinación adecuada de hiperparámetros, con implicaciones significativas para aplicaciones donde la calidad de la recuperación impacta directamente en el rendimiento de tareas posteriores, como el apoyo a decisiones clínicas en el ámbito de la salud.
La Predicción de Utilidad de Reseñas Multimodales (MRHP, por sus siglas en inglés) es una tarea esencial en los sistemas de recomendación, particularmente en plataformas de comercio electrónico. Determinar la utilidad de las reseñas generadas por los usuarios mejora la experiencia del usuario y optimiza la toma de decisiones de los consumidores. Sin embargo, los conjuntos de datos existentes se centran predominantemente en inglés e indonesio, lo que resulta en una falta de diversidad lingüística, especialmente para idiomas de bajos recursos como el vietnamita. En este artículo, presentamos ViMRHP (Vietnamese Multimodal Review Helpfulness Prediction), un conjunto de datos de referencia a gran escala para la tarea de MRHP en vietnamita. Este conjunto de datos abarca cuatro dominios, incluyendo 2K productos con 46K reseñas. Mientras tanto, un conjunto de datos a gran escala requiere un tiempo y un costo considerables. Para optimizar el proceso de anotación, aprovechamos la IA para asistir a los anotadores en la construcción del conjunto de datos ViMRHP. Con la asistencia de la IA, el tiempo de anotación se reduce (de 90 a 120 segundos por tarea a 20 a 40 segundos por tarea) mientras se mantiene la calidad de los datos y se reduce el costo total en aproximadamente un 65%. Sin embargo, las anotaciones generadas por IA aún tienen limitaciones en tareas de anotación complejas, las cuales examinamos más a fondo mediante un análisis detallado de rendimiento. En nuestro experimento con ViMRHP, evaluamos modelos de referencia en anotaciones verificadas por humanos y generadas por IA para comparar sus diferencias de calidad. El conjunto de datos ViMRHP está disponible públicamente en https://github.com/trng28/ViMRHP.
Presentamos WebApp1K, un nuevo punto de referencia para evaluar modelos de lenguaje de gran escala (LLMs) en tareas de desarrollo guiado por pruebas (TDD), donde los casos de prueba sirven tanto como indicación como verificación para la generación de código. A diferencia de los enfoques tradicionales que dependen de indicaciones en lenguaje natural, nuestro punto de referencia enfatiza la capacidad de los LLMs para interpretar e implementar funcionalidades directamente a partir de casos de prueba, reflejando prácticas reales de desarrollo de software. Compuesto por 1000 desafíos diversos en 20 dominios de aplicación, el punto de referencia evalúa la capacidad de los LLMs para generar código compacto y funcional bajo las restricciones de longitud de contexto y complejidad de múltiples características. Nuestros hallazgos destacan el seguimiento de instrucciones y el aprendizaje en contexto como capacidades críticas para el éxito en TDD, superando la importancia de la competencia general en codificación o el conocimiento previo. A través de una evaluación exhaustiva de 19 modelos de vanguardia, revelamos cuellos de botella en el rendimiento, como la pérdida de instrucciones en indicaciones largas, y proporcionamos un análisis detallado de errores que abarca múltiples causas raíz. Este trabajo subraya el valor práctico de los puntos de referencia específicos para TDD y sienta las bases para avanzar en las capacidades de los LLMs en escenarios de codificación rigurosos y orientados a aplicaciones.