Artículos de investigación en IA seleccionados diariamente con traducciones
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) suelen generar respuestas con sesgos inherentes, lo que socava su confiabilidad en aplicaciones del mundo real. Los métodos de evaluación existentes a menudo pasan por alto los sesgos en respuestas extensas y la variabilidad intrínseca de las salidas de los LLMs. Para abordar estos desafíos, proponemos FiSCo (Cálculo Semántico de Grano Fino), un marco estadístico novedoso para evaluar la equidad a nivel de grupo en los LLMs mediante la detección de diferencias semánticas sutiles en respuestas extensas entre grupos demográficos. A diferencia de trabajos previos centrados en el análisis de sentimientos o comparaciones a nivel de tokens, FiSCo va más allá del análisis superficial al operar a nivel de afirmaciones, utilizando verificaciones de implicación para evaluar la consistencia del significado entre respuestas. Descomponemos las salidas del modelo en afirmaciones semánticamente distintas y aplicamos pruebas de hipótesis estadísticas para comparar similitudes inter e intragrupo, lo que permite la detección robusta de sesgos sutiles. Formalizamos una nueva definición de equidad contrafáctica a nivel de grupo y validamos FiSCo en conjuntos de datos sintéticos y anotados por humanos que abarcan género, raza y edad. Los experimentos muestran que FiSCo identifica de manera más confiable sesgos matizados mientras reduce el impacto de la variabilidad estocástica de los LLMs, superando diversas métricas de evaluación.
Presentamos AnimaX, un marco de animación 3D de avance directo que conecta los precedentes de movimiento de los modelos de difusión de video con la estructura controlable de la animación basada en esqueletos. Los métodos tradicionales de síntesis de movimiento están restringidos a topologías esqueléticas fijas o requieren una costosa optimización en espacios de deformación de alta dimensión. En contraste, AnimaX transfiere eficazmente el conocimiento de movimiento basado en video al dominio 3D, soportando mallas articuladas diversas con esqueletos arbitrarios. Nuestro método representa el movimiento 3D como mapas de poses 2D multi-vista y multi-fotograma, y permite la difusión conjunta de video y poses condicionada por representaciones de plantillas y un prompt textual de movimiento. Introducimos codificaciones posicionales compartidas y embeddings conscientes de la modalidad para garantizar la alineación espacio-temporal entre secuencias de video y poses, transfiriendo eficazmente los precedentes de video a la tarea de generación de movimiento. Las secuencias de poses multi-vista resultantes se triangulan en posiciones de articulaciones 3D y se convierten en animación de mallas mediante cinemática inversa. Entrenado en un nuevo conjunto de datos curado de 160,000 secuencias rigged, AnimaX logra resultados de vanguardia en VBench en generalización, fidelidad de movimiento y eficiencia, ofreciendo una solución escalable para la animación 3D agnóstica de categorías. Página del proyecto: https://anima-x.github.io/{https://anima-x.github.io/}.
Presentamos Matrix-Game, un modelo fundacional de mundo interactivo para la generación controlada de mundos de juego. Matrix-Game se entrena mediante un pipeline de dos etapas que primero realiza un preentrenamiento a gran escala sin etiquetas para la comprensión del entorno, seguido de un entrenamiento con etiquetas de acciones para la generación de videos interactivos. Para respaldar esto, hemos creado Matrix-Game-MC, un conjunto de datos integral de Minecraft que comprende más de 2,700 horas de clips de video de juego sin etiquetas y más de 1,000 horas de clips de alta calidad con anotaciones detalladas de acciones de teclado y mouse. Nuestro modelo adopta un paradigma de generación controlada de imagen a mundo, condicionado por una imagen de referencia, contexto de movimiento y acciones del usuario. Con más de 17 mil millones de parámetros, Matrix-Game permite un control preciso sobre las acciones de los personajes y los movimientos de la cámara, manteniendo una alta calidad visual y coherencia temporal. Para evaluar el rendimiento, desarrollamos GameWorld Score, un benchmark unificado que mide la calidad visual, la calidad temporal, la controlabilidad de las acciones y la comprensión de las reglas físicas en la generación de mundos de Minecraft. Experimentos extensivos muestran que Matrix-Game supera consistentemente a los modelos anteriores de mundos de Minecraft de código abierto (incluyendo Oasis y MineWorld) en todas las métricas, con mejoras particularmente fuertes en controlabilidad y consistencia física. Evaluaciones humanas doble ciego confirman además la superioridad de Matrix-Game, destacando su capacidad para generar videos perceptualmente realistas y precisamente controlables en diversos escenarios de juego. Para facilitar futuras investigaciones sobre la generación interactiva de imagen a mundo, abriremos el código de los pesos del modelo Matrix-Game y el benchmark GameWorld Score en https://github.com/SkyworkAI/Matrix-Game.
Los enfoques recientes de aprendizaje por refuerzo, como GRPO supervisado por resultados, han avanzado el razonamiento de cadena de pensamiento en modelos de lenguaje grandes (LLMs), aunque su adaptación a modelos de lenguaje multimodales (MLLMs) aún no ha sido explorada. Para abordar la falta de evaluación rigurosa de los métodos de posentrenamiento para MLLMs, presentamos SEED-Bench-R1, un punto de referencia con videos complejos del mundo real que requieren una percepción y razonamiento equilibrados. Ofrece un amplio conjunto de entrenamiento y evalúa la generalización en tres desafíos crecientes: dentro de la distribución, entre entornos y entre entornos y tareas. Utilizando SEED-Bench-R1, encontramos que el GRPO estándar, aunque mejora la precisión de las respuestas, a menudo reduce la coherencia lógica entre los pasos de razonamiento y las respuestas, con solo un 57.9% de tasa de consistencia. Esto se debe a que las señales de recompensa se centran únicamente en las respuestas finales, fomentando atajos, y las penalizaciones estrictas de KL limitan la exploración. Para abordar esto, proponemos GRPO-CARE, un marco de RL consciente de la consistencia que optimiza tanto la corrección de las respuestas como la coherencia del razonamiento sin supervisión explícita. GRPO-CARE introduce una recompensa de dos niveles: (1) una recompensa base por la corrección de la respuesta, y (2) un bono de consistencia adaptativo, calculado comparando la probabilidad de razonamiento a respuesta del modelo (a través de un modelo de referencia de evolución lenta) con sus pares. Este mecanismo dual amplifica las recompensas para las rutas de razonamiento que son tanto correctas como lógicamente consistentes. Al reemplazar las penalizaciones de KL con este bono adaptativo, GRPO-CARE supera al GRPO estándar en SEED-Bench-R1, logrando una ganancia de rendimiento del 6.7% en el nivel de evaluación más difícil y una mejora del 24.5% en la consistencia. También muestra una fuerte transferibilidad, mejorando el rendimiento del modelo en diversos puntos de referencia de comprensión de videos. Nuestro trabajo contribuye con un punto de referencia diseñado sistemáticamente y un marco de posentrenamiento generalizable, avanzando en el desarrollo de MLLMs más interpretables y robustos.
La ingeniería de software (SWE, por sus siglas en inglés) ha surgido recientemente como un campo crucial para evaluar a los agentes de LLM de próxima generación, exigiendo capacidades inherentes en dos dimensiones críticas: la resolución iterativa y sostenida de problemas (por ejemplo, >50 rondas de interacción) y la gestión de dependencias de contexto largo (por ejemplo, >32k tokens). Sin embargo, el proceso de curación de datos en SWE sigue siendo notoriamente laborioso, ya que depende en gran medida de la anotación manual para el filtrado de archivos de código y la configuración de entornos de ejecución dedicados para ejecutar y validar pruebas unitarias. Como resultado, la mayoría de los conjuntos de datos existentes se limitan a solo unos pocos miles de instancias obtenidas de GitHub. Para abordar esto, proponemos una canalización de curación de datos incremental y automatizada que escala sistemáticamente tanto el volumen como la diversidad de los conjuntos de datos de SWE. Nuestro conjunto de datos incluye 10,169 instancias de tareas reales en Python provenientes de 2,531 repositorios distintos de GitHub, cada una acompañada de una tarea especificada en lenguaje natural y una imagen de entorno de ejecución dedicada para la validación automatizada de pruebas unitarias. Hemos curado cuidadosamente más de 8,000 trayectorias de entrenamiento validadas en tiempo de ejecución a partir de nuestro conjunto de datos propuesto de SWE. Al ajustar el modelo Skywork-SWE en estas trayectorias, descubrimos un fenómeno notable de escalado de datos: el rendimiento del modelo entrenado para capacidades de ingeniería de software en LLM continúa mejorando a medida que aumenta el tamaño de los datos, sin mostrar signos de saturación. En particular, nuestro modelo Skywork-SWE alcanza un 38.0% de precisión pass@1 en el benchmark SWE-bench Verified sin utilizar verificadores o múltiples ejecuciones, estableciendo un nuevo estado del arte (SOTA) entre los LLM basados en Qwen2.5-Coder-32B construidos sobre el marco de agentes OpenHands. Además, con la incorporación de técnicas de escalado en tiempo de prueba, el rendimiento mejora aún más hasta un 47.0% de precisión, superando los resultados SOTA anteriores para modelos con menos de 32B parámetros. Publicamos el checkpoint del modelo Skywork-SWE-32B para acelerar futuras investigaciones.
Este artículo presenta ScaleCap, una estrategia escalable de generación de descripciones de imágenes en tiempo de inferencia que produce descripciones completas y detalladas. Los principales desafíos de la generación de alta calidad de descripciones de imágenes radican en los sesgos inherentes de los modelos de lenguaje y visión multimodal (LVLM): el sesgo multimodal resulta en una granularidad descriptiva desequilibrada, ofreciendo descripciones detalladas de algunos elementos mientras apenas menciona otros; el sesgo lingüístico conduce a descripciones alucinadas de objetos inexistentes. Para abordar estos problemas, proponemos una estrategia escalable de generación de descripciones sin sesgos, que enriquece y calibra continuamente la descripción con un mayor presupuesto de inferencia. Específicamente, proponemos dos componentes novedosos: respuesta heurística a preguntas y calificación contrastiva de oraciones. El primero genera preguntas específicas basadas en la imagen y las responde para inyectar progresivamente información relevante en la descripción. El segundo emplea decodificación contrastiva offline a nivel de oración para identificar y eliminar eficazmente las alucinaciones causadas por sesgos lingüísticos. Con un mayor costo de inferencia, ScaleCap plantea más preguntas heurísticas para capturar progresivamente detalles visuales adicionales, generando descripciones más precisas, equilibradas e informativas. Experimentos extensos de alineación de modalidades demuestran la efectividad de ScaleCap. La anotación de 450K imágenes con ScaleCap y su uso para el preentrenamiento de LVLM conduce a mejoras consistentes en el rendimiento en 11 benchmarks ampliamente utilizados. Además, ScaleCap muestra una riqueza y fidelidad sobresalientes en las descripciones generadas con dos tareas adicionales: reemplazar imágenes con descripciones en tareas de VQA, y reconstruir imágenes a partir de descripciones para evaluar la cobertura semántica. El código está disponible en https://github.com/Cooperx521/ScaleCap.
El retoque fotográfico se ha convertido en un elemento integral de la narrativa visual contemporánea, permitiendo a los usuarios capturar estéticas y expresar creatividad. Si bien herramientas profesionales como Adobe Lightroom ofrecen capacidades potentes, requieren un conocimiento sustancial y un esfuerzo manual considerable. En contraste, las soluciones existentes basadas en inteligencia artificial proporcionan automatización, pero a menudo presentan una ajustabilidad limitada y una generalización deficiente, lo que no satisface las diversas y personalizadas necesidades de edición. Para cerrar esta brecha, presentamos JarvisArt, un agente impulsado por un modelo de lenguaje multimodal (MLLM) que comprende la intención del usuario, imita el proceso de razonamiento de artistas profesionales y coordina inteligentemente más de 200 herramientas de retoque dentro de Lightroom. JarvisArt se somete a un proceso de entrenamiento en dos etapas: un ajuste fino supervisado inicial mediante Chain-of-Thought para establecer habilidades básicas de razonamiento y uso de herramientas, seguido de una Optimización de Política Relativa de Grupo para Retoque (GRPO-R) para mejorar aún más su toma de decisiones y competencia en el uso de herramientas. También proponemos el Protocolo Agente-a-Lightroom para facilitar una integración fluida con Lightroom. Para evaluar el rendimiento, desarrollamos MMArt-Bench, un nuevo punto de referencia construido a partir de ediciones reales de usuarios. JarvisArt demuestra una interacción amigable con el usuario, una generalización superior y un control detallado sobre ajustes tanto globales como locales, abriendo un nuevo camino para el retoque fotográfico inteligente. Cabe destacar que supera a GPT-4o con una mejora del 60% en métricas promedio a nivel de píxel en MMArt-Bench para la fidelidad del contenido, manteniendo capacidades comparables de seguimiento de instrucciones. Página del proyecto: https://jarvisart.vercel.app/.
La variación en la anotación humana (es decir, los desacuerdos en la anotación) es común en el Procesamiento del Lenguaje Natural (PLN) y a menudo refleja información importante, como la subjetividad de la tarea y la ambigüedad de las muestras. Si bien los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) se utilizan cada vez más para la anotación automática con el fin de reducir el esfuerzo humano, su evaluación suele centrarse en predecir las etiquetas de "verdad fundamental" basadas en la mayoría de votos. Sin embargo, aún no está claro si estos modelos también capturan la variación informativa en la anotación humana. Nuestro trabajo aborda esta brecha evaluando exhaustivamente la capacidad de los LLMs para predecir desacuerdos en la anotación sin acceso a etiquetas humanas repetidas. Nuestros resultados muestran que los LLMs tienen dificultades para modelar desacuerdos, lo cual puede pasarse por alto en evaluaciones basadas en etiquetas mayoritarias. Cabe destacar que, aunque el razonamiento estilo RLVR (Aprendizaje por Refuerzo con Recompensas Verificables) generalmente mejora el rendimiento de los LLMs, degrada su desempeño en la predicción de desacuerdos. Nuestros hallazgos resaltan la necesidad crítica de evaluar y mejorar los anotadores basados en LLMs en el modelado de desacuerdos. Código y datos disponibles en https://github.com/EdisonNi-hku/Disagreement_Prediction.
La resolución de problemas complejos de SQL sigue siendo un cuello de botella significativo en las aplicaciones de bases de datos del mundo real. Los modelos de lenguaje de gran escala (LLMs) actuales, aunque competentes en la traducción de texto a SQL, no han sido evaluados rigurosamente en la tarea más desafiante de depuración de problemas de SQL. Para abordar esta brecha, presentamos BIRD-CRITIC, un nuevo punto de referencia para la depuración de problemas de SQL que comprende 530 tareas de PostgreSQL (BIRD-CRITIC-PG) y 570 tareas multi-dialecto (BIRD-CRITIC-Multi), extraídas de problemas auténticos de usuarios y reproducidas en nuevos entornos para facilitar una evaluación rigurosa. Las evaluaciones de referencia subrayan la complejidad de la tarea, con el modelo de razonamiento líder O3-Mini logrando solo un 38.87% de tasa de éxito en BIRD-CRITIC-PG y un 33.33% en BIRD-CRITIC-Multi. Mientras tanto, avanzar en los modelos de código abierto para tareas de bases de datos es crucial para empoderar el desarrollo local mientras se protege la privacidad de los datos. Por lo tanto, presentamos Six-Gym (Sql-fIX-Gym), un entorno de entrenamiento para elevar las capacidades de los modelos de código abierto en la depuración de problemas de SQL. Este entorno aprovecha la estrategia SQL-Rewind, que genera automáticamente conjuntos de datos ejecutables de problemas-soluciones mediante la ingeniería inversa de problemas a partir de SQLs verificados. Sin embargo, los métodos populares de ajuste fino basados en trayectorias no exploran señales de supervisión sustanciales. Además, proponemos f-Plan Boosting, que extrae planes de depuración de alto nivel de las soluciones de SQL, permitiendo que los LLMs maestros produzcan un 73.7% más de trayectorias exitosas para el entrenamiento. Integramos estos componentes en un agente de código abierto, Bird-Fixer. Basado en Qwen-2.5-Coder-14B, Bird-Fixer logra un 38.11% de tasa de éxito en BIRD-CRITIC-PG y un 29.65% en BIRD-CRITIC-Multi, superando a modelos propietarios líderes como Claude-3.7-Sonnet y GPT-4.1, marcando un paso significativo hacia la democratización de capacidades sofisticadas de depuración de SQL. El tablero de clasificación y el código fuente están disponibles en: https://bird-critic.github.io/
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han logrado avances notables en tareas de razonamiento, aunque la integración óptima del Ajuste Fino Supervisado (SFT) y el Aprendizaje por Refuerzo (RL) sigue siendo un desafío fundamental. A través de un análisis exhaustivo de las distribuciones de tokens, la dinámica de aprendizaje y los mecanismos de integración desde perspectivas basadas en la entropía, revelamos diferencias clave entre estos paradigmas: el SFT induce cambios globales de grano grueso en las distribuciones de políticas de los LLMs, mientras que el RL realiza optimizaciones selectivas de grano fino, con la entropía como un indicador crítico de la efectividad del entrenamiento. Basándonos en estas observaciones, proponemos el Ajuste Fino Supervisado por Refuerzo (SRFT), un método de una sola etapa que unifica ambos paradigmas de ajuste fino mediante mecanismos de ponderación conscientes de la entropía. Nuestro enfoque aplica simultáneamente SFT y RL para optimizar directamente el LLM utilizando demostraciones y rollouts de autoexploración, en lugar de métodos secuenciales de dos etapas. Experimentos extensos muestran que el SRFT alcanza un 59.1% de precisión promedio, superando a los métodos sin RL en un 9.0% en cinco benchmarks de razonamiento matemático y en un 10.9% en tres benchmarks fuera de distribución.
Los modelos de difusión latente han surgido como un paradigma líder para la generación eficiente de videos. Sin embargo, a medida que las expectativas de los usuarios se orientan hacia salidas de mayor resolución, depender únicamente del cómputo latente resulta insuficiente. Un enfoque prometedor implica desacoplar el proceso en dos etapas: generación de contenido semántico y síntesis de detalles. La primera emplea un modelo base computacionalmente intensivo en resoluciones más bajas, mientras que la segunda aprovecha un modelo ligero de super-resolución de video en cascada (VSR) para lograr una salida de alta resolución. En este trabajo, nos centramos en estudiar principios clave de diseño para los modelos VSR en cascada, los cuales están poco explorados actualmente. Primero, proponemos dos estrategias de degradación para generar pares de entrenamiento que imiten mejor las características de salida del modelo base, asegurando la alineación entre el modelo VSR y su generador ascendente. Segundo, proporcionamos insights críticos sobre el comportamiento del modelo VSR mediante un análisis sistemático de (1) estrategias de muestreo de pasos temporales y (2) efectos de la amplificación de ruido en entradas de baja resolución (LR). Estos hallazgos informan directamente nuestras innovaciones arquitectónicas y de entrenamiento. Finalmente, introducimos la unidad temporal entrelazada y la atención local dispersa para lograr un entrenamiento e inferencia eficientes, reduciendo drásticamente la sobrecarga computacional. Experimentos extensivos demuestran la superioridad de nuestro marco sobre los métodos existentes, con estudios de ablación que confirman la eficacia de cada elección de diseño. Nuestro trabajo establece una línea base simple pero efectiva para la generación de super-resolución de video en cascada, ofreciendo insights prácticos para guiar avances futuros en sistemas de síntesis en cascada eficientes.
La guía sin clasificador (Classifier-Free Guidance, CFG) se ha convertido en un componente esencial de los modelos modernos de difusión condicional. Aunque es altamente efectiva en la práctica, los mecanismos subyacentes mediante los cuales CFG mejora la calidad, el detalle y la alineación con el prompt no se comprenden completamente. Presentamos una perspectiva novedosa sobre CFG al analizar sus efectos en el dominio de la frecuencia, mostrando que las frecuencias bajas y altas tienen impactos distintos en la calidad de la generación. Específicamente, la guía de baja frecuencia gobierna la estructura global y la alineación con la condición, mientras que la guía de alta frecuencia mejora principalmente la fidelidad visual. Sin embargo, aplicar una escala uniforme en todas las frecuencias —como se hace en CFG estándar— conduce a una sobresaturación y una reducción de la diversidad en escalas altas, así como a una degradación de la calidad visual en escalas bajas. Basándonos en estas observaciones, proponemos la guía desacoplada por frecuencia (Frequency-Decoupled Guidance, FDG), un enfoque efectivo que descompone CFG en componentes de baja y alta frecuencia y aplica fuerzas de guía separadas a cada componente. FDG mejora la calidad de la imagen en escalas de guía bajas y evita los inconvenientes de las escalas altas de CFG por diseño. A través de experimentos exhaustivos en múltiples conjuntos de datos y modelos, demostramos que FDG mejora consistentemente la fidelidad de las muestras mientras preserva la diversidad, lo que resulta en una mejora del FID y el recall en comparación con CFG, estableciendo nuestro método como una alternativa plug-and-play a la guía sin clasificador estándar.
El cambio de código (CSW, por sus siglas en inglés) es el acto de alternar entre dos o más lenguajes dentro de un mismo discurso. Este fenómeno está ampliamente extendido en comunidades multilingües y es cada vez más frecuente en el contenido en línea, donde los usuarios mezclan idiomas de manera natural en su comunicación cotidiana. Como resultado, los Modelos de Lenguaje de Gran Escala (LLMs), que ahora son fundamentales para el procesamiento y generación de contenido, están frecuentemente expuestos a entradas con cambio de código. Dado su uso generalizado, es crucial comprender cómo los LLMs procesan y razonan sobre este tipo de texto multilingüe. Este artículo presenta una evaluación sistemática de la comprensión de los LLMs bajo el cambio de código, generando variantes CSW de benchmarks establecidos de razonamiento y comprensión. Si bien se observa una degradación cuando los tokens en idiomas extranjeros interrumpen el texto en inglés—incluso bajo restricciones lingüísticas—la incorporación del inglés en otros idiomas a menudo mejora la comprensión. Aunque el uso de prompts arroja resultados mixtos, el ajuste fino ofrece un camino más estable para mitigar la degradación.
Los modelos visión-lenguaje-acción (VLAs) han captado una atención significativa por su potencial para avanzar en la manipulación robótica. Sin embargo, enfoques previos dependen predominantemente de las capacidades de comprensión general de los modelos visión-lenguaje (VLMs) para generar señales de acción, a menudo pasando por alto la rica estructura temporal y causal incrustada en las observaciones visuales. En este artículo, presentamos UniVLA, un modelo VLA multimodal unificado y nativo que modela autoregresivamente las señales de visión, lenguaje y acción como secuencias de tokens discretos. Esta formulación permite un aprendizaje flexible de tareas multimodales, particularmente a partir de datos de video a gran escala. Al incorporar el modelado del mundo durante el post-entrenamiento, UniVLA captura dinámicas causales de los videos, facilitando una transferencia efectiva al aprendizaje de políticas descendentes, especialmente para tareas de largo horizonte. Nuestro enfoque establece nuevos resultados de vanguardia en varios puntos de referencia de simulación ampliamente utilizados, incluyendo CALVIN, LIBERO y Simplenv-Bridge, superando significativamente métodos anteriores. Por ejemplo, UniVLA logra una tasa de éxito promedio del 95.5% en el punto de referencia LIBERO, superando el 85.5% de pi0-FAST. Además, demostramos su amplia aplicabilidad en la manipulación del mundo real con ALOHA y la conducción autónoma.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) muestran potencial para automatizar tareas de análisis de datos, aunque los modelos de código abierto enfrentan limitaciones significativas en escenarios que requieren un razonamiento intensivo. En este trabajo, investigamos estrategias para mejorar las capacidades de análisis de datos de los LLMs de código abierto. Mediante la creación de un conjunto de datos inicial que abarca escenarios diversos y realistas, evaluamos los modelos en tres dimensiones: comprensión de datos, generación de código y planificación estratégica. Nuestro análisis revela tres hallazgos clave: (1) La calidad de la planificación estratégica es el principal determinante del rendimiento del modelo; (2) El diseño de la interacción y la complejidad de la tarea influyen significativamente en las capacidades de razonamiento; (3) La calidad de los datos tiene un impacto mayor que la diversidad para alcanzar un rendimiento óptimo. Aprovechamos estas conclusiones para desarrollar una metodología de síntesis de datos, demostrando mejoras significativas en las capacidades de razonamiento analítico de los LLMs de código abierto.
El aprendizaje auto-supervisado (SSL, por sus siglas en inglés) ha revolucionado las representaciones de audio, aunque los modelos suelen ser específicos de dominio, centrándose en tareas de habla o no habla. En este trabajo, presentamos la Distilación Universal de Habla y Audio (USAD, por sus siglas en inglés), un enfoque unificado para el aprendizaje de representaciones de audio que integra diversos tipos de audio —habla, sonido y música— en un solo modelo. USAD emplea una distilación eficiente de capa a capa a partir de modelos SSL específicos de dominio para entrenar un estudiante en un conjunto de datos de audio exhaustivo. USAD ofrece un rendimiento competitivo en varios benchmarks y conjuntos de datos, incluyendo tareas de procesamiento de habla a nivel de marco e instancia, etiquetado de audio y clasificación de sonidos, logrando resultados cercanos al estado del arte con un solo codificador en los benchmarks SUPERB y HEAR.
Los Modelos de Lenguaje de Gran Escala (LLMs), particularmente los modelos de pensamiento lento, suelen exhibir una grave alucinación, generando contenido incorrecto debido a su incapacidad para reconocer con precisión los límites del conocimiento durante el razonamiento. Si bien el Aprendizaje por Refuerzo (RL) puede mejorar las habilidades de razonamiento complejo, su mecanismo de recompensa orientado a resultados a menudo carece de supervisión factual sobre el proceso de pensamiento, lo que agrava aún más el problema de la alucinación. Para abordar la alta alucinación en los modelos de pensamiento lento, proponemos el RL mejorado con conocimiento, KnowRL. KnowRL guía a los modelos para realizar un pensamiento lento basado en hechos al integrar una recompensa de factualidad, basada en la verificación del conocimiento, en el proceso de entrenamiento de RL, ayudándoles a reconocer sus límites de conocimiento. Este enfoque de entrada factual específica durante el entrenamiento de RL permite que el modelo aprenda e internalice estrategias de razonamiento basadas en hechos. Al recompensar directamente la adherencia a los hechos dentro de los pasos de razonamiento, KnowRL fomenta un proceso de pensamiento más confiable. Los resultados experimentales en tres conjuntos de datos de evaluación de alucinación y dos conjuntos de datos de evaluación de razonamiento demuestran que KnowRL mitiga efectivamente las alucinaciones en los modelos de pensamiento lento mientras mantiene sus capacidades originales de razonamiento sólido. Nuestro código está disponible en https://github.com/zjunlp/KnowRL.
Este estudio explora la efectividad de los modelos de mantenimiento predictivo y la optimización de los sistemas inteligentes de Operación y Mantenimiento (O&M) para mejorar la eficiencia en la generación de energía eólica. A través de una investigación cualitativa, se realizaron entrevistas estructuradas a cinco ingenieros y gerentes de mantenimiento de parques eólicos, cada uno con amplia experiencia en operaciones de turbinas. Utilizando análisis temático, el estudio reveló que, aunque los modelos de mantenimiento predictivo reducen eficazmente el tiempo de inactividad al identificar fallas mayores, a menudo tienen dificultades para detectar fallos menores y graduales. Los desafíos clave identificados incluyen falsos positivos, mal funcionamiento de sensores y dificultades para integrar nuevos modelos con sistemas de turbinas más antiguos. Tecnologías avanzadas como gemelos digitales, sistemas SCADA y monitoreo de condición han mejorado significativamente las prácticas de mantenimiento de turbinas. Sin embargo, estas tecnologías aún requieren mejoras, particularmente en el refinamiento de la IA y la integración de datos en tiempo real. Los hallazgos enfatizan la necesidad de un desarrollo continuo para optimizar completamente el rendimiento de las turbinas eólicas y apoyar la adopción más amplia de energías renovables.
Los modelos de razonamiento destacan por generar largas cadenas de pensamiento, pero decodificar los miles de tokens resultantes es lento. La decodificación especulativa a nivel de token (SD, por sus siglas en inglés) ayuda, pero su beneficio está limitado, ya que la probabilidad de que una conjetura completa de gamma-tokens sea correcta disminuye exponencialmente a medida que gamma crece. Esto significa que asignar más capacidad de cómputo para borradores de tokens más largos enfrenta un límite algorítmico, lo que hace que la aceleración sea modesta e independiente del hardware. Elevamos este límite con el Razonamiento de Anticipación, que aprovecha una segunda capa de paralelismo a nivel de paso. Nuestra idea clave es que los modelos de razonamiento generan paso a paso, y cada paso solo necesita ser semánticamente correcto, no una coincidencia exacta de tokens. En el Razonamiento de Anticipación, un modelo de borrador ligero propone varios pasos futuros; el modelo objetivo expande cada propuesta en un solo paso por lotes, y un verificador mantiene los pasos semánticamente correctos mientras permite que el objetivo regenere los que fallen. La SD a nivel de token sigue operando dentro de cada paso de razonamiento, por lo que las dos capas de paralelismo se multiplican. Demostramos que el Razonamiento de Anticipación eleva la aceleración máxima de la SD tanto teórica como empíricamente. En los benchmarks de GSM8K, AIME y otros, el Razonamiento de Anticipación mejora la aceleración de la SD de 1.4x a 2.1x mientras preserva la calidad de las respuestas, y su aceleración escala mejor con un mayor rendimiento de GPU. Nuestro código está disponible en https://github.com/hao-ai-lab/LookaheadReasoning.
El ajuste fino ortogonal (OFT, por sus siglas en inglés) ofrece una adaptación altamente eficiente en términos de parámetros mientras previene el olvido catastrófico, pero sus altas demandas de tiempo de ejecución y memoria limitan su implementación práctica. Identificamos el cuello de botella computacional central en OFT como su implementación centrada en pesos, que depende de multiplicaciones matriz-matriz costosas con complejidad cúbica. Para superar esto, proponemos OFTv2, una reformulación centrada en entradas que, en su lugar, utiliza multiplicaciones matriz-vector (es decir, computación sin matrices), reduciendo el costo computacional a cuadrático. Además, introducimos la parametrización Cayley-Neumann, una parametrización ortogonal eficiente que aproxima la inversión de matrices en la transformación de Cayley mediante una serie de Neumann truncada. Estas modificaciones permiten que OFTv2 logre un entrenamiento hasta 10 veces más rápido y un uso de memoria GPU 3 veces menor sin comprometer el rendimiento. Adicionalmente, extendemos OFTv2 para admitir el ajuste fino de modelos base cuantizados y demostramos que supera al popular QLoRA en estabilidad de entrenamiento, eficiencia y uso de memoria.
La Navegación Visión-Lenguaje (VLN) en entornos urbanos a gran escala requiere que los agentes corporeizados fundamenten instrucciones lingüísticas en escenas complejas y recuerden experiencias relevantes a lo largo de horizontes temporales prolongados. Los enfoques modulares previos ofrecen interpretabilidad pero carecen de una memoria unificada, mientras que los agentes de extremo a extremo basados en (M)LLM sobresalen en fusionar visión y lenguaje, aunque siguen limitados por ventanas de contexto fijas y razonamiento espacial implícito. Presentamos Mem4Nav, un sistema jerárquico de memoria a corto y largo plazo para cognición espacial que puede potenciar cualquier arquitectura base de VLN. Mem4Nav combina un octree disperso para indexación de vóxeles de grano fino con un grafo topológico semántico para conectividad de puntos de referencia de alto nivel, almacenando ambos en tokens de memoria entrenables incrustados mediante un Transformer reversible. La memoria a largo plazo (LTM) comprime y retiene observaciones históricas tanto en los nodos del octree como del grafo, mientras que la memoria a corto plazo (STM) almacena en caché entradas multimodales recientes en coordenadas relativas para evitar obstáculos en tiempo real y planificación local. En cada paso, la recuperación de la STM reduce drásticamente el contexto dinámico, y, cuando se necesita un historial más profundo, los tokens de la LTM se decodifican sin pérdidas para reconstruir incrustaciones pasadas. Evaluado en Touchdown y Map2Seq con tres arquitecturas base (modular, VLN de última generación con LLM basado en prompts, y VLN de última generación con MLLM de atención segmentada), Mem4Nav logra mejoras de 7-13 puntos porcentuales en Completación de Tareas, reducción suficiente de SPD y una mejora de >10 pp en nDTW. Las ablaciones confirman la indispensabilidad tanto del mapa jerárquico como de los módulos de memoria dual. Nuestro código es de código abierto en https://github.com/tsinghua-fib-lab/Mem4Nav.