Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos Qwen3-Omni, un modelo multimodal único que, por primera vez, mantiene un rendimiento de vanguardia en texto, imagen, audio y video sin ninguna degradación en comparación con sus contrapartes unimodales. Qwen3-Omni iguala el rendimiento de los modelos unimodales del mismo tamaño dentro de la serie Qwen y destaca especialmente en tareas de audio. En 36 benchmarks de audio y audiovisuales, Qwen3-Omni alcanza el estado del arte (SOTA) en código abierto en 32 benchmarks y el SOTA general en 22, superando a modelos fuertes de código cerrado como Gemini-2.5-Pro, Seed-ASR y GPT-4o-Transcribe. Qwen3-Omni adopta una arquitectura Thinker-Talker MoE que unifica la percepción y la generación en texto, imágenes, audio y video, produciendo texto fluido y habla natural en tiempo real. Soporta interacción de texto en 119 idiomas, comprensión de habla en 19 idiomas y generación de habla en 10 idiomas. Para reducir la latencia del primer paquete en la síntesis en streaming, Talker predice de manera autoregresiva códecs de habla discretos utilizando un esquema de multicodebook. Aprovechando la capacidad representativa de estos codebooks, reemplazamos la difusión por bloques computacionalmente intensiva con una ConvNet causal ligera, permitiendo el streaming desde el primer frame del codec. En configuraciones de arranque en frío, Qwen3-Omni logra una latencia teórica de extremo a extremo del primer paquete de 234 ms. Para fortalecer aún más el razonamiento multimodal, introducimos un modelo Thinking que razona explícitamente sobre entradas de cualquier modalidad. Dado que la comunidad de investigación actualmente carece de un modelo de descripción de audio de propósito general, ajustamos Qwen3-Omni-30B-A3B para obtener Qwen3-Omni-30B-A3B-Captioner, que produce descripciones detalladas y con baja alucinación para entradas de audio arbitrarias. Qwen3-Omni-30B-A3B, Qwen3-Omni-30B-A3B-Thinking y Qwen3-Omni-30B-A3B-Captioner se publican bajo la licencia Apache 2.0.
Definimos Agencia como la capacidad emergente de los sistemas de IA para funcionar como agentes autónomos que descubren activamente problemas, formulan hipótesis y ejecutan soluciones mediante un compromiso autodirigido con entornos y herramientas. Esta capacidad fundamental marca el amanecer de la Era de la Agencia de la IA, impulsada por un cambio crítico en la industria: la necesidad urgente de sistemas de IA que no solo piensen, sino que trabajen. Si bien la IA actual sobresale en razonamiento y generación de respuestas, las industrias demandan agentes autónomos que puedan ejecutar tareas, operar herramientas y generar resultados en el mundo real. A medida que la inteligencia agentiva se convierte en la característica definitoria que separa los sistemas cognitivos de los trabajadores productivos, cultivar eficientemente la autonomía de las máquinas se vuelve primordial. Los enfoques actuales asumen que más datos producen mejor agencia, siguiendo las leyes de escalamiento tradicionales del modelado del lenguaje. Desafiamos fundamentalmente este paradigma. LIMI (Menos es Más para la Agencia Inteligente) demuestra que la agencia sigue principios de desarrollo radicalmente diferentes. A través de un enfoque estratégico en el desarrollo colaborativo de software y flujos de trabajo de investigación científica, mostramos que una inteligencia agentiva sofisticada puede emerger de demostraciones mínimas pero estratégicamente curadas de comportamiento autónomo. Utilizando solo 78 muestras de entrenamiento cuidadosamente diseñadas, LIMI alcanza un 73.5% en benchmarks integrales de agencia, superando drásticamente a los modelos más avanzados: Kimi-K2-Instruct (24.1%), DeepSeek-V3.1 (11.9%), Qwen3-235B-A22B-Instruct (27.5%) y GLM-4.5 (45.1%). Lo más sorprendente es que LIMI demuestra una mejora del 53.7% sobre modelos entrenados con 10,000 muestras, logrando una inteligencia agentiva superior con 128 veces menos muestras. Nuestros hallazgos establecen el Principio de Eficiencia de la Agencia: la autonomía de las máquinas emerge no de la abundancia de datos, sino de la curación estratégica de demostraciones agentivas de alta calidad.
Los recientes avances en la inserción de videos basados en modelos de difusión son impresionantes. Sin embargo, los métodos existentes dependen de señales de control complejas pero tienen dificultades con la consistencia del sujeto, lo que limita su aplicabilidad práctica. En este artículo, nos enfocamos en la tarea de Inserción de Videos sin Máscara y buscamos resolver tres desafíos clave: escasez de datos, equilibrio sujeto-escena y armonización de la inserción. Para abordar la escasez de datos, proponemos una nueva canalización de datos llamada InsertPipe, que construye automáticamente datos de pares cruzados diversos. Basándonos en nuestra canalización de datos, desarrollamos OmniInsert, un marco unificado novedoso para la inserción de videos sin máscara a partir de referencias de uno o varios sujetos. Específicamente, para mantener el equilibrio sujeto-escena, introducimos un mecanismo de Inyección de Características Específicas de Condición, simple pero efectivo, para inyectar distintivamente condiciones de múltiples fuentes, y proponemos una estrategia de Entrenamiento Progresivo que permite al modelo equilibrar la inyección de características de los sujetos y el video fuente. Además, diseñamos la Pérdida Enfocada en el Sujeto para mejorar la apariencia detallada de los sujetos. Para mejorar aún más la armonización de la inserción, proponemos una metodología de Optimización de Preferencias de Inserción para optimizar el modelo simulando preferencias humanas, e incorporamos un módulo de Reformulador Consciente del Contexto durante la referencia para integrar perfectamente el sujeto en las escenas originales. Para abordar la falta de un punto de referencia en el campo, presentamos InsertBench, un punto de referencia integral que comprende diversas escenas con sujetos meticulosamente seleccionados. La evaluación en InsertBench indica que OmniInsert supera a las soluciones comerciales de última generación de código cerrado. El código será liberado.
Presentamos Meta Agents Research Environments (ARE), una plataforma de investigación para la creación escalable de entornos, la integración de aplicaciones sintéticas o reales y la ejecución de orquestaciones agentivas. ARE proporciona abstracciones simples para construir entornos complejos y diversos, cada uno con sus propias reglas, herramientas, contenido y verificadores, ayudando a cerrar la brecha entre el desarrollo de modelos y su implementación en el mundo real. También proponemos Gaia2, un punto de referencia construido en ARE y diseñado para medir las capacidades generales de los agentes. Más allá de la búsqueda y la ejecución, Gaia2 requiere que los agentes manejen ambigüedades y ruido, se adapten a entornos dinámicos, colaboren con otros agentes y operen bajo restricciones temporales. A diferencia de los puntos de referencia anteriores, Gaia2 funciona de manera asíncrona, revelando nuevos modos de fallo que son invisibles en configuraciones estáticas. Nuestros experimentos muestran que ningún sistema domina en todo el espectro de inteligencia: un razonamiento más fuerte a menudo tiene un costo en eficiencia, y las curvas de escalado de presupuesto se estabilizan, destacando la necesidad de nuevas arquitecturas y estrategias de cómputo adaptativo. Quizás más importante aún, las abstracciones de ARE permiten la extensión continua de Gaia2 a otros entornos, empoderando a la comunidad para crear rápidamente nuevos puntos de referencia adaptados a sus dominios. En la segunda mitad de la IA, el progreso depende cada vez más de definir tareas significativas y evaluaciones robustas para impulsar las capacidades de vanguardia.
A pesar del creciente interés en replicar el éxito escalado de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) en los sistemas de búsqueda y recomendación industrial, la mayoría de los esfuerzos industriales existentes se limitan a trasplantar arquitecturas Transformer, lo que aporta solo mejoras incrementales sobre los sólidos Modelos de Recomendación con Aprendizaje Profundo (DLRMs, por sus siglas en inglés). Desde una perspectiva de principios fundamentales, los avances de los LLMs no solo provienen de sus arquitecturas, sino también de dos mecanismos complementarios: la ingeniería de contexto, que enriquece las consultas de entrada en bruto con señales contextuales para aprovechar mejor las capacidades del modelo, y el razonamiento de múltiples pasos, que refina iterativamente las salidas del modelo a través de caminos de razonamiento intermedios. Sin embargo, estos dos mecanismos y su potencial para desbloquear mejoras sustanciales siguen siendo en gran medida inexplorados en los sistemas de clasificación industrial. En este artículo, proponemos OnePiece, un marco unificado que integra de manera fluida la ingeniería de contexto y el razonamiento al estilo de los LLMs en los modelos de recuperación y clasificación de las tuberías en cascada industrial. OnePiece se construye sobre una arquitectura pura de Transformer e introduce tres innovaciones clave: (1) ingeniería de contexto estructurada, que enriquece el historial de interacción con señales de preferencia y escenario, y las unifica en una secuencia de entrada tokenizada estructurada tanto para la recuperación como para la clasificación; (2) razonamiento latente por bloques, que dota al modelo de un refinamiento de múltiples pasos de las representaciones y escala el ancho de banda del razonamiento mediante el tamaño del bloque; (3) entrenamiento multitarea progresivo, que aprovecha las cadenas de retroalimentación del usuario para supervisar eficazmente los pasos de razonamiento durante el entrenamiento. OnePiece ha sido implementado en el escenario principal de búsqueda personalizada de Shopee y logra ganancias consistentes en línea en diferentes métricas clave del negocio, incluyendo un aumento de más del +2% en GMV/UU y un incremento del +2.90% en los ingresos publicitarios.
Este artículo presenta TempSamp-R1, un nuevo marco de ajuste fino basado en aprendizaje por refuerzo diseñado para mejorar la eficacia de la adaptación de modelos de lenguaje multimodal de gran escala (MLLMs) a tareas de localización temporal en videos. Revelamos que los métodos existentes de aprendizaje por refuerzo, como la Optimización de Política Relativa de Grupo (GRPO), dependen del muestreo en política para actualizar la política. Sin embargo, en tareas con grandes espacios de búsqueda temporal, esta estrategia se vuelve ineficiente y limitada en rendimiento, ya que a menudo no logra identificar soluciones temporalmente precisas. Para abordar esta limitación, TempSamp-R1 aprovecha las anotaciones de verdad fundamental como supervisión fuera de política para proporcionar una guía temporalmente precisa, compensando efectivamente la escasez y la desalineación en las soluciones en política. Para estabilizar aún más el entrenamiento y reducir la varianza en las actualizaciones basadas en recompensas, TempSamp-R1 ofrece un método de cálculo no lineal de ventaja suave que remodela dinámicamente la retroalimentación de recompensa mediante una transformación asimétrica. Al emplear un paradigma de entrenamiento híbrido de Cadena de Pensamiento (CoT), TempSamp-R1 optimiza un único modelo unificado para admitir tanto modos de inferencia CoT como no CoT, permitiendo un manejo eficiente de consultas con diferentes niveles de complejidad de razonamiento. Los resultados experimentales demuestran que TempSamp-R1 supera a los baselines basados en GRPO, estableciendo un nuevo estado del arte en conjuntos de datos de referencia: Charades-STA (R1@0.7: 52.9%, +2.7%), ActivityNet Captions (R1@0.5: 56.0%, +5.3%) y QVHighlights (mAP: 30.0%, +3.0%). Además, TempSamp-R1 muestra capacidades robustas de generalización en pocos disparos con datos limitados. Código: https://github.com/HVision-NKU/TempSamp-R1
En este artículo, proponemos VideoFrom3D, un marco novedoso para sintetizar videos de escenas 3D de alta calidad a partir de geometría aproximada, una trayectoria de cámara y una imagen de referencia. Nuestro enfoque optimiza el flujo de trabajo de diseño gráfico 3D, permitiendo una exploración flexible del diseño y la producción rápida de entregables. Un enfoque directo para sintetizar un video a partir de geometría aproximada podría condicionar un modelo de difusión de video en la estructura geométrica. Sin embargo, los modelos de difusión de video existentes tienen dificultades para generar resultados de alta fidelidad en escenas complejas debido a la dificultad de modelar conjuntamente la calidad visual, el movimiento y la consistencia temporal. Para abordar esto, proponemos un marco generativo que aprovecha las fortalezas complementarias de los modelos de difusión de imágenes y videos. Específicamente, nuestro marco consta de un módulo de Generación de Vistas Ancla Dispersas (SAG, por sus siglas en inglés) y un módulo de Interpolación Generativa Guiada por Geometría (GGI). El módulo SAG genera vistas ancla de alta calidad y consistentes entre diferentes perspectivas utilizando un modelo de difusión de imágenes, asistido por Muestreo Guiado por Apariencia Dispersa. Basándose en estas vistas ancla, el módulo GGI interpola fielmente los fotogramas intermedios utilizando un modelo de difusión de video, mejorado por el control de cámara basado en flujo y la guía estructural. Cabe destacar que ambos módulos operan sin ningún conjunto de datos emparejados de modelos de escenas 3D e imágenes naturales, lo cual es extremadamente difícil de obtener. Experimentos exhaustivos muestran que nuestro método produce videos de escenas de alta calidad y con estilo consistente en diversos y desafiantes escenarios, superando a las líneas base simples y extendidas.
El aprendizaje por refuerzo en línea (RL, por sus siglas en inglés) ha sido fundamental para el ajuste posterior de modelos de lenguaje, pero su extensión a modelos de difusión sigue siendo un desafío debido a la intratabilidad de las verosimilitudes. Trabajos recientes discretizan el proceso de muestreo inverso para permitir entrenamiento al estilo GRPO, aunque heredan limitaciones fundamentales, como restricciones en los solucionadores, inconsistencia entre los procesos directo e inverso, y una integración complicada con la guía libre de clasificadores (CFG, por sus siglas en inglés). Presentamos Diffusion Negative-aware FineTuning (DiffusionNFT), un nuevo paradigma de RL en línea que optimiza modelos de difusión directamente en el proceso directo mediante emparejamiento de flujos. DiffusionNFT contrasta generaciones positivas y negativas para definir una dirección implícita de mejora de políticas, incorporando naturalmente señales de refuerzo en el objetivo de aprendizaje supervisado. Esta formulación permite entrenar con solucionadores de caja negra arbitrarios, elimina la necesidad de estimación de verosimilitud y requiere únicamente imágenes limpias en lugar de trayectorias de muestreo para la optimización de políticas. DiffusionNFT es hasta 25 veces más eficiente que FlowGRPO en comparaciones directas, además de ser libre de CFG. Por ejemplo, DiffusionNFT mejora la puntuación GenEval de 0.24 a 0.98 en menos de 1k pasos, mientras que FlowGRPO alcanza 0.95 con más de 5k pasos y el uso adicional de CFG. Al aprovechar múltiples modelos de recompensa, DiffusionNFT mejora significativamente el rendimiento de SD3.5-Medium en todos los puntos de referencia evaluados.
Presentamos SWE-Bench Pro, un benchmark sustancialmente más desafiante que se basa en las mejores prácticas de SWE-BENCH [25], pero que está explícitamente diseñado para capturar problemas realistas, complejos y de nivel empresarial que van más allá del alcance de SWE-BENCH. SWE-BENCH PRO contiene 1,865 problemas obtenidos de un conjunto diverso de 41 repositorios activamente mantenidos que abarcan aplicaciones empresariales, servicios B2B y herramientas para desarrolladores. El benchmark está dividido en un conjunto público con acceso abierto a problemas obtenidos de 11 repositorios, un conjunto reservado de 12 repositorios y un conjunto comercial de 18 repositorios propietarios donde tenemos acuerdos formales de colaboración con startups en etapas iniciales. Los problemas en el conjunto reservado y el conjunto comercial no son accesibles públicamente, pero publicamos resultados sobre el conjunto comercial. Nuestro benchmark incluye tareas de largo plazo que pueden requerir horas o días para que un ingeniero de software profesional las complete, a menudo involucrando parches en múltiples archivos y modificaciones sustanciales de código. Todas las tareas están verificadas por humanos y complementadas con suficiente contexto para garantizar su resolución. En nuestra evaluación de modelos de codificación ampliamente utilizados, bajo un esquema unificado, observamos que su rendimiento en SWE-Bench PRO se mantiene por debajo del 25% (Pass@1), con GPT-5 logrando la puntuación más alta hasta la fecha con un 23.3%. Para comprender mejor estas limitaciones, agrupamos los modos de fallo observados en las trayectorias de los agentes recopiladas, obteniendo una caracterización más clara de los patrones de error exhibidos por los modelos actuales. En general, SWE-BENCH PRO proporciona un entorno de prueba resistente a la contaminación que captura de manera más fiel la complejidad y diversidad del desarrollo de software en el mundo real, avanzando en la búsqueda de agentes de ingeniería de software verdaderamente autónomos a nivel profesional.
Los recientes avances en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han ampliado las longitudes de contexto, permitiendo que los asistentes mantengan historiales extensos para generar respuestas coherentes y personalizadas. Sin embargo, esta capacidad depende del almacenamiento en caché de clave-valor (KV), cuya memoria crece linealmente con la longitud del diálogo y rápidamente domina bajo restricciones estrictas de recursos. Una línea de investigación activa para reducir esta sobrecarga es la compresión de la caché KV, que busca limitar el tamaño de la caché mientras preserva la precisión. No obstante, los métodos existentes enfrentan dos limitaciones principales: (i) la eliminación de entradas después del prellenado de contexto completo causa un pico de memoria ilimitado, y (ii) la eliminación dependiente de la consulta reduce la caché a una sola consulta, lo que lleva a una precisión degradada en conversaciones de múltiples turnos. Presentamos EpiCache, un marco de gestión de caché KV sin entrenamiento para preguntas y respuestas conversacionales largas (LongConvQA) bajo presupuestos de memoria fijos. EpiCache limita el crecimiento de la caché mediante prellenado por bloques y preserva el contexto relevante del tema mediante compresión episódica de KV, que agrupa el historial de la conversación en episodios coherentes y aplica la eliminación de caché KV específica para cada episodio. Además, diseñamos una estrategia de asignación de presupuesto adaptativa por capas que mide la sensibilidad de cada capa a la eliminación y distribuye el presupuesto de memoria en consecuencia. En tres puntos de referencia de LongConvQA, EpiCache mejora la precisión hasta en un 40 % sobre las líneas base recientes, mantiene una precisión de KV casi completa bajo compresiones de 4-6x, y reduce la latencia y la memoria hasta en 2.4x y 3.5x, permitiendo así una interacción eficiente de múltiples turnos bajo restricciones estrictas de recursos.
Los recientes avances en el aprendizaje por refuerzo (RL, por sus siglas en inglés) han mejorado las capacidades de razonamiento de los modelos de lenguaje grandes (LLMs), pero su impacto en los modelos de lenguaje multimodal (MLLMs) es limitado. Particularmente en tareas intensivas en visión, como el razonamiento geométrico, los MLLMs tienden a alucinar con frecuencia, lo que lleva a un razonamiento impreciso. Atribuimos esto al cuello de botella perceptivo en los MLLMs, que limita los beneficios del entrenamiento en razonamiento. Para cuantificar esto, diseñamos un benchmark de Preguntas y Respuestas de Percepción Geométrica (GeoPQA), enfocado en conceptos geométricos básicos y relaciones espaciales. Los experimentos en GeoPQA revelan deficiencias significativas de los MLLMs en percepción visual, lo que restringe las señales de recompensa del RL para un entrenamiento efectivo. Para abordar este cuello de botella, proponemos un marco de entrenamiento de RL en dos etapas: primero mejorando la percepción visual de estructuras geométricas y luego fomentando las capacidades de razonamiento. Aplicado a Qwen2.5-VL-3B-Instruct, nuestro entrenamiento en dos etapas mejora el razonamiento geométrico en un 9.7% y la resolución de problemas geométricos en un 9.1%, en comparación con el enfoque de entrenamiento directo en razonamiento. Nuestro método también se generaliza a otros dominios intensivos en visión, como la comprensión de figuras, destacando la importancia de la base perceptiva en el razonamiento efectivo de los MLLMs.
Este artículo presenta ByteWrist, una novedosa muñeca paralela altamente flexible y antropomórfica para manipulación robótica. ByteWrist aborda las limitaciones críticas de las muñecas seriales y paralelas existentes en operaciones en espacios reducidos mediante un mecanismo de accionamiento paralelo compacto de tres etapas integrado con enlaces finales en forma de arco. El diseño logra un movimiento preciso de RPY (Roll-Pitch-Yaw) mientras mantiene una excepcional compacidad, lo que lo hace particularmente adecuado para entornos complejos no estructurados, como servicios domésticos, asistencia médica y ensamblaje de precisión. Las innovaciones clave incluyen: (1) enlaces motorizados anidados de tres etapas que minimizan el volumen mientras permiten un control multi-DOF independiente, (2) enlaces finales en forma de arco que optimizan la transmisión de fuerza y amplían el rango de movimiento, y (3) una bola de soporte central que funciona como una junta esférica y mejora la rigidez estructural sin comprometer la flexibilidad. Además, presentamos un modelo cinemático completo que incluye cinemática directa/inversa y una solución numérica del Jacobiano para un control preciso. Empíricamente, observamos que ByteWrist demuestra un fuerte rendimiento en maniobrabilidad en espacios reducidos y tareas de manipulación cooperativa con brazos duales, superando a los sistemas basados en Kinova. Los resultados indican mejoras significativas en compacidad, eficiencia y rigidez en comparación con diseños tradicionales, estableciendo a ByteWrist como una solución prometedora para la manipulación robótica de próxima generación en entornos restringidos.
Realizamos una evaluación a escala moderada y, en cierta medida, libre de contaminación de los modelos actuales de razonamiento a gran escala (LRMs, por sus siglas en inglés), con algunos hallazgos preliminares. También presentamos ROME, nuestro punto de referencia de evaluación para modelos de lenguaje visual diseñado para probar el razonamiento a partir de pistas visuales. Adjuntamos enlaces al punto de referencia, los datos de evaluación y otras actualizaciones en este sitio web: https://flageval-baai.github.io/LRM-Eval/.
Los modelos de lenguaje de gran escala (LLMs) adquieren un conocimiento sustancial del mundo durante el preentrenamiento, el cual es posteriormente moldeado por técnicas de posentrenamiento como el ajuste fino supervisado (SFT). Sin embargo, el impacto del SFT en el conocimiento de un modelo sigue siendo poco explorado, lo que limita nuestra capacidad para controlar el comportamiento de cambio de conocimiento en modelos ajustados. Para abordar esta brecha, evaluamos el rendimiento en tareas de respuesta a preguntas de libro cerrado (CBQA) en cinco LLMs de las familias LLaMA-2 y LLaMA-3. Sorprendentemente, los modelos ajustados con 1,920 muestras obtienen un rendimiento hasta un 14% peor que aquellos ajustados con solo 240 muestras. Además, variar el nivel de dominio del conocimiento en los datos de ajuste fino provoca fluctuaciones en el rendimiento de más del 12%. Para investigar estos efectos, analizamos el comportamiento del modelo tanto a nivel de tokens como de parámetros. Nuestro análisis revela que hasta el 90% de las actualizaciones de parámetros durante el SFT no contribuyen a la mejora del conocimiento. Restaurar estas actualizaciones puede mejorar el rendimiento en la tarea CBQA, dependiendo de las características de los datos de ajuste fino. Estas observaciones ofrecen una guía práctica para desarrollar estrategias de ajuste fino que fortalezcan de manera más efectiva el conocimiento del modelo.
Los desarrolladores de modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) buscan que sus modelos sean honestos, útiles e inofensivos. Sin embargo, al enfrentarse a solicitudes maliciosas, los modelos están entrenados para rechazarlas, sacrificando su utilidad. Demostramos que los LLM de vanguardia pueden desarrollar una preferencia por la deshonestidad como una nueva estrategia, incluso cuando hay otras opciones disponibles. Los modelos afectados responden a solicitudes dañinas con salidas que parecen perjudiciales pero que, en la práctica, son sutilmente incorrectas o inofensivas. Este comportamiento surge con variaciones difíciles de predecir, incluso dentro de modelos de la misma familia. No encontramos una causa aparente para esta propensión a engañar, pero demostramos que los modelos más capaces son mejores ejecutando esta estrategia. La deshonestidad estratégica ya tiene un impacto práctico en las evaluaciones de seguridad, ya que mostramos que las respuestas deshonestas engañan a todos los monitores basados en salidas que probamos para detectar jailbreaks, lo que hace que los puntajes de referencia sean poco confiables. Además, la deshonestidad estratégica puede actuar como una trampa contra usuarios maliciosos, lo que oscurece notablemente los ataques de jailbreak previos. Mientras que los monitores de salida fallan, demostramos que las sondas lineales en las activaciones internas pueden usarse para detectar de manera confiable la deshonestidad estratégica. Validamos las sondas en conjuntos de datos con resultados verificables y utilizando sus características como vectores de dirección. En general, consideramos la deshonestidad estratégica como un ejemplo concreto de una preocupación más amplia: que la alineación de los LLM es difícil de controlar, especialmente cuando la utilidad y la inofensividad entran en conflicto.
La demanda de implementación eficiente de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) ha impulsado el interés en la cuantización, que reduce el costo de inferencia, y en el ajuste fino eficiente en parámetros (PEFT, por sus siglas en inglés), que disminuye la sobrecarga del entrenamiento. Esto ha motivado el desarrollo de PEFT consciente de la cuantización para producir modelos cuantizados precisos y eficientes. En este contexto, reducir el error de cuantización antes del ajuste fino es crucial para lograr una alta precisión del modelo. Sin embargo, los métodos existentes que dependen de la adaptación de bajo rango sufren de una capacidad de representación limitada. Los adaptadores basados en transformadas relacionadas con Fourier (FT, por sus siglas en inglés) ofrecen un mayor poder de representación que los adaptadores de bajo rango, pero su integración directa en modelos cuantizados a menudo resulta en una reducción ineficaz del error y un aumento de la sobrecarga computacional. Para superar estas limitaciones, proponemos QWHA, un método que integra adaptadores basados en FT en modelos cuantizados empleando la Transformada de Walsh-Hadamard (WHT, por sus siglas en inglés) como núcleo de transformación, junto con un novedoso esquema de inicialización de adaptadores que incorpora selección adaptativa de parámetros y refinamiento de valores. Demostramos que QWHA mitiga eficazmente los errores de cuantización mientras facilita el ajuste fino, y que su diseño reduce sustancialmente el costo computacional. Los resultados experimentales muestran que QWHA supera consistentemente a los métodos de referencia en precisión de cuantización de bajo bit y logra aceleraciones significativas en el entrenamiento en comparación con los adaptadores basados en FT existentes. El código está disponible en https://github.com/vantaa89/qwha.
Las interfaces gráficas de usuario (GUI) son el principal medio de interacción entre humanos y computadoras, sin embargo, automatizar las interacciones con GUI sigue siendo un desafío debido a la complejidad de los elementos visuales, los entornos dinámicos y la necesidad de razonamiento en múltiples pasos. Los métodos existentes basados en modelos de visión y lenguaje (VLMs) a menudo presentan limitaciones en la resolución, desajustes de dominio y capacidades insuficientes para la toma de decisiones secuenciales. Para abordar estos problemas, proponemos Mano, un agente de GUI robusto construido sobre un modelo base multimodal preentrenado con datos extensos de la web y sistemas informáticos. Nuestro enfoque integra un entorno simulado novedoso para la generación de datos de alta fidelidad, una canalización de entrenamiento en tres etapas (ajuste fino supervisado, aprendizaje por refuerzo fuera de línea y aprendizaje por refuerzo en línea) y un módulo de verificación para la recuperación de errores. Mano demuestra un rendimiento de vanguardia en múltiples benchmarks de GUI, incluyendo Mind2Web y OSWorld, logrando mejoras significativas en la tasa de éxito y la precisión operativa. Nuestro trabajo aporta nuevas perspectivas sobre la integración efectiva del aprendizaje por refuerzo con VLMs para el despliegue práctico de agentes de GUI, destacando la importancia de los datos específicos del dominio, el entrenamiento iterativo y el diseño holístico de recompensas.
Introducimos el Pretrenamiento con Arranque Sintético (SBP, por sus siglas en inglés), un procedimiento de pretrenamiento para modelos de lenguaje (LM) que primero aprende un modelo de relaciones entre documentos del conjunto de datos de pretrenamiento y luego lo aprovecha para sintetizar un vasto nuevo corpus para entrenamiento conjunto. Mientras que el pretrenamiento estándar enseña a los LM a aprender correlaciones causales entre tokens dentro de un solo documento, no está diseñado para modelar eficientemente las ricas y aprendibles correlaciones interdocumentales que podrían potencialmente conducir a un mejor rendimiento. Validamos SBP diseñando una configuración de pretrenamiento equiparada en términos de cómputo y preentrenamos un modelo de 3 mil millones de parámetros desde cero con hasta 1 billón de tokens. Encontramos que SBP mejora consistentemente una línea base fuerte de repetición y proporciona una fracción significativa de la mejora de rendimiento alcanzable por un límite superior oráculo con acceso a 20 veces más datos únicos. El análisis cualitativo revela que los documentos sintetizados van más allá de meras paráfrasis: SBP primero abstrae un concepto central del material de origen y luego elabora una nueva narración sobre él. Además de un fuerte rendimiento empírico, SBP admite una interpretación bayesiana natural: el sintetizador aprende implícitamente a abstraer los conceptos latentes compartidos entre documentos relacionados.
Los modelos universales de embeddings multimodales han logrado un gran éxito en capturar la relevancia semántica entre consultas y candidatos. Sin embargo, los métodos actuales o bien condensan las consultas y los candidatos en un solo vector, lo que potencialmente limita la expresividad para información detallada, o producen demasiados vectores que resultan prohibitivamente costosos para la recuperación multi-vector. En este trabajo, presentamos MetaEmbed, un nuevo marco para la recuperación multimodal que replantea cómo se construyen e interactúan los embeddings multimodales a gran escala. Durante el entrenamiento, se añade un número fijo de Meta Tokens aprendibles a la secuencia de entrada. En el momento de la prueba, sus representaciones contextualizadas de la última capa sirven como embeddings multi-vector compactos pero expresivos. A través del entrenamiento propuesto de Recuperación Multi-Vector Matryoshka, MetaEmbed aprende a organizar la información por granularidad en múltiples vectores. Como resultado, habilitamos la escalabilidad en tiempo de prueba en la recuperación multimodal, donde los usuarios pueden equilibrar la calidad de la recuperación con las demandas de eficiencia seleccionando el número de tokens utilizados para la indexación y las interacciones de recuperación. Evaluaciones exhaustivas en el Massive Multimodal Embedding Benchmark (MMEB) y el Visual Document Retrieval Benchmark (ViDoRe) confirman que MetaEmbed alcanza un rendimiento de recuperación de vanguardia mientras escala robustamente a modelos con 32B parámetros.
La edición de objetos en vídeo sin entrenamiento tiene como objetivo lograr una manipulación precisa a nivel de objetos, incluyendo la inserción, intercambio y eliminación de objetos. Sin embargo, enfrenta desafíos significativos para mantener la fidelidad y la consistencia temporal. Los métodos existentes, a menudo diseñados para arquitecturas U-Net, presentan dos limitaciones principales: la inversión inexacta debido a solucionadores de primer orden y los conflictos contextuales causados por el reemplazo crudo y "rígido" de características. Estos problemas son más desafiantes en los Transformadores de Difusión (DiTs), donde la inadecuación de las heurísticas previas de selección de capas dificulta la guía efectiva. Para abordar estas limitaciones, presentamos ContextFlow, un marco novedoso sin entrenamiento para la edición de objetos en vídeo basado en DiT. En detalle, primero empleamos un solucionador de Flujo Rectificado de alto orden para establecer una base sólida de edición. El núcleo de nuestro marco es el Enriquecimiento Contextual Adaptativo (para especificar qué editar), un mecanismo que aborda los conflictos contextuales. En lugar de reemplazar características, enriquece el contexto de auto-atención concatenando pares Clave-Valor de las rutas de reconstrucción y edición paralelas, permitiendo que el modelo fusione información de manera dinámica. Además, para determinar dónde aplicar este enriquecimiento (para especificar dónde editar), proponemos un análisis sistemático basado en datos para identificar las capas vitales específicas de la tarea. Basado en una nueva Métrica de Capacidad de Respuesta a la Guía, nuestro método identifica los bloques DiT más influyentes para diferentes tareas (por ejemplo, inserción, intercambio), permitiendo una guía dirigida y altamente efectiva. Experimentos extensos muestran que ContextFlow supera significativamente los métodos existentes sin entrenamiento e incluso supera varios enfoques de última generación basados en entrenamiento, ofreciendo resultados temporalmente coherentes y de alta fidelidad.
La adopción generalizada de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) se ha visto obstaculizada por su tendencia a alucinar, generando información plausible pero factualmente incorrecta. Aunque los sistemas de Generación Aumentada con Recuperación (RAG, por sus siglas en inglés) intentan abordar este problema al fundamentar las respuestas en conocimiento externo, la alucinación sigue siendo un desafío persistente, particularmente para lenguas morfológicamente complejas y de bajos recursos, como el turco. Este artículo presenta Turk-LettuceDetect, el primer conjunto de modelos de detección de alucinaciones específicamente diseñado para aplicaciones RAG en turco. Basándonos en el marco LettuceDetect, formulamos la detección de alucinaciones como una tarea de clasificación a nivel de tokens y ajustamos tres arquitecturas de codificadores distintas: un ModernBERT específico para turco, TurkEmbed4STS y un EuroBERT multilingüe. Estos modelos se entrenaron en una versión traducida automáticamente del conjunto de datos de referencia RAGTruth, que contiene 17,790 instancias en tareas de respuesta a preguntas, generación de texto a partir de datos y resúmenes. Nuestros resultados experimentales muestran que el modelo basado en ModernBERT alcanza un puntaje F1 de 0.7266 en el conjunto de pruebas completo, con un rendimiento particularmente fuerte en tareas estructuradas. Los modelos mantienen la eficiencia computacional mientras admiten contextos largos de hasta 8,192 tokens, lo que los hace adecuados para su implementación en tiempo real. Un análisis comparativo revela que, aunque los LLMs de última generación demuestran una alta recuperación, sufren de baja precisión debido a la sobre-generación de contenido alucinado, subrayando la necesidad de mecanismos de detección especializados. Al liberar nuestros modelos y el conjunto de datos traducido, este trabajo aborda una brecha crítica en el Procesamiento del Lenguaje Natural (PLN) multilingüe y establece una base para desarrollar aplicaciones de IA más confiables y seguras para el turco y otros idiomas.
La atención cruzada es un mecanismo central en las arquitecturas codificador-decodificador, ampliamente utilizado en diversos campos, incluido el procesamiento de voz a texto (S2T). Sus puntuaciones se han reutilizado para diversas aplicaciones posteriores, como la estimación de marcas de tiempo y la alineación audio-texto, bajo la suposición de que reflejan las dependencias entre la representación de la voz de entrada y el texto generado. Si bien la naturaleza explicativa de los mecanismos de atención ha sido ampliamente debatida en la literatura más amplia de PLN, esta suposición sigue siendo en gran medida inexplorada en el dominio del habla. Para abordar esta brecha, evaluamos el poder explicativo de la atención cruzada en modelos S2T comparando sus puntuaciones con mapas de relevancia de entrada derivados de la atribución de características. Nuestro análisis abarca modelos monolingües y multilingües, de tarea única y multitarea, a múltiples escalas, y muestra que las puntuaciones de atención se alinean moderada o fuertemente con las explicaciones basadas en relevancia, particularmente cuando se agregan a través de cabezas y capas. Sin embargo, también muestra que la atención cruzada captura solo alrededor del 50% de la relevancia de la entrada y, en el mejor de los casos, solo refleja parcialmente cómo el decodificador atiende a las representaciones del codificador, representando solo el 52-75% de la relevancia. Estos hallazgos revelan limitaciones fundamentales en la interpretación de la atención cruzada como un proxy explicativo, sugiriendo que ofrece una visión informativa pero incompleta de los factores que impulsan las predicciones en los modelos S2T.
La escalabilidad de los modelos de recomendación hacia modelos de recomendación de gran escala se ha convertido en uno de los temas más discutidos. Los esfuerzos recientes se centran en componentes más allá de la dimensión de los embeddings escalados, ya que se cree que escalar los embeddings puede llevar a una degradación del rendimiento. Aunque se han realizado algunas observaciones iniciales sobre los embeddings, la causa raíz de su falta de escalabilidad sigue siendo poco clara. Además, si la degradación del rendimiento ocurre en diferentes tipos de modelos y conjuntos de datos sigue siendo un área inexplorada. Respecto al efecto de las dimensiones de los embeddings en el rendimiento, realizamos experimentos a gran escala en 10 conjuntos de datos con distintos niveles de dispersión y escalas, utilizando 4 arquitecturas clásicas representativas. Sorprendentemente, observamos dos fenómenos novedosos: el de doble pico y el logarítmico. En el primero, a medida que aumenta la dimensión del embedding, el rendimiento primero mejora, luego disminuye, vuelve a aumentar y finalmente cae. En el segundo, se exhibe una curva logarítmica perfecta. Nuestras contribuciones son tres. Primero, descubrimos dos fenómenos novedosos al escalar modelos de filtrado colaborativo. Segundo, comprendemos las causas subyacentes del fenómeno de doble pico. Por último, analizamos teóricamente la robustez al ruido de los modelos de filtrado colaborativo, con resultados que coinciden con las observaciones empíricas.
Los recientes avances en los Modelos Multimodales de Gran Escala (LMMs, por sus siglas en inglés) han demostrado su notable éxito como asistentes multimodales de propósito general, con un enfoque particular en la comprensión holística de imágenes, videos y lenguaje. Por el contrario, se ha prestado menos atención a la escalabilidad de las capacidades de comprensión a nivel de píxeles, donde se espera que los modelos logren una alineación a nivel de píxeles entre las señales visuales y la semántica del lenguaje. Algunos estudios previos han aplicado LMMs a tareas relacionadas, como la generación de descripciones a nivel de región y la segmentación de expresiones referenciales. Sin embargo, estos modelos se limitan a realizar tareas de referencia o segmentación de manera independiente y no logran integrar estas capacidades de percepción detallada en el razonamiento visual. Para cerrar esta brecha, proponemos UniPixel, un modelo multimodal de gran escala capaz de comprender de manera flexible entradas de indicaciones visuales y generar respuestas basadas en máscaras. Nuestro modelo se distingue por integrar de manera fluida la percepción a nivel de píxeles con capacidades generales de comprensión visual. Específicamente, UniPixel procesa indicaciones visuales y genera máscaras relevantes bajo demanda, y realiza un razonamiento posterior condicionado a estos indicadores intermedios durante la inferencia, lo que permite un razonamiento detallado a nivel de píxeles. La efectividad de nuestro enfoque ha sido verificada en 10 benchmarks que abarcan un conjunto diverso de tareas, incluyendo referencia/segmentación a nivel de píxeles y comprensión centrada en objetos en imágenes/videos. También se ha diseñado una nueva tarea llamada PixelQA, que requiere conjuntamente referencia, segmentación y respuesta a preguntas, para verificar la flexibilidad de nuestro método.
Presentamos Reasoning Core, un nuevo entorno escalable para Aprendizaje por Refuerzo con Recompensas Verificables (RLVR), diseñado para avanzar en el razonamiento simbólico fundamental en Modelos de Lenguaje a Gran Escala (LLMs). A diferencia de los puntos de referencia existentes que se centran en juegos o acertijos aislados, Reasoning Core genera de manera procedimental problemas en dominios formales clave, incluyendo planificación PDDL, lógica de primer orden, análisis gramatical libre de contexto, razonamiento causal y resolución de ecuaciones de sistemas. El entorno se basa en principios de diseño fundamentales como distribuciones de problemas de alta generalidad, verificación mediante herramientas externas y control continuo de la dificultad, lo que en conjunto proporciona un suministro prácticamente infinito de instancias de entrenamiento novedosas. Las evaluaciones iniciales zero-shot con LLMs de vanguardia confirman la dificultad de las tareas de Reasoning Core, posicionándolo como un recurso prometedor para mejorar las capacidades de razonamiento de futuros modelos.
Los vehículos autónomos más avanzados actualmente podrían enfrentar situaciones críticas de seguridad cuando sus sensores locales se ven obstruidos por objetos grandes cercanos en la carretera. La conducción autónoma cooperativa entre vehículos (V2V) se ha propuesto como una solución a este problema, y un marco recientemente introducido para la conducción autónoma cooperativa ha adoptado un enfoque que incorpora un Modelo de Lenguaje Multimodal de Gran Escala (MLLM) para integrar los procesos de percepción y planificación cooperativos. Sin embargo, a pesar del beneficio potencial de aplicar el razonamiento basado en grafos de pensamientos al MLLM, esta idea no ha sido considerada por investigaciones previas sobre conducción autónoma cooperativa. En este artículo, proponemos un marco novedoso de grafos de pensamientos específicamente diseñado para la conducción autónoma cooperativa basada en MLLM. Nuestro grafo de pensamientos incluye nuestras ideas novedosas de percepción consciente de la oclusión y predicción consciente de la planificación. Creamos el conjunto de datos V2V-GoT-QA y desarrollamos el modelo V2V-GoT para entrenar y probar el grafo de pensamientos de conducción cooperativa. Nuestros resultados experimentales muestran que nuestro método supera a otras líneas base en tareas de percepción, predicción y planificación cooperativas.
La seguridad y la alineación de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) son fundamentales para su implementación responsable. Los métodos de evaluación actuales se centran principalmente en identificar y prevenir resultados abiertamente dañinos. Sin embargo, a menudo no abordan un modo de fallo más insidioso: modelos que producen resultados aparentemente benignos mientras operan con un razonamiento interno malicioso o engañoso. Esta vulnerabilidad, frecuentemente desencadenada por inyecciones sofisticadas de instrucciones en el sistema, permite que los modelos eludan los filtros de seguridad convencionales, representando un riesgo significativo y poco explorado. Para abordar esta brecha, presentamos el Conjunto de Exposición de Razonamiento Engañoso (D-REX, por sus siglas en inglés), un nuevo conjunto de datos diseñado para evaluar la discrepancia entre el proceso de razonamiento interno de un modelo y su resultado final. D-REX fue construido mediante un ejercicio competitivo de "equipo rojo", donde los participantes elaboraron instrucciones adversarias en el sistema para inducir comportamientos engañosos. Cada muestra en D-REX contiene la instrucción adversaria en el sistema, una consulta de prueba del usuario final, la respuesta aparentemente inocua del modelo y, crucialmente, la cadena de pensamiento interna del modelo, que revela la intención maliciosa subyacente. Nuestro punto de referencia facilita una nueva tarea de evaluación esencial: la detección de alineación engañosa. Demostramos que D-REX representa un desafío significativo para los modelos y mecanismos de seguridad existentes, destacando la urgente necesidad de nuevas técnicas que examinen los procesos internos de los LLMs, no solo sus resultados finales.
Incluso sin escuchar sonidos directamente, los humanos pueden razonar sin esfuerzo sobre propiedades auditivas, como el tono, el volumen o las asociaciones de fuentes sonoras, basándose en el sentido común auditivo. En contraste, los modelos de lenguaje a menudo carecen de esta capacidad, lo que limita su efectividad en interacciones multimodales. Como un primer paso para abordar esta brecha, presentamos AuditoryBench++, un benchmark integral para evaluar el conocimiento y el razonamiento auditivo en entornos basados únicamente en texto. El benchmark abarca tareas que van desde comparaciones auditivas básicas hasta razonamientos contextualmente fundamentados, permitiendo un análisis detallado de cómo los modelos procesan e integran conceptos auditivos. Además, introducimos AIR-CoT, un novedoso método de razonamiento de imaginación auditiva que genera e integra información auditiva durante la inferencia mediante la detección de segmentos con tokens especiales y la inyección de conocimiento. Experimentos extensos con modelos de lenguaje recientes (LLMs) y modelos de lenguaje multimodales (Multimodal LLMs) demuestran que AIR-CoT generalmente supera tanto a los modelos estándar como a aquellos aumentados con conocimiento auditivo. La página del proyecto está disponible en https://auditorybenchpp.github.io.
En este artículo, abordamos los desafíos asociados con la fusión de adaptaciones de bajo rango en redes neuronales grandes. Con el auge de las técnicas de adaptación eficientes en parámetros, como la Adaptación de Bajo Rango (LoRA), el ajuste fino de modelos se ha vuelto más accesible. Si bien el ajuste fino de modelos con LoRA es altamente eficiente, los métodos de fusión existentes a menudo sacrifican esta eficiencia al fusionar matrices de pesos de tamaño completo. Proponemos el marco de fusión Espacio Central (Core Space), que permite la fusión de modelos adaptados con LoRA dentro de una base de alineación común, preservando así la eficiencia de la adaptación de bajo rango mientras se mejora sustancialmente la precisión en diversas tareas. Además, proporcionamos una prueba formal de que la proyección en el Espacio Central garantiza que no se pierda información y presentamos un análisis de complejidad que muestra las ganancias en eficiencia. Los resultados empíricos extensos demuestran que Espacio Central mejora significativamente las técnicas de fusión existentes y logra resultados de vanguardia tanto en tareas de visión como de lenguaje, utilizando una fracción de los recursos computacionales. El código está disponible en https://github.com/apanariello4/core-space-merging.
El Aprendizaje por Refuerzo ha surgido como la técnica fundamental para mejorar el razonamiento en los LLMs (Modelos de Lenguaje de Gran Escala). Sin embargo, los algoritmos existentes aplican una optimización uniforme a todos los tokens, ignorando sus diferentes roles en el proceso de razonamiento. Para abordar esta limitación, presentamos la Optimización de Política Adaptativa Heterogénea (HAPO), un algoritmo integral consciente de los tokens que se adapta dinámicamente a la optimización basada en la entropía de los tokens. Para el muestreo de rollouts, proponemos el Muestreo de Temperatura Adaptativa, que ajusta la temperatura de muestreo en tiempo real, promoviendo la exploración en tokens de alta entropía mientras preserva la coherencia en aquellos de baja entropía. Para el cálculo de ventajas, introducimos el Promedio Grupal a Nivel de Token, que normaliza las ventajas a nivel de token, considerando conjuntamente la longitud de la secuencia como en la pérdida de media por token, mientras mantiene un tratamiento no sesgado. Luego desarrollamos la Redistribución Diferencial de Ventajas, que aprovecha la entropía y las razones de importancia para modular las actualizaciones de recompensas, ajustándolas para tokens con señales claras. Para la pérdida de recorte, diseñamos el Recorte Adaptativo Asimétrico, permitiendo una reducción agresiva de probabilidad para tokens ruidosos de baja entropía, mientras habilita la exploración para tokens de alta entropía. A través de una investigación sistemática entre la entropía y la dinámica de entrenamiento, hemos integrado el tratamiento a nivel de token en cada etapa para lograr un control de grano fino. Experimentos extensivos demuestran que HAPO supera consistentemente a DAPO en múltiples escalas de modelos. Nuestro código se puede encontrar en https://github.com/starriver030515/HAPO.
Los conflictos de licencias ocultos en el ecosistema de IA de código abierto representan riesgos legales y éticos graves, exponiendo a las organizaciones a posibles litigios y a los usuarios a riesgos no revelados. Sin embargo, el campo carece de una comprensión basada en datos sobre la frecuencia con la que ocurren estos conflictos, su origen y qué comunidades son las más afectadas. Presentamos la primera auditoría integral de licencias para conjuntos de datos y modelos en Hugging Face, así como su integración descendente en aplicaciones de software de código abierto, cubriendo 364 mil conjuntos de datos, 1.6 millones de modelos y 140 mil proyectos en GitHub. Nuestro análisis empírico revela un incumplimiento sistémico en el que el 35.5% de las transiciones de modelo a aplicación eliminan cláusulas restrictivas de licencia al relicenciar bajo términos permisivos. Además, prototipamos un motor de reglas extensible que codifica casi 200 cláusulas específicas de SPDX y modelos para detectar conflictos de licencias, capaz de resolver el 86.4% de los conflictos de licencias en aplicaciones de software. Para apoyar investigaciones futuras, publicamos nuestro conjunto de datos y el motor prototipo. Nuestro estudio destaca el cumplimiento de licencias como un desafío crítico de gobernanza en la IA de código abierto y proporciona tanto los datos como las herramientas necesarias para habilitar el cumplimiento automatizado y consciente de la IA a gran escala.
Introducimos el concepto de perioperación, un paradigma para la recolección de datos robóticos que sensoriza y registra la manipulación humana mientras maximiza la transferibilidad de los datos a robots reales. Implementamos este paradigma en DEXOP, un exoesqueleto de mano pasivo diseñado para maximizar la capacidad humana de recolectar datos sensoriales ricos (visión + táctiles) para diversas tareas de manipulación diestra en entornos naturales. DEXOP conecta mecánicamente los dedos humanos con los dedos de un robot, proporcionando a los usuarios retroalimentación de contacto directo (a través de la propiocepción) y reflejando la postura de la mano humana en la mano robótica pasiva para maximizar la transferencia de habilidades demostradas al robot. La retroalimentación de fuerza y el reflejo de la postura hacen que las demostraciones de tareas sean más naturales para los humanos en comparación con la teleoperación, aumentando tanto la velocidad como la precisión. Evaluamos DEXOP en una variedad de tareas diestras y ricas en contacto, demostrando su capacidad para recolectar datos de demostración de alta calidad a gran escala. Las políticas aprendidas con los datos de DEXOP mejoran significativamente el rendimiento de las tareas por unidad de tiempo de recolección de datos en comparación con la teleoperación, convirtiendo a DEXOP en una herramienta poderosa para avanzar en la destreza robótica. Nuestra página del proyecto se encuentra en https://dex-op.github.io.
Los modelos de lenguaje basados en difusión (DLLMs, por sus siglas en inglés) han atraído recientemente un creciente interés como alternativa a los decodificadores autoregresivos. En este trabajo, presentamos un estudio empírico sobre el uso del modelo de lenguaje basado en difusión LLaDA para el reconocimiento automático del habla (ASR). Primero investigamos su uso como un módulo externo de procesamiento basado en deliberación para transcripciones de Whisper-LLaMA. Al aprovechar la atención bidireccional y las capacidades de eliminación de ruido de LLaDA, exploramos estrategias de enmascaramiento aleatorio, enmascaramiento de baja confianza y semi-autoregresivas, demostrando que Whisper-LLaDA reduce sustancialmente la tasa de error de palabras (WER) en comparación con la línea base. En LibriSpeech, el mejor sistema en cascada logra un WER de 2.25%/4.94% en test-clean/test-other, lo que representa una mejora relativa del 12.3% sobre la línea base de Whisper-LLaMA en la división test-other. En contraste, una versión de LLaDA en texto plano sin características acústicas no logra mejorar la precisión, destacando la importancia de los embeddings condicionados por audio. Además, evaluamos Whisper-LLaDA como un decodificador independiente para ASR con decodificación basada en difusión y semi-autoregresiva. La mayoría de las configuraciones experimentales logran una inferencia más rápida que la línea base de Whisper-LLaMA, aunque la precisión del reconocimiento es ligeramente menor. Estos hallazgos ofrecen una visión empírica de los modelos de lenguaje basados en difusión para ASR y apuntan a direcciones prometedoras para mejoras.
La eficiencia de la optimización bayesiana (BO) depende en gran medida de la elección del núcleo del proceso gaussiano (GP), el cual desempeña un papel central en el equilibrio entre exploración y explotación bajo presupuestos limitados de evaluación. Los métodos tradicionales de BO suelen basarse en estrategias fijas o heurísticas para la selección del núcleo, lo que puede resultar en una convergencia lenta o soluciones subóptimas cuando el núcleo elegido no se ajusta adecuadamente a la función objetivo subyacente. Para abordar esta limitación, proponemos una novedosa Evolución de Núcleos Consciente del Contexto (CAKE, por sus siglas en inglés) que mejora la BO mediante el uso de modelos de lenguaje de gran escala (LLMs). Concretamente, CAKE aprovecha los LLMs como operadores de cruce y mutación para generar y refinar adaptativamente los núcleos de GP basándose en los datos observados durante el proceso de optimización. Para maximizar el potencial de CAKE, proponemos además el Ranking de Núcleos de Adquisición basado en BIC (BAKER), que selecciona el núcleo más efectivo al equilibrar el ajuste del modelo medido por el criterio de información bayesiano (BIC) con la mejora esperada en cada iteración de la BO. Experimentos exhaustivos demuestran que nuestro método de BO basado en CAKE supera consistentemente a los enfoques establecidos en una variedad de tareas del mundo real, incluyendo la optimización de hiperparámetros, el ajuste de controladores y el diseño de chips fotónicos. Nuestro código está disponible públicamente en https://github.com/cake4bo/cake.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se utilizan ampliamente en diversas tareas y aplicaciones. Sin embargo, a pesar de sus amplias capacidades, se ha demostrado que carecen de alineación cultural ryan-etal-2024-unintended, alkhamissi-etal-2024-investigating y generan sesgos naous-etal-2024-beer debido a la falta de conocimiento y competencia cultural. La evaluación de los LLMs en cuanto a conciencia y alineación cultural es particularmente desafiante debido a la falta de métricas de evaluación adecuadas y a la ausencia de conjuntos de datos culturalmente fundamentados que representen la vasta complejidad de las culturas a nivel regional y subregional. Los conjuntos de datos existentes para elementos culturales específicos (CSIs, por sus siglas en inglés) se centran principalmente en conceptos a nivel regional y pueden contener falsos positivos. Para abordar este problema, presentamos un nuevo conjunto de datos de CSIs para la cultura india, perteneciente a 17 facetas culturales. El conjunto de datos comprende sim8k conceptos culturales de 36 subregiones. Para medir la competencia cultural de los LLMs en una tarea de adaptación de texto cultural, evaluamos las adaptaciones utilizando los CSIs creados, el LLM como juez y evaluaciones humanas de diversas regiones sociodemográficas. Además, realizamos un análisis cuantitativo que demuestra una cobertura selectiva subregional y adaptaciones superficiales en todos los LLMs considerados. Nuestro conjunto de datos está disponible aquí: https://huggingface.co/datasets/nlip/DIWALI{https://huggingface.co/datasets/nlip/DIWALI}, página del proyecto\href{https://nlip-lab.github.io/nlip/publications/diwali/{https://nlip-lab.github.io/nlip/publications/diwali/}}, y nuestro repositorio de código con las salidas del modelo se puede encontrar aquí: https://github.com/pramitsahoo/culture-evaluation{https://github.com/pramitsahoo/culture-evaluation}.
Presentamos BeepBank-500, un conjunto de datos compacto y completamente sintético de earcons/alertas (300-500 clips) diseñado para experimentación rápida y libre de derechos en interacción humano-computadora y aprendizaje automático de audio. Cada clip se genera a partir de una receta paramétrica que controla la familia de formas de onda (seno, cuadrada, triangular, FM), la frecuencia fundamental, la duración, la envolvente de amplitud, la modulación de amplitud (AM) y una reverberación ligera al estilo de Schroeder. Utilizamos tres configuraciones de reverberación: seca, y dos habitaciones sintéticas denominadas 'rir small' ('pequeña') y 'rir medium' ('mediana') a lo largo del artículo y en los metadatos. Publicamos audio mono a 48 kHz en formato WAV (16 bits), una tabla de metadatos enriquecida (características de señal/espectrales) y pequeñas líneas base reproducibles para (i) clasificación de familias de formas de onda y (ii) regresión de f0 en tonos individuales. El corpus está orientado a tareas como clasificación de earcons, análisis de timbre y detección de inicio, con licencias y limitaciones claramente establecidas. El audio se dedica al dominio público mediante CC0-1.0; el código está bajo licencia MIT. DOI de los datos: https://doi.org/10.5281/zenodo.17172015. Código: https://github.com/mandip42/earcons-mini-500.
El análisis de artefactos del patrimonio cultural sigue siendo un desafío para los MLLM (Modelos Multilingües de Lenguaje): los modelos generales carecen de experiencia en el dominio, y el Ajuste Superficial (SFT, por sus siglas en inglés) a menudo sobreajusta patrones superficiales, lo que resulta en un razonamiento frágil para la autenticación y atribución histórica. Esto plantea la pregunta de cómo equipar a los MLLM con un razonamiento robusto y de nivel experto para la cerámica griega antigua. Presentamos VaseVL, un sistema de SFT seguido de Aprendizaje por Refuerzo (RL) que convierte la evaluación en supervisión: construimos una taxonomía de tipos de preguntas, analizamos el modelo SFT para localizar brechas de rendimiento específicas por tipo, y optimizamos con recompensas orientadas a la composicionalidad y condicionadas por tipo, dirigidas a esas brechas. También lanzamos VaseVQA, un benchmark integral de 31,773 imágenes diseñado para explorar la comprensión profunda. Los experimentos muestran resultados de vanguardia en la clasificación de estilos y la atribución histórica, con mejoras significativas en la robustez composicional en comparación con líneas base que solo usan SFT, validando la ingeniería de recompensas guiada por diagnóstico y condicionada por taxonomía, y proporcionando un recurso reutilizable para futuras investigaciones. El código y el conjunto de datos estarán disponibles en https://github.com/AIGeeksGroup/VaseVQA.
Los Modelos de Visión y Lenguaje de Gran Escala (L-VLMs, por sus siglas en inglés) han demostrado un rendimiento notable en diversas tareas de visión y lenguaje, incluyendo la respuesta a preguntas visuales (VQA). Sin embargo, su alto costo computacional los hace poco prácticos para entornos con recursos limitados y aplicaciones que requieren inferencias intensivas. En contraste, los Modelos de Visión y Lenguaje de Pequeña Escala (S-VLMs) ofrecen eficiencia, pero sufren una brecha significativa de rendimiento en comparación con sus contrapartes más grandes. En este trabajo, presentamos el Model Parity Aligner (MPA), un marco novedoso diseñado para mejorar sistemáticamente los S-VLMs aprovechando imágenes no etiquetadas y una transferencia efectiva de conocimiento desde los L-VLMs. En lugar de los métodos tradicionales de destilación de conocimiento que dependen de datos de entrenamiento etiquetados, MPA emplea un enfoque estratégico basado en paridad que identifica con precisión las disparidades de conocimiento entre los S-VLMs y los L-VLMs, y optimiza el entrenamiento al enfocarse únicamente en estas disparidades. Realizamos experimentos exhaustivos en cuatro benchmarks diversos de VQA, a saber, TextVQA, ST-VQA, ChartQA y OKVQA, cada uno de los cuales requiere capacidades de razonamiento especializadas, como reconocimiento de texto, interpretación de gráficos, y comprensión de sentido común y hechos. Nuestros resultados demuestran que MPA mejora consistentemente el rendimiento de los S-VLMs en todos los benchmarks, reduciendo la brecha de rendimiento mientras mantiene la eficiencia computacional. Hacemos nuestro código públicamente disponible.
La estimación de profundidad estéreo subacuática proporciona una geometría 3D precisa para tareas robóticas como navegación, inspección y mapeo, ofreciendo profundidad métrica a partir de cámaras pasivas de bajo costo mientras evita la ambigüedad de escala de los métodos monoculares. Sin embargo, los enfoques existentes enfrentan dos desafíos críticos: (i) adaptar de manera eficiente en parámetros grandes codificadores de visión base al dominio subacuático sin necesidad de datos etiquetados extensivos, y (ii) fusionar de manera estrecha prioridades monoculares globalmente coherentes pero ambiguas en escala con correspondencias estéreo localmente métricas pero fotométricamente frágiles. Para abordar estos desafíos, proponemos StereoAdapter, un marco autosupervisado eficiente en parámetros que integra un codificador base monocular adaptado con LoRA junto con un módulo recurrente de refinamiento estéreo. Además, introducimos la adaptación dinámica de LoRA para una selección eficiente de rango y preentrenamiento en el conjunto de datos sintético UW-StereoDepth-40K para mejorar la robustez bajo diversas condiciones subacuáticas. Evaluaciones exhaustivas en benchmarks tanto simulados como del mundo real muestran mejoras del 6.11% en TartanAir y del 5.12% en SQUID en comparación con los métodos más avanzados, mientras que el despliegue en el mundo real con el robot BlueROV2 demuestra además la consistente robustez de nuestro enfoque. Código: https://github.com/AIGeeksGroup/StereoAdapter. Sitio web: https://aigeeksgroup.github.io/StereoAdapter.
Los códecs neuronales de audio son un componente fundamental de las pipelines generativas de audio modernas. Aunque los códecs recientes logran una reconstrucción sólida a bajas tasas de bits y proporcionan representaciones potentes para tareas posteriores, la mayoría no son transmisibles en tiempo real, lo que limita su uso en aplicaciones de tiempo real. Presentamos FocalCodec-Stream, un códec híbrido basado en modulación focal que comprime el habla en un único libro de códigos binario a 0.55 - 0.80 kbps con una latencia teórica de 80 ms. Nuestro enfoque combina la destilación causal en múltiples etapas de WavLM con mejoras arquitectónicas específicas, incluyendo un módulo refinador ligero que mejora la calidad bajo restricciones de latencia. Los experimentos muestran que FocalCodec-Stream supera a los códecs transmisibles existentes en tasas de bits comparables, preservando tanto la información semántica como la acústica. El resultado es un equilibrio favorable entre la calidad de reconstrucción, el rendimiento en tareas posteriores, la latencia y la eficiencia. El código y los puntos de control se publicarán en https://github.com/lucadellalib/focalcodec.
La revisión automatizada de código (CR, por sus siglas en inglés) es una aplicación clave para los Modelos de Lenguaje de Gran Escala (LLMs), pero su progreso se ve obstaculizado por una "brecha de realidad": los puntos de referencia existentes evalúan los modelos en sub-tareas aisladas utilizando datos simplificados y con poco contexto. Esto no refleja la naturaleza holística y rica en contexto de la CR en el mundo real. Para cerrar esta brecha, presentamos CodeFuse-CR-Bench, el primer punto de referencia consciente de la exhaustividad para la evaluación de CR a nivel de repositorio. CodeFuse-CR-Bench comprende 601 instancias de alta calidad de 70 proyectos en Python que abarcan nueve dominios de problemas de Pull-Request (PR), donde cada instancia proporciona un contexto rico y multifacético que incluye el problema asociado, los detalles del PR y el estado del repositorio, permitiendo una evaluación de extremo a extremo. Más allá de métricas superficiales, también proponemos un marco de evaluación novedoso que combina verificaciones basadas en reglas para la ubicación y la sintaxis con juicios basados en modelos sobre la calidad de la revisión. Presentamos la primera evaluación a gran escala de los LLMs más avanzados en esta tarea integral de CR. Nuestros resultados establecen líneas de base cruciales y revelan que (1) ningún LLM domina todos los aspectos de la CR; (2) Gemini 2.5 Pro alcanza el mayor rendimiento integral; y (3) diferentes LLMs muestran una robustez variable ante el contexto redundante. Estos hallazgos destacan la necesidad de una evaluación holística y multidimensional y proporcionan ideas prácticas para avanzar hacia asistentes de CR verdaderamente inteligentes y prácticos.
Los modelos de recompensa de procesos (PRMs, por sus siglas en inglés) ofrecen evaluaciones detalladas a nivel de paso que facilitan procesos de razonamiento más profundos en modelos de lenguaje de gran escala (LLMs), demostrando ser efectivos en tareas complejas como el razonamiento matemático. Sin embargo, el desarrollo de PRMs es desafiante debido al alto costo y la escalabilidad limitada de los datos anotados por humanos. Los datos sintéticos generados mediante estimación de Monte Carlo (MC) representan una alternativa prometedora, pero adolecen de una alta proporción de ruido, lo que puede causar sobreajuste y dificultar el entrenamiento a gran escala. En este trabajo, realizamos un estudio preliminar sobre la distribución del ruido en datos sintéticos obtenidos mediante estimación MC, identificando que los modelos de anotación tienden tanto a subestimar como a sobreestimar la corrección de los pasos debido a limitaciones en sus capacidades de anotación. Basándonos en estos hallazgos, proponemos Auto-Denoisificación de Anotación Monte Carlo (SCAN, por sus siglas en inglés), un marco eficiente de síntesis de datos y aprendizaje tolerante al ruido. Nuestros principales resultados indican que: (1) Incluso modelos ligeros (por ejemplo, de 1.500 millones de parámetros) pueden producir anotaciones de alta calidad mediante una estrategia de auto-denoisificación, permitiendo que los PRMs alcancen un rendimiento superior con solo el 6% del costo de inferencia requerido por la estimación MC convencional. (2) Con nuestra estrategia de aprendizaje robusto, los PRMs pueden aprender efectivamente a partir de esta supervisión débil, logrando una mejora de 39.2 puntos F1 (de 19.9 a 59.1) en ProcessBench. A pesar de utilizar solo un conjunto de datos sintéticos compacto, nuestros modelos superan a líneas de base sólidas, incluyendo aquellas entrenadas con grandes conjuntos de datos anotados por humanos, como PRM800K. Además, el rendimiento continúa mejorando a medida que escalamos los datos sintéticos, destacando el potencial de SCAN para un entrenamiento escalable, rentable y robusto de PRMs.