Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos LongLive, un marco autoregresivo (AR) a nivel de fotogramas para la generación de videos largos en tiempo real e interactiva. La generación de videos largos presenta desafíos tanto en eficiencia como en calidad. Los modelos de Difusión y Difusión-Forzada pueden producir videos de alta calidad, pero sufren de baja eficiencia debido a la atención bidireccional. Los modelos AR con atención causal admiten el almacenamiento en caché de claves-valores (KV) para una inferencia más rápida, pero a menudo degradan la calidad en videos largos debido a los desafíos de memoria durante el entrenamiento de videos largos. Además, más allá de la generación estática basada en indicaciones, las capacidades interactivas, como las entradas de indicaciones en tiempo real, son cruciales para la creación de contenido dinámico, permitiendo a los usuarios guiar narrativas en tiempo real. Este requisito interactivo aumenta significativamente la complejidad, especialmente en garantizar la consistencia visual y la coherencia semántica durante las transiciones de indicaciones. Para abordar estos desafíos, LongLive adopta un diseño AR causal a nivel de fotogramas que integra un mecanismo de recaché KV que actualiza los estados en caché con nuevas indicaciones para cambios suaves y adherentes; un ajuste largo en tiempo real para permitir el entrenamiento de videos largos y alinear el entrenamiento y la inferencia (entrenar-largo-probar-largo); y una atención de ventana corta combinada con un sumidero de atención a nivel de fotogramas, abreviado como sumidero de fotogramas, preservando la consistencia a largo plazo mientras permite una generación más rápida. Con estos diseños clave, LongLive ajusta un modelo de clips cortos de 1.3 mil millones de parámetros para generar videos de minutos en solo 32 días de GPU. En la inferencia, LongLive mantiene 20.7 FPS en una sola NVIDIA H100, logrando un rendimiento sólido en VBench tanto en videos cortos como largos. LongLive admite videos de hasta 240 segundos en una sola GPU H100. Además, LongLive admite inferencia cuantificada en INT8 con solo una pérdida marginal de calidad.
El entrenamiento de agentes de modelos de lenguaje grandes (LLM) en entornos de múltiples turnos con recompensas escasas, donde completar una sola tarea requiere más de 30 interacciones dentro de un episodio, presenta un desafío fundamental para el aprendizaje por refuerzo. Identificamos un modo de fallo crítico único en este contexto: el fallo en cascada de exploración-explotación. Esta cascada comienza con la convergencia prematura de la política en etapas iniciales, donde la retroalimentación escasa lleva a los agentes a adoptar estrategias defectuosas y de baja entropía. Posteriormente, los agentes entran en un colapso de la política en etapas avanzadas, donde la regularización convencional de la entropía se vuelve contraproducente, promoviendo una exploración caótica que desestabiliza el entrenamiento. Proponemos la Optimización de Políticas con Regularización de Entropía (EPO, por sus siglas en inglés), un marco general que rompe este ciclo de fallo mediante tres mecanismos sinérgicos: (1) la adopción de regularización de entropía en entornos de múltiples turnos para mejorar la exploración, (2) un regularizador de suavizado de entropía que limita la entropía de la política dentro de promedios históricos para evitar fluctuaciones abruptas, y (3) una ponderación adaptativa basada en fases que equilibra la exploración y la explotación durante el entrenamiento. Nuestro análisis justifica que EPO garantiza una varianza de entropía monótonamente decreciente mientras mantiene la convergencia. EPO logra una mejora de rendimiento de hasta el 152% en ScienceWorld y hasta el 19.8% en ALFWorld. Nuestro trabajo demuestra que los entornos de múltiples turnos con recompensas escasas requieren un control de entropía fundamentalmente diferente al del aprendizaje por refuerzo tradicional, con implicaciones amplias para el entrenamiento de agentes LLM.
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) fortalece el razonamiento de los modelos de lenguaje grandes (LLM), pero el entrenamiento a menudo oscila entre el {colapso de entropía} y la {explosión de entropía}. Rastreamos ambos riesgos hasta la línea base media utilizada en el RL sin valores (por ejemplo, GRPO y DAPO), que penaliza incorrectamente las muestras con ventaja negativa bajo valores atípicos de recompensa. Proponemos la {Estimación de Ventaja por Cuantiles} (QAE), que reemplaza la media con una línea base de K-cuantiles por grupos. QAE induce una puerta de dos regímenes a nivel de respuesta: en consultas difíciles (p <= 1 - K) refuerza los éxitos raros, mientras que en consultas fáciles (p > 1 - K) se enfoca en los fracasos restantes. Bajo actualizaciones de softmax de primer orden, demostramos la {seguridad de entropía bilateral}, proporcionando límites inferiores y superiores en el cambio de entropía de un paso que frenan la explosión y previenen el colapso. Empíricamente, esta modificación mínima estabiliza la entropía, esparsa la asignación de crédito (con K ajustado, aproximadamente el 80% de las respuestas reciben ventaja cero) y produce ganancias sostenidas en pass@1 en Qwen3-8B/14B-Base a través de AIME 2024/2025 y AMC 2023. Estos resultados identifican el {diseño de la línea base} —en lugar de heurísticas a nivel de token— como el mecanismo principal para escalar RLVR.
Presentamos MinerU2.5, un modelo de visión y lenguaje de 1.200 millones de parámetros para el análisis de documentos que logra una precisión de reconocimiento de vanguardia mientras mantiene una excepcional eficiencia computacional. Nuestro enfoque emplea una estrategia de análisis de dos etapas, de lo general a lo específico, que desacopla el análisis del diseño global del reconocimiento del contenido local. En la primera etapa, el modelo realiza un análisis eficiente del diseño en imágenes reducidas para identificar elementos estructurales, evitando la sobrecarga computacional de procesar entradas de alta resolución. En la segunda etapa, guiado por el diseño global, lleva a cabo un reconocimiento dirigido del contenido en recortes de resolución nativa extraídos de la imagen original, preservando detalles finos en texto denso, fórmulas complejas y tablas. Para respaldar esta estrategia, desarrollamos un motor de datos integral que genera corpus de entrenamiento diversos y a gran escala tanto para el preentrenamiento como para el ajuste fino. En última instancia, MinerU2.5 demuestra una sólida capacidad de análisis de documentos, alcanzando un rendimiento de vanguardia en múltiples benchmarks, superando tanto a modelos de propósito general como a modelos específicos del dominio en diversas tareas de reconocimiento, mientras mantiene una sobrecarga computacional significativamente menor.
Introducimos un marco de razonamiento variacional para modelos de lenguaje que trata las trazas de pensamiento como variables latentes y las optimiza mediante inferencia variacional. Partiendo del límite inferior de la evidencia (ELBO, por sus siglas en inglés), lo extendemos a un objetivo de múltiples trazas para obtener límites más ajustados y proponemos una formulación de KL directa que estabiliza el entrenamiento de la posterior variacional. Además, demostramos que el ajuste fino por muestreo de rechazo y el aprendizaje por refuerzo con recompensas binarias, incluyendo GRPO, pueden interpretarse como objetivos locales de KL directa, donde surge de manera natural una ponderación implícita basada en la precisión del modelo, revelando un sesgo previamente inadvertido hacia preguntas más fáciles. Validamos empíricamente nuestro método en las familias de modelos Qwen 2.5 y Qwen 3 en una amplia gama de tareas de razonamiento. En general, nuestro trabajo proporciona una perspectiva probabilística fundamentada que unifica la inferencia variacional con métodos de estilo RL y produce objetivos estables para mejorar la capacidad de razonamiento de los modelos de lenguaje. Nuestro código está disponible en https://github.com/sail-sg/variational-reasoning.
La revisión por pares sirve como columna vertebral de la investigación académica, pero en la mayoría de las conferencias de IA, la calidad de las revisiones se está degradando a medida que el número de envíos se dispara. Para detectar de manera confiable revisiones de baja calidad, definimos los puntos de revisión mal informados como "debilidades" en una revisión que contienen premisas incorrectas o "preguntas" en una revisión que ya pueden ser respondidas por el artículo. Verificamos que el 15,2 % de las debilidades y el 26,4 % de las preguntas están mal informadas e introducimos ReviewScore, que indica si un punto de revisión está mal informado. Para evaluar la factualidad de cada premisa de las debilidades, proponemos un motor automatizado que reconstruye cada premisa explícita e implícita de una debilidad. Construimos un conjunto de datos de ReviewScore anotado por expertos humanos para verificar la capacidad de los LLM (modelos de lenguaje grandes) para automatizar la evaluación de ReviewScore. Luego, medimos los acuerdos entre humanos y modelos en ReviewScore utilizando ocho LLM actuales de última generación y verificamos acuerdos moderados. También demostramos que evaluar la factualidad a nivel de premisa muestra acuerdos significativamente más altos que evaluar la factualidad a nivel de debilidad. Un análisis exhaustivo de los desacuerdos respalda aún más el potencial de una evaluación completamente automatizada de ReviewScore.
Los LLM (Modelos de Lenguaje de Gran Escala) suelen entrenarse con Aprendizaje por Refuerzo (RL) a partir de retroalimentación humana o de IA; sin embargo, estos métodos suelen comprimir la retroalimentación matizada en recompensas escalares, descartando gran parte de su riqueza e induciendo un desequilibrio de escala. Proponemos tratar la retroalimentación verbal como una señal de condicionamiento. Inspirados por los antecedentes lingüísticos en la generación de texto a imagen, que permiten salidas novedosas a partir de indicaciones no vistas, introducimos la política condicionada por retroalimentación (FCP, por sus siglas en inglés). La FCP aprende directamente de pares respuesta-retroalimentación, aproximando la distribución posterior condicionada por retroalimentación mediante entrenamiento de máxima verosimilitud sobre datos fuera de línea. Además, desarrollamos una etapa de arranque en línea donde la política genera bajo condiciones positivas y recibe retroalimentación fresca para refinarse. Esto replantea el aprendizaje basado en retroalimentación como generación condicionada en lugar de optimización de recompensas, ofreciendo una forma más expresiva para que los LLM aprendan directamente de la retroalimentación verbal. Nuestro código está disponible en https://github.com/sail-sg/feedback-conditional-policy.
La generación de descripciones de imágenes es una tarea fundamental que conecta los dominios visual y lingüístico, desempeñando un papel crítico en el preentrenamiento de Modelos de Visión y Lenguaje de Gran Escala (LVLMs, por sus siglas en inglés). Los modelos de última generación para esta tarea suelen entrenarse mediante Ajuste Fino Supervisado (SFT, por sus siglas en inglés), un paradigma que depende de datos costosos y no escalables, anotados por humanos o modelos propietarios. Este enfoque a menudo resulta en modelos que memorizan respuestas específicas de referencia, limitando su generalidad y capacidad para generar descripciones diversas y creativas. Para superar las limitaciones del SFT, proponemos aplicar el paradigma de Aprendizaje por Refuerzo con Recompensas Verificables (RLVR, por sus siglas en inglés) a la tarea abierta de generación de descripciones de imágenes. Sin embargo, un desafío principal es diseñar una función de recompensa objetiva para la naturaleza inherentemente subjetiva de lo que constituye una "buena" descripción. Introducimos Aprendizaje por Refuerzo para Descripciones (CapRL, por sus siglas en inglés), un marco de entrenamiento novedoso que redefine la calidad de una descripción a través de su utilidad: una descripción de alta calidad debería permitir que un modelo de lenguaje no visual responda con precisión preguntas sobre la imagen correspondiente. CapRL emplea una canalización desacoplada en dos etapas en la que un LVLM genera una descripción, y la recompensa objetiva se deriva de la precisión de un LLM separado, sin acceso visual, que responde preguntas de opción múltiple basándose únicamente en esa descripción. Como el primer estudio en aplicar RLVR a la tarea subjetiva de generación de descripciones de imágenes, demostramos que CapRL mejora significativamente múltiples configuraciones. El preentrenamiento en el conjunto de datos CapRL-5M, anotado por CapRL-3B, resulta en ganancias sustanciales en 12 puntos de referencia. Además, dentro del Marco Prism para la evaluación de la calidad de las descripciones, CapRL logra un rendimiento comparable a Qwen2.5-VL-72B, superando la línea base por un margen promedio del 8.4%. El código está disponible aquí: https://github.com/InternLM/CapRL.
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR, por sus siglas en inglés) es un marco poderoso para mejorar las capacidades de razonamiento de los Modelos de Lenguaje a Gran Escala (LLMs). Sin embargo, los métodos actuales, como GRPO, se basan únicamente en problemas donde las respuestas del modelo a la misma entrada difieren en su corrección, ignorando aquellos casos en los que todas las respuestas reciben la misma recompensa, conocidos como indicaciones de varianza cero. En este trabajo, argumentamos que tales indicaciones no son inútiles, sino que, de hecho, pueden proporcionar retroalimentación significativa para la optimización de políticas. Con este fin, presentamos el Aprendizaje por Refuerzo con Indicaciones de Varianza Cero (RL-ZVP), un algoritmo novedoso que extrae señales de aprendizaje de indicaciones de varianza cero. RL-ZVP recompensa directamente la corrección y penaliza los errores incluso sin contrastar respuestas, modulando la retroalimentación con características a nivel de token para preservar señales informativas y matizadas. En seis benchmarks de razonamiento matemático, RL-ZVP logra mejoras significativas de hasta 8.61 puntos en precisión y 7.77 puntos en tasa de acierto sobre GRPO, superando consistentemente otras líneas base que filtran las indicaciones de varianza cero. Estos resultados resaltan el potencial no explotado de aprender de indicaciones de varianza cero en RLVR.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) están evolucionando desde sistemas conversacionales hacia razonadores potentes para tareas como las matemáticas olímpicas y la programación competitiva. Si bien el escalado de parámetros y el cómputo en tiempo de prueba han impulsado el progreso, un cuello de botella clave es la falta de problemas de entrenamiento de alta calidad: los conjuntos de datos curados por humanos son costosos y limitados, mientras que los corpus sintéticos existentes suelen ser demasiado fáciles o estrechos. PromptCoT 1.0 demostró que inyectar razonamientos en la síntesis de prompts aumenta la dificultad de los problemas. Basándonos en esto, presentamos PromptCoT 2.0, un marco escalable que reemplaza las heurísticas manuales con un bucle de maximización de expectativas (EM), donde los razonamientos se refinan iterativamente para guiar la construcción de prompts. Esto produce problemas que son tanto más difíciles como más diversos que los corpus anteriores. Los prompts sintéticos soportan dos regímenes de posentrenamiento: (1) Autojuego (Self-Play), donde los modelos fuertes mejoran autónomamente mediante retroalimentación verificable sin necesidad de maestros más potentes; y (2) Ajuste Fino Supervisado (SFT), donde los modelos más débiles aprenden de trazas destiladas por maestros. Experimentos extensos demuestran la efectividad de este enfoque. En autojuego, aplicar PromptCoT 2.0 a Qwen3-30B-A3B-Thinking-2507 establece nuevos resultados de vanguardia a escala de 30B, con mejoras de +4.4, +4.8 y +5.3 en AIME 24/25 y HMMT 25, +6.1 y +5.0 en LiveCodeBench v5/v6, y +35 Elo en Codeforces. En SFT, entrenar Qwen2.5-7B-Instruct únicamente con prompts sintéticos aumenta la precisión a 73.1 (AIME 24), 65.6 (AIME 25) y 53.4 (LiveCodeBench v5), superando a modelos entrenados con datos humanos o híbridos. Los análisis confirman además que PromptCoT 2.0 produce problemas fundamentalmente más difíciles y distribuidos de manera distinta. Estos resultados establecen la síntesis de prompts como un nuevo eje para escalar el razonamiento y posicionan a PromptCoT 2.0 como una base escalable para futuros modelos de código abierto. La implementación está disponible en https://github.com/inclusionAI/PromptCoT.
La capacidad de los robots para interpretar instrucciones humanas y ejecutar tareas de manipulación requiere la disponibilidad de escenas de mesas relevantes para el entrenamiento. Sin embargo, los métodos tradicionales para crear estas escenas dependen de diseños de disposición manual que consumen mucho tiempo o de disposiciones puramente aleatorias, las cuales están limitadas en términos de plausibilidad o alineación con las tareas. En este artículo, formulamos una nueva tarea, denominada generación de escenas de mesas orientadas a tareas, que plantea desafíos significativos debido a la brecha sustancial entre las instrucciones de tareas de alto nivel y las escenas de mesas. Para apoyar la investigación en una tarea tan desafiante, presentamos MesaTask-10K, un conjunto de datos a gran escala que comprende aproximadamente 10,700 escenas sintéticas de mesas con diseños manualmente elaborados que garantizan disposiciones realistas y relaciones intrincadas entre objetos. Para cerrar la brecha entre las tareas y las escenas, proponemos una Cadena de Razonamiento Espacial que descompone el proceso de generación en inferencia de objetos, razonamiento de interrelaciones espaciales y construcción de un grafo de escenas para el diseño 3D final. Presentamos MesaTask, un marco basado en LLM que utiliza esta cadena de razonamiento y que se mejora aún más con algoritmos DPO para generar escenas de mesas físicamente plausibles que se alinean bien con las descripciones de tareas dadas. Experimentos exhaustivos demuestran el rendimiento superior de MesaTask en comparación con los métodos de referencia en la generación de escenas de mesas conformes a la tarea con diseños realistas. La página del proyecto se encuentra en https://mesatask.github.io/.
Presentamos LLaVA-OneVision-1.5, una nueva familia de Modelos Multimodales de Gran Escala (LMMs, por sus siglas en inglés) que alcanzan un rendimiento de vanguardia con costos computacionales y financieros significativamente reducidos. A diferencia de los trabajos existentes, LLaVA-OneVision-1.5 ofrece un marco abierto, eficiente y reproducible para construir modelos de visión y lenguaje de alta calidad desde cero. La versión de LLaVA-OneVision-1.5 consta de tres componentes principales: (1) Conjuntos de Datos Cuidadosamente Curados: Construimos un conjunto de datos de preentrenamiento equilibrado en conceptos de 85M, denominado LLaVA-OneVision-1.5-Mid-Training, y un conjunto de datos de instrucciones meticulosamente curado de 26M, llamado LLaVA-OneVision-1.5-Instruct, que en conjunto abarcan 64B tokens multimodales comprimidos. (2) Marco de Entrenamiento Eficiente: Desarrollamos un marco de entrenamiento eficiente completo de extremo a extremo que aprovecha una estrategia de empaquetado de datos paralelo fuera de línea para facilitar el entrenamiento de LLaVA-OneVision-1.5 dentro de un presupuesto de $16,000. (3) Rendimiento de Vanguardia: Los resultados experimentales demuestran que LLaVA-OneVision-1.5 ofrece un rendimiento excepcionalmente competitivo en una amplia gama de tareas posteriores. Específicamente, LLaVA-OneVision-1.5-8B supera a Qwen2.5-VL-7B en 18 de 27 puntos de referencia, y LLaVA-OneVision-1.5-4B supera a Qwen2.5-VL-3B en los 27 puntos de referencia. Anticipamos lanzar LLaVA-OneVision-1.5-RL en breve y alentamos a la comunidad a esperar más actualizaciones.
Los agentes autónomos han logrado recientemente avances notables en diversos dominios, aunque la mayoría de las evaluaciones se centran en tareas de horizonte corto y completamente observables. En contraste, muchas tareas críticas del mundo real, como el desarrollo de software a gran escala, la inversión comercial y el descubrimiento científico, se desarrollan en escenarios de horizonte largo y parcialmente observables, donde el éxito depende del razonamiento sostenido, la planificación, la gestión de la memoria y el uso de herramientas. Los puntos de referencia existentes rara vez capturan estos desafíos de horizonte largo, dejando un vacío en la evaluación sistemática. Para cerrar esta brecha, presentamos UltraHorizon, un nuevo punto de referencia que mide las capacidades fundamentales esenciales para los desafíos complejos del mundo real. Utilizamos la exploración como una tarea unificadora en tres entornos distintos para validar estas competencias centrales. Los agentes están diseñados para tareas de descubrimiento de horizonte largo, donde deben descubrir iterativamente reglas ocultas mediante razonamiento sostenido, planificación, gestión de memoria y herramientas, e interacción con los entornos. En la configuración de mayor escala, las trayectorias promedian más de 200,000 tokens y más de 400 llamadas a herramientas, mientras que en configuraciones estándar aún superan los 35,000 tokens e involucran más de 60 llamadas a herramientas en promedio. Nuestros extensos experimentos revelan que los agentes basados en modelos de lenguaje (LLM) tienen un rendimiento consistentemente inferior en estos entornos, mientras que los participantes humanos logran puntajes más altos, destacando una brecha persistente en las habilidades de horizonte largo de los agentes. También observamos que el simple escalamiento falla en nuestra tarea. Para ilustrar mejor el fracaso de los agentes, realizamos un análisis en profundidad de las trayectorias recopiladas. Identificamos ocho tipos de errores y los atribuimos a dos causas principales: bloqueo en el contexto y brechas fundamentales en las capacidades funcionales. https://github.com/StarDewXXX/UltraHorizon{Nuestro código estará disponible aquí.}
Presentamos See, Point, Fly (SPF), un marco de navegación aérea visión-lenguaje (AVLN) sin entrenamiento, construido sobre modelos visión-lenguaje (VLMs). SPF es capaz de navegar hacia cualquier objetivo basado en instrucciones de forma libre en cualquier tipo de entorno. A diferencia de los enfoques existentes basados en VLMs que tratan la predicción de acciones como una tarea de generación de texto, nuestra idea clave es considerar la predicción de acciones para AVLN como una tarea de anclaje espacial en 2D. SPF aprovecha los VLMs para descomponer instrucciones lingüísticas vagas en anotaciones iterativas de puntos de referencia en 2D sobre la imagen de entrada. Junto con la distancia de viaje predicha, SPF transforma los puntos de referencia 2D predichos en vectores de desplazamiento 3D como comandos de acción para UAVs. Además, SPF ajusta adaptativamente la distancia de viaje para facilitar una navegación más eficiente. Cabe destacar que SPF realiza la navegación en un modo de control de bucle cerrado, permitiendo que los UAVs sigan objetivos dinámicos en entornos dinámicos. SPF establece un nuevo estado del arte en el punto de referencia de simulación DRL, superando al mejor método anterior por un margen absoluto del 63%. En evaluaciones extensas del mundo real, SPF supera a las líneas de base fuertes por un amplio margen. También realizamos estudios de ablación exhaustivos para resaltar la efectividad de nuestras decisiones de diseño. Por último, SPF muestra una generalización notable a diferentes VLMs. Página del proyecto: https://spf-web.pages.dev
La compresión posentrenamiento de modelos de lenguaje grandes (LLM, por sus siglas en inglés) se basa en gran medida en la aproximación de pesos de bajo rango, la cual representa cada columna de una matriz de pesos en un subespacio compartido de baja dimensión. Si bien esta es una estrategia computacionalmente eficiente, la restricción estructural impuesta es rígida y puede provocar una caída notable en la precisión del modelo. En este trabajo, proponemos CoSpaDi (Compresión mediante Aprendizaje de Diccionarios Dispersos), un novedoso marco de compresión sin entrenamiento que reemplaza la descomposición de bajo rango con una factorización estructurada dispersa más flexible, en la que cada matriz de pesos se representa con un diccionario denso y una matriz de coeficientes dispersa por columnas. Esta formulación permite una representación de unión de subespacios: diferentes columnas de la matriz de pesos original se aproximan en subespacios distintos generados por átomos de diccionario seleccionados de manera adaptativa, ofreciendo una mayor expresividad que una base invariante única. De manera crucial, CoSpaDi aprovecha un pequeño conjunto de datos de calibración para optimizar la factorización de modo que las activaciones de salida de las capas de proyección comprimidas coincidan estrechamente con las de las originales, minimizando así el error de reconstrucción funcional en lugar de la mera aproximación de pesos. Esta estrategia consciente de los datos preserva una mejor fidelidad del modelo sin necesidad de ajuste fino bajo razonables ratios de compresión. Además, la dispersión estructurada resultante permite una multiplicación eficiente de matrices dispersas-densas y es compatible con la cuantización posentrenamiento para obtener mayores ganancias en memoria y latencia. Evaluamos CoSpaDi en múltiples modelos Llama y Qwen bajo configuraciones por capa y por grupo con ratios de compresión del 20-50\%, demostrando una superioridad consistente sobre los métodos de bajo rango conscientes de los datos más avanzados tanto en precisión como en perplejidad. Nuestros resultados establecen el aprendizaje de diccionarios dispersos estructurados como una alternativa poderosa a los enfoques convencionales de bajo rango para el despliegue eficiente de LLM.
Las crecientes capacidades de los modelos de lenguaje extenso y los sistemas multimodales han impulsado el interés en los asistentes de IA centrados en la voz, aunque los puntos de referencia existentes son insuficientes para evaluar el alcance completo de las capacidades de estos sistemas. Presentamos VoiceAssistant-Eval, un punto de referencia integral diseñado para evaluar asistentes de IA en las áreas de escucha, habla y visualización. VoiceAssistant-Eval comprende 10,497 ejemplos cuidadosamente seleccionados que abarcan 13 categorías de tareas. Estas tareas incluyen sonidos naturales, música y diálogos hablados para la escucha; diálogos de múltiples turnos, imitación de roles y diversos escenarios para el habla; e imágenes altamente heterogéneas para la visualización. Para demostrar su utilidad, evaluamos 21 modelos de código abierto y GPT-4o-Audio, midiendo la calidad del contenido y el habla de las respuestas, así como su consistencia. Los resultados revelan tres hallazgos clave: (1) los modelos propietarios no superan universalmente a los modelos de código abierto; (2) la mayoría de los modelos sobresalen en tareas de habla pero se rezagan en la comprensión de audio; y (3) modelos más pequeños pero bien diseñados pueden rivalizar con modelos mucho más grandes. Notablemente, el modelo de tamaño mediano Step-Audio-2-mini (7B) logra más del doble de precisión en escucha que LLaMA-Omni2-32B-Bilingual. Sin embargo, persisten desafíos: la entrada multimodal (audio más visual) y las tareas de imitación de voz en roles son difíciles para los modelos actuales, y existen brechas significativas en la robustez y la alineación de seguridad. VoiceAssistant-Eval identifica estas brechas y establece un marco riguroso para evaluar y guiar el desarrollo de la próxima generación de asistentes de IA. El código y los datos se publicarán en https://mathllm.github.io/VoiceAssistantEval/.
Proponemos un enfoque novedoso para desentrañar características visuales y semánticas de los backbones de modelos de difusión preentrenados, permitiendo la correspondencia visual de manera análoga a la bien establecida correspondencia semántica. Si bien se sabe que los backbones de los modelos de difusión codifican características semánticamente ricas, también deben contener características visuales para respaldar sus capacidades de síntesis de imágenes. Sin embargo, aislar estas características visuales es un desafío debido a la ausencia de conjuntos de datos anotados. Para abordar esto, introducimos una pipeline automatizada que construye pares de imágenes con correspondencias semánticas y visuales anotadas basadas en conjuntos de datos existentes de generación de imágenes guiada por sujetos, y diseñamos una arquitectura contrastiva para separar los dos tipos de características. Aprovechando las representaciones desentrañadas, proponemos una nueva métrica, Coincidencia Visual-Semántica (VSM, por sus siglas en inglés), que cuantifica las inconsistencias visuales en la generación de imágenes guiada por sujetos. Los resultados empíricos muestran que nuestro enfoque supera a métricas basadas en características globales como CLIP, DINO y modelos de visión-lenguaje en la cuantificación de inconsistencias visuales, al mismo tiempo que permite la localización espacial de regiones inconsistentes. Hasta donde sabemos, este es el primer método que respalda tanto la cuantificación como la localización de inconsistencias en la generación guiada por sujetos, ofreciendo una herramienta valiosa para avanzar en esta tarea. Página del proyecto: https://abdo-eldesokey.github.io/mind-the-glitch/
La restauración universal de imágenes (UIR, por sus siglas en inglés) tiene como objetivo recuperar imágenes degradadas por mezclas desconocidas mientras se preserva la semántica, condiciones bajo las cuales los restauradores discriminativos y los modelos basados en UNet con difusión suelen suavizar en exceso, generar alucinaciones o desviarse. Presentamos LucidFlux, un marco de UIR sin subtítulos que adapta un gran transformador de difusión (Flux.1) sin utilizar descripciones de imágenes. LucidFlux introduce un condicionador ligero de doble rama que inyecta señales desde la entrada degradada y un proxy ligeramente restaurado para anclar la geometría y suprimir artefactos, respectivamente. Luego, se diseña un esquema de modulación adaptativo en función del paso de tiempo y la capa para dirigir estas señales a través de la jerarquía del modelo, con el fin de generar actualizaciones de lo general a lo específico y conscientes del contexto que protejan la estructura global mientras se recupera la textura. Además, para evitar la latencia y la inestabilidad de los indicadores de texto o las descripciones generadas por modelos de lenguaje multimodal (MLLM), se aplica una alineación semántica sin subtítulos mediante características SigLIP extraídas del proxy. Un pipeline de curación escalable filtra adicionalmente datos a gran escala para proporcionar supervisión rica en estructura. En benchmarks sintéticos y en entornos reales, LucidFlux supera consistentemente a fuertes baselines de código abierto y comerciales, y los estudios de ablación verifican la necesidad de cada componente. LucidFlux demuestra que, para grandes DiTs, el cuándo, dónde y qué condicionar —en lugar de agregar parámetros o depender de indicadores de texto— es el factor clave para una restauración universal de imágenes robusta y sin subtítulos en entornos reales.
El ajuste fino, un método fundamental para adaptar modelos de lenguaje de gran escala, ha sido considerado durante mucho tiempo ineficaz para la edición de modelos. Aquí, desafiamos esta creencia, argumentando que el fracaso reportado no surge de una limitación inherente del ajuste fino en sí, sino de su adaptación a la naturaleza secuencial de la tarea de edición, un enfoque de profundidad primero en una sola pasada que optimiza cada muestra hasta la convergencia antes de avanzar. Aunque intuitivo, este enfoque de profundidad primero, combinado con la actualización por muestra, sobreoptimiza cada edición e induce interferencia entre las ediciones. Nuestros experimentos controlados revelan que simplemente restaurar el ajuste fino al enfoque estándar de amplitud primero (es decir, basado en épocas) con optimización por mini-lotes mejora sustancialmente su efectividad para la edición de modelos. Además, el ajuste fino en la edición también sufre de ubicaciones subóptimas de parámetros heredadas de métodos previos. A través de un análisis sistemático de las ubicaciones de ajuste, derivamos LocFT-BF, un método de edición localizado simple y efectivo basado en el marco de ajuste fino restaurado. Experimentos extensos en diversos modelos de lenguaje y conjuntos de datos demuestran que LocFT-BF supera a los métodos más avanzados por amplios márgenes. Notablemente, hasta donde sabemos, es el primero en sostener 100K ediciones y modelos de 72B parámetros, 10 veces más allá de la práctica previa, sin sacrificar capacidades generales. Al aclarar un malentendido de larga data e introducir una estrategia de ajuste localizado basada en principios, avanzamos el ajuste fino desde una línea base subestimada a un método líder para la edición de modelos, estableciendo una base sólida para futuras investigaciones.
Los sistemas de agentes impulsados por modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado un rendimiento impresionante en tareas de generación de código a nivel de repositorio. Sin embargo, para tareas como la generación de bases de código de sitios web, que dependen en gran medida de efectos visuales y retroalimentación de interacción del usuario, los agentes de código actuales solo se basan en la ejecución simple de código para obtener retroalimentación y verificación. Este enfoque no logra capturar la calidad real del código generado. En este artículo, proponemos WebGen-Agent, un agente novedoso para la generación de sitios web que aprovecha una retroalimentación visual integral y multinivel para generar y refinar iterativamente la base de código del sitio web. Descripciones y sugerencias detalladas y expresivas sobre las capturas de pantalla y las pruebas del agente de interfaz gráfica de usuario (GUI) de los sitios web son generadas por un modelo de lenguaje visual (VLM, por sus siglas en inglés), junto con puntuaciones que cuantifican su calidad. Las puntuaciones de las capturas de pantalla y del agente GUI se integran además con un mecanismo de retroceso y selección del mejor resultado, mejorando el rendimiento del agente. Utilizando las puntuaciones visuales precisas inherentes al flujo de trabajo de WebGen-Agent, introducimos además Step-GRPO con Retroalimentación de Capturas de Pantalla y Agente GUI para mejorar la capacidad de los LLMs de actuar como el motor de razonamiento de WebGen-Agent. Al utilizar las puntuaciones de capturas de pantalla y del agente GUI en cada paso como recompensa en Step-GRPO, proporcionamos una señal de supervisión de proceso densa y confiable, lo que mejora efectivamente la capacidad del modelo para generar sitios web. En el conjunto de datos WebGen-Bench, WebGen-Agent aumenta la precisión de Claude-3.5-Sonnet del 26.4% al 51.9% y su puntuación de apariencia de 3.0 a 3.9, superando al sistema de agentes más avanzado anterior. Además, nuestro enfoque de entrenamiento Step-GRPO aumenta la precisión de Qwen2.5-Coder-7B-Instruct del 38.9% al 45.4% y eleva la puntuación de apariencia de 3.4 a 3.7.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) y los modelos de visión-lenguaje de gran escala (LVLMs, por sus siglas en inglés) utilizan cada vez más el Aprendizaje por Refuerzo (RL, por sus siglas en inglés) para el entrenamiento posterior, como el RL con Recompensas Verificables (RLVR, por sus siglas en inglés) para tareas objetivas y el RL a partir de la Retroalimentación Humana (RLHF, por sus siglas en inglés) para tareas subjetivas. Sin embargo, el RLHF incurre en costos elevados y un posible desajuste entre la política y la recompensa debido a su dependencia de las preferencias humanas, mientras que el RLVR aún desperdicia supervisión al descartar las ejecuciones y las señales de corrección después de cada actualización. Para abordar estos desafíos, presentamos el Marco de Coevolución Sinérgica de Política y Recompensa (SPARK, por sus siglas en inglés), un método eficiente, en política y estable que se basa en el RLVR. En lugar de descartar las ejecuciones y los datos de corrección, SPARK recicla esta información valiosa para entrenar simultáneamente el modelo como un modelo generativo de recompensas. Este entrenamiento auxiliar utiliza una combinación de objetivos, como la puntuación de recompensa puntual, la comparación por pares y la evaluación condicionada a respuestas de reflexión adicional, para enseñar al modelo a evaluar y mejorar sus propias respuestas. Nuestro proceso elimina la necesidad de un modelo de recompensa separado y de costosos datos de preferencias humanas. SPARK crea un ciclo de retroalimentación positivo de coevolución: una mayor precisión en las recompensas produce mejores gradientes de política, lo que a su vez genera ejecuciones de mayor calidad que refinan aún más el modelo de recompensa. Nuestro marco unificado permite la escalabilidad en tiempo de prueba mediante la autorreflexión sin necesidad de modelos de recompensa externos y sus costos asociados. Demostramos que SPARK logra mejoras significativas en el rendimiento de múltiples modelos LLM y LVLM, así como en múltiples pruebas de razonamiento, modelos de recompensa y evaluaciones generales. Por ejemplo, SPARK-VL-7B alcanza una mejora promedio del 9.7% en 7 pruebas de razonamiento, del 12.1% en 2 pruebas de recompensa y del 1.5% en 8 evaluaciones generales en comparación con los valores de referencia, demostrando robustez y una amplia generalización.
La Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) y la RAG basada en grafos se han convertido en un paradigma importante para mejorar los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) con conocimiento externo. Sin embargo, los enfoques existentes enfrentan una compensación fundamental. Mientras que los métodos basados en grafos dependen inherentemente de estructuras de grafos de alta calidad, enfrentan limitaciones prácticas significativas: los grafos de conocimiento construidos manualmente son prohibitivamente costosos de escalar, mientras que los grafos extraídos automáticamente de corpus están limitados por el rendimiento de los extractores de LLMs subyacentes, especialmente cuando se utilizan modelos más pequeños y desplegados localmente. Este artículo presenta Think-on-Graph 3.0 (ToG-3), un marco novedoso que introduce el mecanismo de Evolución y Recuperación de Contexto Multi-Agente (MACER, por sus siglas en inglés) para superar estas limitaciones. Nuestra innovación central es la construcción y refinamiento dinámico de un índice de grafo heterogéneo de Chunk-Triplets-Community, que incorpora de manera pionera un mecanismo de doble evolución de Consulta Evolutiva y Sub-Grafo Evolutivo para una recuperación precisa de evidencia. Este enfoque aborda una limitación crítica de los métodos previos de RAG basados en grafos, que típicamente construyen un índice de grafo estático en una sola pasada sin adaptarse a la consulta real. Un sistema multi-agente, compuesto por agentes Constructor, Recuperador, Reflector y Respondedor, colabora en un proceso iterativo de recuperación de evidencia, generación de respuestas, reflexión de suficiencia y, crucialmente, evolución de la consulta y el subgrafo. Este sistema multi-agente de doble evolución permite que ToG-3 construya adaptativamente un índice de grafo dirigido durante el razonamiento, mitigando los inconvenientes inherentes de la construcción estática y única de grafos y permitiendo un razonamiento profundo y preciso incluso con LLMs ligeros. Experimentos extensivos demuestran que ToG-3 supera a las líneas base comparadas en benchmarks de razonamiento profundo y amplio, y los estudios de ablación confirman la eficacia de los componentes del marco MACER.
La estimación de la disposición espacial y la detección de objetos en 3D son dos tareas fundamentales en la comprensión de escenas interiores. Cuando se combinan, permiten la creación de una representación espacial compacta pero semánticamente rica de una escena. Los enfoques existentes suelen basarse en la entrada de nubes de puntos, lo que representa una limitación importante, ya que la mayoría de las cámaras de consumo carecen de sensores de profundidad y los datos exclusivamente visuales siguen siendo mucho más comunes. Abordamos este problema con TUN3D, el primer método que aborda conjuntamente la estimación de la disposición espacial y la detección de objetos en 3D en escaneos reales, utilizando imágenes multivista como entrada, y que no requiere poses de cámara con verdad de terreno ni supervisión de profundidad. Nuestro enfoque se basa en una arquitectura ligera de convolución dispersa y emplea dos cabezales dedicados: uno para la detección de objetos en 3D y otro para la estimación de la disposición espacial, aprovechando una representación paramétrica de paredes novedosa y efectiva. Experimentos exhaustivos muestran que TUN3D alcanza un rendimiento de vanguardia en tres desafiantes benchmarks de comprensión de escenas: (i) utilizando nubes de puntos con verdad de terreno, (ii) utilizando imágenes con poses conocidas, y (iii) utilizando imágenes sin poses conocidas. Mientras que su rendimiento es comparable al de métodos especializados en detección de objetos en 3D, TUN3D avanza significativamente en la estimación de la disposición espacial, estableciendo un nuevo referente en la comprensión holística de escenas interiores. El código está disponible en https://github.com/col14m/tun3d.
Los grandes modelos de lenguaje, entrenados en extensos corpus, logran unificar diversas tareas lingüísticas dentro de un único marco generativo. Inspirados por esto, trabajos recientes como el Modelo de Visión Grande (LVM) extienden este paradigma a la visión organizando tareas en oraciones visuales secuenciales, donde los estímulos visuales sirven como contexto para guiar las salidas. Sin embargo, este tipo de modelado requiere un preentrenamiento específico para cada tarea a través de modalidades y fuentes, lo cual es costoso y limita la escalabilidad a tareas no vistas. Dado que los modelos preentrenados de generación de video capturan inherentemente las dependencias de secuencias temporales, exploramos una alternativa más unificada y escalable: ¿puede un modelo preentrenado de generación de video adaptarse a diversas tareas de imagen y video? Para responder esto, proponemos UniVid, un marco que ajusta un transformador de difusión de video para manejar varias tareas de visión sin modificaciones específicas para cada tarea. Las tareas se representan como oraciones visuales, donde la secuencia de contexto define tanto la tarea como la modalidad de salida esperada. Evaluamos la generalización de UniVid desde dos perspectivas: (1) inferencia multimodal con contextos compuestos tanto por imágenes como videos, extendiéndose más allá del entorno unimodal de LVM; (2) tareas multifuente desde datos naturales hasta anotados, sin preentrenamiento multifuente. A pesar de estar entrenado únicamente con datos de video naturales, UniVid generaliza bien en ambos escenarios. Notablemente, las tareas de comprensión y generación pueden intercambiarse fácilmente simplemente invirtiendo el orden de la oración visual en este paradigma. Estos hallazgos resaltan el potencial de los modelos preentrenados de generación de video para servir como una base escalable y unificada para el modelado de visión. Nuestro código será publicado en https://github.com/CUC-MIPG/UniVid.
Los agentes de Interfaz Gráfica de Usuario (GUI, por sus siglas en inglés) buscan automatizar una amplia gama de tareas humanas mediante la emulación de la interacción del usuario. A pesar de los rápidos avances, los enfoques actuales se ven limitados por varios desafíos críticos: el cuello de botella de datos en el entrenamiento de extremo a extremo, el alto costo de la detección tardía de errores y el riesgo de orientación contradictoria. Inspirados por el ciclo cognitivo humano de Pensamiento, Alineación y Reflexión, presentamos D-Artemis, un novedoso marco deliberativo en este artículo. D-Artemis aprovecha un mecanismo de recuperación de sugerencias específicas de la aplicación para informar su proceso de toma de decisiones. También emplea una etapa proactiva de Alineación Pre-ejecución, donde el módulo de Verificación de Consistencia Pensamiento-Acción (TAC, por sus siglas en inglés) y el Agente de Corrección de Acciones (ACA, por sus siglas en inglés) trabajan en conjunto para mitigar el riesgo de fallos en la ejecución. Un Agente de Reflexión de Estado (SRA, por sus siglas en inglés) post-ejecución completa el ciclo cognitivo, permitiendo el aprendizaje estratégico a partir de la experiencia. De manera crucial, D-Artemis mejora las capacidades de los modelos de lenguaje multimodal de propósito general (MLLMs, por sus siglas en inglés) para tareas de GUI sin necesidad de entrenamiento en conjuntos de datos complejos de trayectorias, demostrando una fuerte generalización. D-Artemis establece nuevos resultados de última generación (SOTA, por sus siglas en inglés) en ambos benchmarks principales, logrando una tasa de éxito del 75.8% en AndroidWorld y del 96.8% en ScreenSpot-V2. Estudios de ablación extensos demuestran además la contribución significativa de cada componente al marco.
El ajuste fino por refuerzo (RFT, por sus siglas en inglés) a menudo sufre de sobreoptimización de recompensas, donde un modelo de política manipula las señales de recompensa para alcanzar puntuaciones altas mientras produce resultados de baja calidad. Nuestro análisis teórico muestra que la clave radica en la mala especificación de la recompensa en la cola de alta recompensa: la incapacidad de distinguir de manera confiable respuestas Excelentes de aquellas que son simplemente Buenas. Esto nos motiva a centrarnos en la región de alta recompensa. Sin embargo, tales ejemplos de la cola son escasos en el modelo base de lenguaje (LLM). Aunque los ejemplos fuera de la política (por ejemplo, de modelos más fuertes o reescrituras) son más fáciles de obtener, entrenar de manera ingenua con ellos produce una recompensa mal especificada para la política que buscamos alinear. Para abordar esto, estudiamos recompensas basadas en rúbricas. Por diseño, las rúbricas pueden aprovechar ejemplos fuera de la política mientras permanecen insensibles a sus artefactos. Para obtener rúbricas que capturen la cola de alta recompensa, destacamos la importancia de distinguir entre respuestas excelentes y diversas, e introducimos un flujo de trabajo para implementar esta idea. Demostramos empíricamente que las recompensas basadas en rúbricas mitigan sustancialmente la sobreoptimización de recompensas y ofrecen mejoras efectivas en el posentrenamiento de LLM. Nuestro código puede consultarse en https://github.com/Jun-Kai-Zhang/rubrics.git.
Los seres humanos desarrollan una comprensión de la física intuitiva a través de la interacción activa con el mundo. Este enfoque contrasta marcadamente con los modelos de video actuales, como Sora, que dependen de la observación pasiva y, por lo tanto, tienen dificultades para captar la causalidad física. Esta observación lleva a nuestra hipótesis central: la intuición física auténtica del modelo del mundo debe estar fundamentada en interacciones extensas y causalmente ricas con el mundo real. Para probar esta hipótesis, presentamos WoW, un modelo generativo del mundo con 14 mil millones de parámetros, entrenado en 2 millones de trayectorias de interacción robótica. Nuestros hallazgos revelan que la comprensión de la física por parte del modelo es una distribución probabilística de resultados plausibles, lo que conduce a inestabilidades estocásticas y alucinaciones físicas. Además, demostramos que esta capacidad emergente puede ser activamente restringida hacia el realismo físico mediante SOPHIA, donde agentes de modelos de visión-lenguaje evalúan la salida generada por DiT y guían su refinamiento mediante la evolución iterativa de las instrucciones de lenguaje. Adicionalmente, un Modelo de Dinámica Inversa co-entrenado traduce estos planes refinados en acciones robóticas ejecutables, cerrando así el ciclo de imaginación a acción. Establecemos WoWBench, un nuevo punto de referencia centrado en la consistencia física y el razonamiento causal en video, donde WoW alcanza un rendimiento de vanguardia tanto en evaluaciones humanas como autónomas, demostrando una fuerte capacidad en causalidad física, dinámica de colisiones y permanencia de objetos. Nuestro trabajo proporciona evidencia sistemática de que la interacción a gran escala con el mundo real es un pilar fundamental para desarrollar la intuición física en la IA. Los modelos, datos y puntos de referencia serán de código abierto.
El aprendizaje por refuerzo (RL, por sus siglas en inglés) es el paradigma dominante para perfeccionar las capacidades estratégicas de uso de herramientas de los LLMs (Modelos de Lenguaje de Gran Escala) en tareas de agentes con horizontes largos y recompensas escasas, pero enfrenta un desafío fundamental: el equilibrio entre exploración y explotación. Los estudios existentes fomentan la exploración a través de la lente de la entropía de la política, pero dicha maximización mecánica de la entropía tiende a generar inestabilidad en el entrenamiento de RL debido al cambio de distribución en múltiples turnos. En este artículo, abordamos el equilibrio progresivo entre exploración y explotación bajo la guía de las propias experiencias del agente, sin caer en el colapso de la entropía ni en la divergencia descontrolada. Proponemos SPEAR, una receta de aprendizaje por autoimitación (SIL, por sus siglas en inglés) basada en un currículo para entrenar LLMs agentivos. Este método extiende el marco básico de SIL, donde un búfer de reproducción almacena trayectorias prometedoras generadas por el propio agente para actualizaciones fuera de la política, al guiar gradualmente la evolución de la política dentro de un rango bien equilibrado de entropía a lo largo de las etapas. Específicamente, nuestro enfoque incorpora un currículo para gestionar el proceso de exploración, utilizando recompensas intrínsecas para fomentar la exploración a nivel de habilidades y facilitando la exploración a nivel de acciones mediante SIL. Inicialmente, la recompensa auxiliar por el uso de herramientas desempeña un papel crítico en la acumulación de habilidades de uso de herramientas, permitiendo una exposición amplia a las distribuciones desconocidas de la retroalimentación del entorno con una tendencia ascendente de entropía. A medida que avanza el entrenamiento, la autoimitación se fortalece para explotar patrones exitosos existentes a partir de experiencias reproducidas, acelerando la iteración de soluciones sin un crecimiento descontrolado de la entropía. Para estabilizar aún más el entrenamiento, recalibramos las ventajas de las experiencias en el búfer de reproducción para abordar la posible deriva de la política. Se introducen regularizaciones, como el recorte de tokens con alta covarianza entre la probabilidad y la ventaja, en el control de la entropía a nivel de trayectoria para evitar la sobreconfianza.
Aprovechando la simplicidad y efectividad de Dense O2O y MAL, DEIM se ha convertido en el marco de entrenamiento predominante para DETRs en tiempo real, superando significativamente a la serie YOLO. En este trabajo, lo extendemos con características de DINOv3, dando lugar a DEIMv2. DEIMv2 abarca ocho tamaños de modelo, desde X hasta Atto, cubriendo implementaciones en GPU, dispositivos de borde y móviles. Para las variantes X, L, M y S, adoptamos backbones preentrenados o destilados de DINOv3 e introducimos un Adaptador de Ajuste Espacial (STA, por sus siglas en inglés), que convierte eficientemente la salida de una sola escala de DINOv3 en características multiescala y complementa semánticas fuertes con detalles de grano fino para mejorar la detección. Para modelos ultraligeros (Nano, Pico, Femto y Atto), empleamos HGNetv2 con poda de profundidad y anchura para cumplir con presupuestos de recursos estrictos. Junto con un decodificador simplificado y una versión mejorada de Dense O2O, este diseño unificado permite a DEIMv2 lograr un equilibrio superior entre rendimiento y costo en diversos escenarios, estableciendo nuevos resultados de vanguardia. Destacablemente, nuestro modelo más grande, DEIMv2-X, alcanza 57.8 AP con solo 50.3 millones de parámetros, superando a modelos previos de escala X que requieren más de 60 millones de parámetros para apenas 56.5 AP. En el lado compacto, DEIMv2-S es el primer modelo con menos de 10 millones de parámetros (9.71 millones) en superar el hito de 50 AP en COCO, alcanzando 50.9 AP. Incluso el ultraligero DEIMv2-Pico, con solo 1.5 millones de parámetros, ofrece 38.5 AP, igualando a YOLOv10-Nano (2.3 millones) con aproximadamente un 50 por ciento menos de parámetros. Nuestro código y modelos preentrenados están disponibles en https://github.com/Intellindust-AI-Lab/DEIMv2.
Presentamos X-Streamer, un marco de modelado multimodal del mundo humano de extremo a extremo para construir agentes humanos digitales capaces de interacciones infinitas a través de texto, voz y video dentro de una única arquitectura unificada. A partir de un solo retrato, X-Streamer permite videollamadas en tiempo real y de duración abierta impulsadas por entradas multimodales en flujo continuo. En su núcleo se encuentra una arquitectura dual-transformadora Thinker-Actor que unifica la comprensión y generación multimodal, transformando un retrato estático en interacciones audiovisuales persistentes e inteligentes. El módulo Thinker percibe y razona sobre las entradas del usuario en flujo continuo, mientras que sus estados ocultos son traducidos por el Actor en flujos multimodales sincronizados en tiempo real. Concretamente, el Thinker aprovecha un modelo preentrenado de lenguaje y voz a gran escala, mientras que el Actor emplea un modelo de difusión autoregresivo por fragmentos que atiende cruzadamente a los estados ocultos del Thinker para producir respuestas multimodales alineadas en el tiempo, con tokens discretos de texto y audio intercalados y latentes de video continuos. Para garantizar la estabilidad a largo plazo, diseñamos atenciones inter e intra-fragmentos con incrustaciones posicionales multimodales alineadas en el tiempo para una alineación cruzada de modalidades de grano fino y retención de contexto, reforzadas adicionalmente por forzado de difusión por fragmentos y referenciación global de identidad. X-Streamer funciona en tiempo real en dos GPUs A100, sosteniendo experiencias de videollamada consistentes durante horas a partir de retratos arbitrarios y allanando el camino hacia el modelado unificado del mundo de humanos digitales interactivos.
El procesamiento eficiente de imágenes de alta resolución es crucial para aplicaciones de visión y lenguaje en el mundo real. Sin embargo, los modelos de visión y lenguaje a gran escala (LVLMs, por sus siglas en inglés) existentes incurren en un costo computacional sustancial debido al gran número de tokens visuales. Con el surgimiento de los modelos de "pensar con imágenes", el razonamiento ahora se extiende más allá del texto al dominio visual. Esta capacidad motiva nuestra canalización de razonamiento de dos etapas "de grueso a fino": primero, se analiza una imagen reducida en resolución para identificar regiones relevantes para la tarea; luego, solo estas regiones se recortan a resolución completa y se procesan en una etapa posterior de razonamiento. Este enfoque reduce el costo computacional mientras preserva detalles visuales finos donde sea necesario. Un desafío importante radica en inferir qué regiones son verdaderamente relevantes para una consulta dada. Métodos relacionados recientes a menudo fallan en la primera etapa después de la reducción de resolución de la imagen de entrada, debido al razonamiento basado en la percepción, donde se requiere información visual clara para un razonamiento efectivo. Para abordar este problema, proponemos ERGO (Razonamiento Eficiente y Observación Guiada, por sus siglas en inglés), que realiza una percepción impulsada por el razonamiento, aprovechando el contexto multimodal para determinar dónde enfocarse. Nuestro modelo puede tener en cuenta la incertidumbre perceptual, expandiendo la región recortada para cubrir áreas visualmente ambiguas al responder preguntas. Para ello, desarrollamos componentes de recompensa simples pero efectivos en un marco de aprendizaje por refuerzo para la percepción de grueso a fino. En múltiples conjuntos de datos, nuestro enfoque ofrece una mayor precisión que el modelo original y métodos competitivos, con mayor eficiencia. Por ejemplo, ERGO supera a Qwen2.5-VL-7B en el punto de referencia V* por 4.7 puntos mientras utiliza solo el 23% de los tokens visuales, logrando una aceleración de inferencia de 3x. El código y los modelos se pueden encontrar en: https://github.com/nota-github/ERGO.
La mayoría de los enfoques existentes para la segmentación referencial logran un rendimiento sólido únicamente mediante ajustes finos o mediante la composición de múltiples modelos preentrenados, a menudo a costa de entrenamientos adicionales y modificaciones arquitectónicas. Mientras tanto, los modelos generativos de difusión a gran escala codifican información semántica rica, lo que los hace atractivos como extractores de características de propósito general. En este trabajo, introducimos un nuevo método que explota directamente las características, específicamente las puntuaciones de atención, de los transformadores de difusión para tareas posteriores, sin requerir modificaciones arquitectónicas ni entrenamiento adicional. Para evaluar sistemáticamente estas características, ampliamos los puntos de referencia con tareas de anclaje visión-lenguaje que abarcan tanto imágenes como videos. Nuestra idea clave es que las palabras de parada actúan como imanes de atención: acumulan un excedente de atención y pueden filtrarse para reducir el ruido. Además, identificamos sumideros de atención global (GAS, por sus siglas en inglés) que emergen en capas más profundas y demostramos que pueden suprimirse o redirigirse de manera segura hacia tokens auxiliares, lo que resulta en mapas de anclaje más nítidos y precisos. Proponemos además una estrategia de redistribución de la atención, donde las palabras de parada añadidas dividen las activaciones del fondo en grupos más pequeños, produciendo mapas de calor más definidos y localizados. Basándonos en estos hallazgos, desarrollamos RefAM, un marco de anclaje simple y libre de entrenamiento que combina mapas de atención cruzada, manejo de GAS y redistribución. En los puntos de referencia de segmentación referencial de imágenes y videos en modo cero-shot, nuestro enfoque supera consistentemente a los métodos anteriores, estableciendo un nuevo estado del arte sin ajustes finos ni componentes adicionales.
La edición de imágenes guiada por texto con modelos de difusión ha logrado una calidad notable, pero sufre de una latencia prohibitiva, lo que dificulta su aplicación en el mundo real. Presentamos FlashEdit, un marco novedoso diseñado para permitir la edición de imágenes en tiempo real con alta fidelidad. Su eficiencia se deriva de tres innovaciones clave: (1) una canalización de Inversión y Edición en un Solo Paso (OSIE) que evita procesos iterativos costosos; (2) una técnica de Escudo de Fondo (BG-Shield) que garantiza la preservación del fondo al modificar selectivamente características solo dentro de la región de edición; y (3) un mecanismo de Atención Cruzada Espacial Esparcida (SSCA) que asegura ediciones precisas y localizadas al suprimir la fuga semántica hacia el fondo. Experimentos extensos demuestran que FlashEdit mantiene una consistencia superior del fondo y la integridad estructural, mientras realiza ediciones en menos de 0.2 segundos, lo que representa una aceleración de más de 150 veces en comparación con métodos previos de múltiples pasos. Nuestro código estará disponible públicamente en https://github.com/JunyiWuCode/FlashEdit.
El desarrollo de sistemas de IA que operen eficazmente en múltiples idiomas mientras se mantienen culturalmente fundamentados es un desafío de larga data, particularmente en entornos de bajos recursos. Los datos sintéticos ofrecen una vía prometedora, aunque su efectividad en contextos multilingües y multiculturales sigue siendo poco explorada. Investigamos la creación y el impacto de conjuntos de datos sintéticos y contextualizados culturalmente para idiomas indios mediante una estrategia de generación ascendente que utiliza modelos de lenguaje grandes (LLMs) de código abierto (>= 235B parámetros) para fundamentar la generación de datos en contenido específico de Wikipedia en cada idioma. Este enfoque complementa el paradigma dominante de traducción descendente de conjuntos de datos sintéticos desde idiomas de altos recursos, como el inglés. Presentamos Updesh, un conjunto de datos sintéticos de gran escala y alta calidad para seguimiento de instrucciones, que comprende 9.5 millones de puntos de datos en 13 idiomas indios, abarcando diversas tareas de razonamiento y generación con énfasis en capacidades de contexto largo, interacciones multiturno y alineación con contextos culturales indios. Una evaluación exhaustiva que incorpora métricas automatizadas y anotación humana en 10k evaluaciones indica que los datos generados son de alta calidad; sin embargo, la evaluación humana resalta áreas para futuras mejoras. Además, realizamos evaluaciones posteriores ajustando modelos con nuestro conjunto de datos y evaluando su rendimiento en 15 conjuntos de datos multilingües diversos. Los modelos entrenados con Updesh logran consistentemente mejoras significativas en tareas generativas y se mantienen competitivos en tareas de comprensión del lenguaje natural (NLU) de opción múltiple. Notablemente, las mejoras relativas son más pronunciadas en idiomas de bajos y medianos recursos, reduciendo su brecha con los idiomas de altos recursos. Estos hallazgos proporcionan evidencia empírica de que la IA multilingüe efectiva requiere estrategias multifacéticas de curación y generación de datos que incorporen metodologías conscientes del contexto y culturalmente fundamentadas.
Los transformadores autorregresivos (AR) han surgido como un paradigma poderoso para la generación visual, en gran parte debido a su escalabilidad, eficiencia computacional y arquitectura unificada para el lenguaje y la visión. Entre ellos, la predicción de escala siguiente en la Generación Visual Autorregresiva (VAR) ha demostrado recientemente un rendimiento notable, superando incluso a los modelos basados en difusión. En este trabajo, revisitamos VAR y descubrimos una perspectiva teórica: cuando se equipa con una máscara de atención markoviana, VAR es matemáticamente equivalente a una difusión discreta. Denominamos esta reinterpretación como Refinamiento Visual Escalable con Difusión Discreta (SRDD), estableciendo un puente fundamentado entre los transformadores AR y los modelos de difusión. Aprovechando esta nueva perspectiva, mostramos cómo se pueden importar directamente las ventajas de la difusión, como el refinamiento iterativo, y reducir las ineficiencias arquitectónicas en VAR, logrando una convergencia más rápida, un menor costo de inferencia y una reconstrucción zero-shot mejorada. A través de múltiples conjuntos de datos, demostramos que la perspectiva basada en difusión de VAR conduce a ganancias consistentes en eficiencia y generación.
Los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) han demostrado capacidades notables para alinear entradas visuales con salidas de lenguaje natural. Sin embargo, el grado en que los tokens generados dependen de las modalidades visuales sigue siendo poco comprendido, lo que limita la interpretabilidad y la confiabilidad. En este trabajo, presentamos EAGLE, un marco ligero de caja negra para explicar la generación autoregresiva de tokens en MLLMs. EAGLE atribuye cualquier token seleccionado a regiones perceptivas compactas mientras cuantifica la influencia relativa de los antecedentes lingüísticos y la evidencia perceptiva. El marco introduce una función objetivo que unifica la suficiencia (puntaje de percepción) y la indispensabilidad (puntaje de necesidad), optimizada mediante búsqueda voraz sobre regiones de imagen esparcidas para una atribución fiel y eficiente. Más allá de la atribución espacial, EAGLE realiza un análisis consciente de la modalidad que desentraña en qué tokens se basan, proporcionando una interpretabilidad detallada de las decisiones del modelo. Experimentos extensos en MLLMs de código abierto muestran que EAGLE supera consistentemente a los métodos existentes en fidelidad, localización y diagnóstico de alucinaciones, mientras requiere significativamente menos memoria de GPU. Estos resultados destacan su efectividad y practicidad para avanzar en la interpretabilidad de los MLLMs. El código está disponible en https://github.com/RuoyuChen10/EAGLE.
Aunque los modelos de difusión han logrado avances notables en la generación de imágenes, sus resultados aún pueden parecer poco realistas y carecer de detalles finos, especialmente cuando se utiliza un menor número de evaluaciones de funciones neuronales (NFEs, por sus siglas en inglés) o escalas de guía más bajas. Para abordar este problema, proponemos una novedosa técnica de muestreo basada en momentum, denominada muestreo guiado por historial (HiGS, por sus siglas en inglés), que mejora la calidad y la eficiencia del muestreo de difusión al integrar predicciones recientes del modelo en cada paso de inferencia. Específicamente, HiGS aprovecha la diferencia entre la predicción actual y un promedio ponderado de predicciones pasadas para dirigir el proceso de muestreo hacia resultados más realistas con mejores detalles y estructura. Nuestro enfoque introduce prácticamente ningún cálculo adicional y se integra sin problemas en los marcos de difusión existentes, sin requerir entrenamiento adicional ni ajustes finos. Experimentos extensos muestran que HiGS mejora consistentemente la calidad de las imágenes en diversos modelos y arquitecturas, y bajo diferentes presupuestos de muestreo y escalas de guía. Además, utilizando un modelo SiT preentrenado, HiGS alcanza un nuevo estado del arte con un FID de 1.61 para la generación no guiada de ImageNet a 256x256 con solo 30 pasos de muestreo (en lugar de los 250 estándar). Por lo tanto, presentamos HiGS como una mejora plug-and-play para el muestreo estándar de difusión que permite una generación más rápida con mayor fidelidad.
El reconocimiento preciso de textos históricos puede impulsar significativamente el estudio y la preservación del patrimonio cultural. Sin embargo, los modelos de visión y lenguaje (VLMs) existentes están diseñados para textos modernos y estandarizados, y no están preparados para leer los diversos idiomas y escrituras, los diseños irregulares y la degradación frecuente presentes en los materiales históricos. Este artículo presenta CHURRO, un VLM de 3 mil millones de parámetros de código abierto especializado en el reconocimiento de textos históricos. El modelo se entrena con CHURRO-DS, el conjunto de datos más grande hasta la fecha para el reconocimiento de textos históricos. CHURRO-DS unifica 155 corpus históricos que comprenden 99,491 páginas, abarcando 22 siglos de herencia textual en 46 grupos lingüísticos, incluyendo variantes históricas y lenguas muertas. Evaluamos varios VLMs de código abierto y cerrado, así como sistemas de reconocimiento óptico de caracteres (OCR), en CHURRO-DS y encontramos que CHURRO supera a todos los demás VLMs. En el conjunto de pruebas de CHURRO-DS, CHURRO alcanza un 82.3% (impreso) y un 70.1% (manuscrito) de similitud normalizada de Levenshtein, superando al segundo mejor modelo, Gemini 2.5 Pro, en un 1.4% y un 6.5%, respectivamente, mientras es 15.5 veces más rentable. Al liberar el modelo y el conjunto de datos, buscamos fomentar la investigación impulsada por la comunidad para mejorar la legibilidad de los textos históricos y acelerar el avance académico.
Aunque los modelos basados en Transformers han demostrado un rendimiento notable en el modelado del lenguaje, sus altas complejidades resultan en costos elevados al procesar contextos largos. En contraste, las redes neuronales recurrentes (RNN), como los modelos de atención lineal y los modelos de espacio de estados, han ganado popularidad debido a sus complejidades constantes por token. Sin embargo, estos modelos recurrentes enfrentan dificultades en tareas que requieren una recuperación precisa de información contextual de contextos largos, ya que toda la información contextual se comprime en un estado recurrente de tamaño constante. Trabajos previos han demostrado que la capacidad de recuperación está positivamente correlacionada con el tamaño del estado recurrente, pero entrenar directamente RNNs con estados recurrentes más grandes resulta en costos de entrenamiento elevados. En este artículo, presentamos StateX, una canalización de entrenamiento para expandir eficientemente los estados de RNNs preentrenados mediante post-entrenamiento. Para dos clases populares de RNNs, la atención lineal y los modelos de espacio de estados, diseñamos modificaciones arquitectónicas de post-entrenamiento para escalar el tamaño del estado sin aumentar o con un aumento insignificante en los parámetros del modelo. Experimentos en modelos de hasta 1.3 mil millones de parámetros demuestran que StateX mejora eficientemente la capacidad de recuperación y aprendizaje en contexto de las RNNs sin incurrir en altos costos de post-entrenamiento ni comprometer otras capacidades.
Los sistemas predominantes de recuperación de texto a video adoptan principalmente modelos de incrustación para la extracción de características y calculan similitudes coseno para la clasificación. Sin embargo, este diseño presenta dos limitaciones. Los pares de datos texto-video de baja calidad podrían comprometer la recuperación, pero son difíciles de identificar y examinar. La similitud coseno por sí sola no proporciona una explicación para los resultados de la clasificación, lo que limita la interpretabilidad. Nos preguntamos: ¿podemos interpretar los resultados de la clasificación para evaluar los modelos de recuperación y examinar los datos texto-video? Este trabajo propone X-CoT, un marco de recuperación explicable basado en el razonamiento CoT de modelos de lenguaje grandes (LLM) en lugar de la clasificación basada en similitudes de modelos de incrustación. Primero, ampliamos los puntos de referencia existentes con anotaciones adicionales de video para apoyar la comprensión semántica y reducir el sesgo de los datos. También diseñamos un CoT de recuperación que consiste en pasos de comparación por pares, generando un razonamiento detallado y una clasificación completa. X-CoT mejora empíricamente el rendimiento de la recuperación y produce justificaciones detalladas. Además, facilita el análisis del comportamiento del modelo y la calidad de los datos. El código y los datos están disponibles en: https://github.com/PrasannaPulakurthi/X-CoT.
El Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF) y el Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) son los principales paradigmas de RL utilizados en el posentrenamiento de LLM, cada uno ofreciendo ventajas distintivas. Sin embargo, RLHF enfrenta desafíos en cuanto a interpretabilidad y manipulación de recompensas debido a su dependencia de juicios humanos que generalmente carecen de criterios explícitos, mientras que RLVR está limitado en alcance por su enfoque en verificadores basados en la corrección. Proponemos el Aprendizaje por Refuerzo con Retroalimentación Binaria Flexible (RLBFF), que combina la versatilidad de las preferencias impulsadas por humanos con la precisión de la verificación basada en reglas, permitiendo que los modelos de recompensa capturen aspectos matizados de la calidad de las respuestas más allá de la mera corrección. RLBFF extrae principios que pueden responderse de manera binaria (por ejemplo, precisión de la información: sí, o legibilidad del código: no) a partir de retroalimentación en lenguaje natural. Dichos principios pueden luego utilizarse para fundamentar el entrenamiento del Modelo de Recompensa como una tarea de implicación (la respuesta satisface o no satisface un principio arbitrario). Demostramos que los Modelos de Recompensa entrenados de esta manera pueden superar a los modelos de Bradley-Terry cuando se comparan con los mismos datos y alcanzan un rendimiento superior en RM-Bench (86.2%) y JudgeBench (81.4%, #1 en la tabla de clasificación al 24 de septiembre de 2025). Además, los usuarios pueden especificar principios de interés en el momento de la inferencia para personalizar el enfoque de nuestros modelos de recompensa, a diferencia de los modelos de Bradley-Terry. Finalmente, presentamos una receta completamente de código abierto (incluyendo datos) para alinear Qwen3-32B utilizando RLBFF y nuestro Modelo de Recompensa, logrando igualar o superar el rendimiento de o3-mini y DeepSeek R1 en los benchmarks generales de alineación de MT-Bench, WildBench y Arena Hard v2 (con menos del 5% del costo de inferencia).
El Diseño Asistido por Computadora (CAD) es un componente fundamental de la creación de prototipos industriales, donde los modelos no se definen mediante coordenadas en bruto, sino mediante secuencias de construcción como bocetos y extrusiones. Esta estructura secuencial permite tanto una inicialización eficiente de los prototipos como su posterior edición. La creación de prototipos CAD guiada por texto, que unifica la generación de Texto a CAD y la edición de CAD, tiene el potencial de optimizar todo el flujo de diseño. Sin embargo, trabajos anteriores no han explorado este enfoque, en gran parte porque los tokenizadores estándar de los modelos de lenguaje de gran escala (LLM) descomponen las secuencias de CAD en fragmentos de lenguaje natural, lo que no logra capturar la semántica de CAD a nivel de primitivas y dificulta que los módulos de atención modelen la estructura geométrica. Conjeturamos que una estrategia de tokenización multimodal, alineada con la naturaleza primitiva y estructural del CAD, puede proporcionar representaciones más efectivas. Con este fin, proponemos CAD-Tokenizer, un marco que representa los datos de CAD con tokens específicos de cada modalidad utilizando un VQ-VAE basado en secuencias con agrupación a nivel de primitivas y decodificación restringida. Este diseño produce representaciones compactas y conscientes de las primitivas que se alinean con la naturaleza estructural del CAD. Aplicado a la creación de prototipos CAD guiada por texto unificada, CAD-Tokenizer mejora significativamente el seguimiento de instrucciones y la calidad de la generación, logrando un mejor rendimiento cuantitativo y cualitativo en comparación con los LLM de propósito general y las líneas base específicas de la tarea.
La localización de objetos en 3D basada en una secuencia de mediciones de cámara es esencial para tareas de vigilancia críticas para la seguridad, como el monitoreo de incendios forestales mediante drones. La localización de objetos detectados con una cámara puede resolverse típicamente mediante estimación densa de profundidad o reconstrucción de escenas en 3D. Sin embargo, en el contexto de objetos distantes o tareas limitadas por la cantidad de recursos computacionales disponibles, ninguna de estas soluciones es viable. En este artículo, demostramos que la tarea puede resolverse utilizando filtros de partículas tanto para escenarios de un solo objetivo como de múltiples objetivos. El método se estudió utilizando una simulación en 3D y una secuencia de segmentación de imágenes basada en drones con estimaciones de la pose de la cámara basadas en el sistema global de navegación por satélite (GNSS). Los resultados mostraron que un filtro de partículas puede utilizarse para resolver tareas prácticas de localización basadas en las poses de la cámara y segmentos de imagen en situaciones donde otras soluciones fallan. El filtro de partículas es independiente del método de detección, lo que lo hace flexible para nuevas tareas. El estudio también demuestra que el monitoreo de incendios forestales mediante drones puede llevarse a cabo utilizando el método propuesto junto con un modelo de segmentación de imágenes preexistente.
La invocación de funciones es una capacidad fundamental de los modelos de lenguaje de gran escala, esencial para los agentes de IA. Los puntos de referencia existentes, como el Berkeley Function Calling Leaderboard (BFCL), tau^2-Bench (arXiv:2506.07982) y ACEBench (arXiv:2501.12851), evalúan la corrección de los argumentos, pero no prueban el cumplimiento de las instrucciones de formato incrustadas en las descripciones de los parámetros, como encerrar valores entre comillas dobles o utilizar formatos de fecha ISO. Presentamos IFEval-FC, un punto de referencia inspirado en IFEval (arXiv:2311.07911) que evalúa el seguimiento preciso de instrucciones en la invocación de funciones. IFEval-FC codifica formatos verificables directamente dentro de las descripciones del esquema JSON, por ejemplo, especificando que un valor no debe contener puntuación. Incluye 750 casos de prueba, cada uno compuesto por una función con un formato incrustado para uno de sus parámetros de entrada y una consulta de usuario correspondiente. La evaluación es completamente algorítmica, garantizando objetividad, reproducibilidad y escalabilidad. Nuestros resultados muestran que incluso los modelos propietarios más avanzados, como GPT-5 y Claude 4.1 Opus, con frecuencia no siguen reglas básicas de formato, lo que resalta una limitación práctica para los sistemas de agentes en el mundo real. El código completo y los datos están disponibles públicamente en https://github.com/Skripkon/IFEval-FC.