Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos Ling 2.0, una serie de fundamentos lingüísticos orientados al razonamiento construida bajo el principio de que cada activación potencia la capacidad de razonar. Diseñada para escalar desde decenas de miles de millones hasta un billón de parámetros bajo un paradigma unificado de Mixture-of-Experts (MoE), Ling 2.0 hace hincapié en la alta dispersidad, la consistencia entre escalas y la eficiencia guiada por leyes de escalado empíricas. La serie incluye tres modelos "no pensantes" (instruct) - Ling-mini-2.0, Ling-flash-2.0 y Ling-1T - que abarcan desde 16B hasta 1T de parámetros totales y logran una eficiencia de cómputo activo hasta 7 veces mayor en comparación con sus contrapartes densas. Ling 2.0 integra innovaciones coordinadas en arquitectura del modelo, pre-entrenamiento, post-entrenamiento e infraestructura: un MoE de alta dispersidad con MTP para un razonamiento eficiente, datos orientados al razonamiento y activación CoT a mitad del entrenamiento, ajuste fino basado en refuerzo (DFT, Evo-CoT), y entrenamiento completo en FP8 con pipelines heterogéneos de grano fino. A la escala de un billón, Ling-1T establece una nueva frontera de Pareto de precisión en el razonamiento versus eficiencia computacional, demostrando que la activación dispersa, cuando se alinea adecuadamente con los objetivos de razonamiento, permite una inteligencia escalable y eficiente. En conjunto, Ling 2.0 proporciona una base coherente, abierta y eficiente para impulsar futuros modelos de razonamiento y pensamiento, incluyendo la serie Ring construida sobre la misma base.
Las políticas implícitas parametrizadas por modelos generativos, como Diffusion Policy, se han convertido en el estándar para el aprendizaje de políticas y los modelos Visión-Lenguaje-Acción (VLA) en robótica. Sin embargo, estos enfoques a menudo adolecen de un alto coste computacional, sesgo de exposición y dinámicas de inferencia inestables, lo que provoca divergencia bajo cambios de distribución. Los Modelos Basados en Energía (EBM) abordan estos problemas aprendiendo paisajes de energía de extremo a extremo y modelando dinámicas de equilibrio, ofreciendo una mayor robustez y un sesgo de exposición reducido. No obstante, las políticas parametrizadas por EBM históricamente han tenido dificultades para escalar de manera efectiva. Trabajos recientes sobre Transformadores Basados en Energía (EBT) demuestran la escalabilidad de los EBM a espacios de alta dimensionalidad, pero su potencial para resolver desafíos centrales en modelos físicamente corporeizados sigue estando poco explorado. Introducimos una nueva arquitectura basada en energía, EBT-Policy, que resuelve problemas fundamentales en entornos robóticos y del mundo real. En diversas tareas simuladas y del mundo real, EBT-Policy supera consistentemente a las políticas basadas en difusión, requiriendo además menos cómputo tanto en el entrenamiento como en la inferencia. Notablemente, en algunas tareas converge en solo dos pasos de inferencia, una reducción de 50x comparado con los 100 pasos de Diffusion Policy. Además, EBT-Policy exhibe capacidades emergentes no vistas en modelos anteriores, como la recuperación *zero-shot* de secuencias de acciones fallidas utilizando únicamente clonación de comportamiento y sin un entrenamiento explícito de reintento. Al aprovechar su energía escalar para realizar inferencias conscientes de la incertidumbre y asignación dinámica de cómputo, EBT-Policy ofrece un camino prometedor hacia comportamientos robóticos robustos y generalizables bajo cambios de distribución.
El Escalado en Tiempo de Prueba (TTS) mejora los modelos de lenguaje grande (LLM) mediante la asignación de cómputo adicional durante la inferencia, típicamente a través de escalado paralelo, secuencial o híbrido. Sin embargo, estudios previos a menudo asumen arquitecturas de colaboración fijas (por ejemplo, topologías) y uso de un único modelo, pasando por alto que las arquitecturas y combinaciones de modelos óptimas pueden variar entre tareas. Por lo tanto, estudiamos el novedoso problema de buscar combinaciones de modelos y arquitecturas óptimas en cómputo dentro de TTS bajo un presupuesto fijo. Lo formalizamos como un grafo de colaboración multi-LLM, donde los nodos codifican roles y asignaciones de modelos LLM, y las aristas capturan el flujo de información. Este problema es desafiante porque (i) el espacio de búsqueda combinatorio es prohibitivamente grande, y (ii) los requisitos específicos de la tarea exigen diseños a medida. Para abordarlos, reformulamos el problema como una optimización de grafos probabilística y, mediante experimentos piloto, derivamos tres ideas empíricas sobre los grafos de colaboración TTS. Guiados por estas ideas, proponemos Agent-REINFORCE, un marco aumentado con agentes LLM que refleja la pipeline REINFORCE al mapear muestreo-gradiente-actualización a muestreo-retroalimentación-actualización, donde la retroalimentación sirve como un gradiente textual para actualizar el grafo probabilístico y buscar eficientemente grafos de colaboración multi-LLM óptimos. Los experimentos muestran que Agent-REINFORCE supera a las líneas base tradicionales y basadas en LLM en eficiencia de muestreo y rendimiento de búsqueda, e identifica efectivamente grafos óptimos bajo objetivos conjuntos de precisión y latencia de inferencia.
Presentamos [Cosmos-Predict2.5], la última generación de los Modelos Fundacionales del Mundo Cosmos para la Inteligencia Artificial Física. Basado en una arquitectura de flujo, [Cosmos-Predict2.5] unifica la generación de Texto-a-Mundo, Imagen-a-Mundo y Video-a-Mundo en un único modelo y aprovecha [Cosmos-Reason1], un modelo de visión y lenguaje para IA Física, para proporcionar una base textual más rica y un control más fino de la simulación del mundo. Entrenado con 200 millones de clips de video seleccionados y refinado con un post-entrenamiento basado en aprendizaje por refuerzo, [Cosmos-Predict2.5] logra mejoras sustanciales respecto a [Cosmos-Predict1] en calidad de video y alineación con instrucciones, con modelos publicados en escalas de 2B y 14B. Estas capacidades permiten una generación de datos sintéticos más confiable, evaluación de políticas y simulación de bucle cerrado para robótica y sistemas autónomos. Ampliamos además la familia con [Cosmos-Transfer2.5], un marco de trabajo estilo control-net para la traducción del mundo Sim2Real y Real2Real. A pesar de ser 3.5 veces más pequeño que [Cosmos-Transfer1], ofrece una generación de video de mayor fidelidad y robustez a largo horizonte. En conjunto, estos avances establecen a [Cosmos-Predict2.5] y [Cosmos-Transfer2.5] como herramientas versátiles para escalar la inteligencia embodada. Para acelerar la investigación y el despliegue en IA Física, publicamos el código fuente, puntos de control preentrenados y benchmarks seleccionados bajo la Licencia de Modelo Abierto de NVIDIA en https://github.com/nvidia-cosmos/cosmos-predict2.5 y https://github.com/nvidia-cosmos/cosmos-transfer2.5. Esperamos que estos recursos abiertos reduzcan las barreras de adopción y fomenten la innovación en la construcción de la próxima generación de inteligencia embodada.
Los recientes avances en modelos generativos multimodales han impulsado mejoras sustanciales en la edición de imágenes. Sin embargo, los modelos generativos actuales aún presentan dificultades para manejar tareas de edición de imágenes diversas y complejas que requieren razonamiento implícito, lo que subraya la necesidad de un benchmark integral para evaluar sistemáticamente su rendimiento en diversos escenarios de razonamiento. Los benchmarks existentes se centran principalmente en la transformación de atributos de objetos únicos en escenarios realistas, los cuales, si bien son efectivos, enfrentan dos desafíos clave: (1) en gran medida pasan por alto las interacciones multiobjeto, así como los escenarios de mundo de juego que involucran reglas definidas por humanos, comunes en aplicaciones de la vida real; (2) solo se basan en referencias textuales para evaluar las imágenes generadas, lo que potencialmente conduce a errores de juicio sistemáticos, especialmente en escenarios de razonamiento complejos. Para ello, este trabajo propone UniREditBench, un benchmark unificado para la evaluación de la edición de imágenes basada en razonamiento. Comprende 2.700 muestras meticulosamente curadas, que cubren escenarios tanto del mundo real como de juego a través de 8 dimensiones principales y 18 subdimensiones. Para mejorar la fiabilidad de la evaluación, introducimos la evaluación de referencia dual multimodal, proporcionando referencias tanto textuales como de imagen de ground-truth para cada evaluación de muestra. Además, diseñamos una pipeline automatizada de síntesis de datos multi-escenario y construimos UniREdit-Data-100K, un conjunto de datos sintético a gran escala con anotaciones de razonamiento de cadena de pensamiento (CoT) de alta calidad. Ajustamos Bagel en este conjunto de datos y desarrollamos UniREdit-Bagel, que demuestra mejoras sustanciales tanto en configuraciones dentro del dominio como fuera de la distribución. Mediante una evaluación exhaustiva de modelos de edición de imágenes tanto de código abierto como cerrado, revelamos sus fortalezas y debilidades en varios aspectos.
La reluminación es una tarea crucial con demanda práctica y valor artístico, y los recientes modelos de difusión han mostrado un gran potencial al permitir efectos de iluminación ricos y controlables. Sin embargo, como generalmente se optimizan en un espacio latente semántico, donde la proximidad no garantiza la corrección física en el espacio visual, a menudo producen resultados poco realistas, como reflejos sobreexpuestos, sombras desalineadas y oclusiones incorrectas. Abordamos este problema con UniLumos, un marco unificado de reluminación para imágenes y videos que incorpora retroalimentación geométrica en el espacio RGB en un backbone de flujo coincidente. Al supervisar el modelo con mapas de profundidad y normales extraídos de sus salidas, alineamos explícitamente los efectos de iluminación con la estructura de la escena, mejorando la plausibilidad física. No obstante, esta retroalimentación requiere salidas de alta calidad para la supervisión en el espacio visual, lo que hace que la eliminación de ruido multi-paso estándar sea computacionalmente costosa. Para mitigar esto, empleamos el aprendizaje de consistencia de trayectoria, permitiendo que la supervisión siga siendo efectiva incluso bajo regímenes de entrenamiento con pocos pasos. Para permitir un control y supervisión detallados de la reluminación, diseñamos un protocolo de anotación estructurado de seis dimensiones que captura los atributos fundamentales de la iluminación. Sobre esta base, proponemos LumosBench, un benchmark desacoplado a nivel de atributos que evalúa la capacidad de control de la iluminación mediante grandes modelos de visión y lenguaje, permitiendo una evaluación automática e interpretable de la precisión de la reluminación en dimensiones individuales. Experimentos exhaustivos demuestran que UniLumos logra una calidad de reluminación de vanguardia con una consistencia física significativamente mejorada, mientras ofrece una aceleración de 20x tanto para la reluminación de imágenes como de videos. El código está disponible en https://github.com/alibaba-damo-academy/Lumos-Custom.
Las Redes Neuronales de Grafos operan mediante la transmisión de mensajes de abajo hacia arriba, lo que difiere fundamentalmente de la percepción visual humana, que capta intuitivamente primero las estructuras globales. Investigamos el potencial subestimado de los modelos de visión para la comprensión de grafos, encontrando que alcanzan un rendimiento comparable al de las GNN en benchmarks establecidos, mientras exhiben patrones de aprendizaje claramente diferentes. Estos comportamientos divergentes, combinados con las limitaciones de los benchmarks existentes que confunden características del dominio con la comprensión topológica, motivan nuestra introducción de GraphAbstract. Este benchmark evalúa la capacidad de los modelos para percibir propiedades globales de los grafos como lo hacen los humanos: reconociendo arquetipos organizacionales, detectando simetrías, percibiendo la fuerza de conectividad e identificando elementos críticos. Nuestros resultados revelan que los modelos de visión superan significativamente a las GNN en tareas que requieren una comprensión estructural holística y mantienen una capacidad de generalización a través de diferentes escalas de grafos, mientras que las GNN luchan con la abstracción de patrones globales y se degradan con el aumento del tamaño del grafo. Este trabajo demuestra que los modelos de visión poseen capacidades notables pero subutilizadas para la comprensión estructural de grafos, particularmente para problemas que requieren conciencia topológica global y razonamiento invariante a la escala. Estos hallazgos abren nuevas vías para aprovechar este potencial subestimado y desarrollar modelos fundacionales de grafos más efectivos para tareas dominadas por el reconocimiento holístico de patrones.
Los grandes modelos de razonamiento (LRM) demuestran sólidas capacidades en razonamiento complejo, pero sus ganancias marginales en preguntas fácticas dependientes de evidencia son limitadas. Encontramos que esta limitación es parcialmente atribuible a una brecha de acierto razonamiento-respuesta, donde el modelo identifica los hechos correctos durante el razonamiento pero no logra incorporarlos en la respuesta final, reduciendo así la fidelidad factual. Para abordar este problema, proponemos MR-ALIGN, un marco de alineación basado en meta-razonamiento que mejora la factualidad sin depender de verificadores externos. MR-ALIGN cuantifica las probabilidades de transición de estado a lo largo del proceso de pensamiento del modelo y construye una recompensa implícita consciente de las transiciones que refuerza patrones de razonamiento beneficiosos mientras suprime los defectuosos en los segmentos atómicos de pensamiento. Esta reponderación remodela las señales a nivel de token en puntuaciones de segmento conscientes de la probabilidad, fomentando trayectorias de razonamiento coherentes que son más conducentes a la corrección factual. Las evaluaciones empíricas en cuatro conjuntos de datos de preguntas-respuestas fácticas y un benchmark de factualidad de formato largo muestran que MR-ALIGN mejora consistentemente la precisión y veracidad mientras reduce el razonamiento engañoso. Estos resultados destacan que alinear el proceso de razonamiento en sí mismo, en lugar de meramente las salidas, es crucial para avanzar en la factualidad de los LRM.
Los modelos multimodales unificados (UMMs) han surgido como un paradigma poderoso para unificar de manera fluida la comprensión y generación de texto e imágenes. Sin embargo, las evaluaciones predominantes tratan estas capacidades de forma aislada, de modo que las tareas con entradas y salidas multimodales se califican principalmente mediante razonamiento unimodal; es decir, los puntos de referencia textuales enfatizan el razonamiento basado en lenguaje, mientras que los puntos de referencia visuales enfatizan los resultados del razonamiento manifestados en los píxeles. Presentamos ROVER para abordar esta necesidad apremiante de evaluar el razonamiento recíproco cruzado, el uso de una modalidad para guiar, verificar o refinar los resultados en la otra, una capacidad central para la visión de una inteligencia multimodal unificada. ROVER es un punto de referencia anotado por humanos que se enfoca explícitamente en el razonamiento recíproco cruzado, el cual contiene 1312 tareas basadas en 1876 imágenes, abarcando dos escenarios complementarios. El razonamiento verbalmente aumentado para la generación visual evalúa si los modelos pueden utilizar instrucciones verbales y cadenas de razonamiento para guiar una síntesis de imágenes fiel. El razonamiento visualmente aumentado para la generación verbal evalúa si los modelos pueden generar visualizaciones intermedias que fortalezcan sus propios procesos de razonamiento para responder preguntas. Los experimentos en 17 modelos unificados revelan dos hallazgos clave: (i) El razonamiento cruzado determina la calidad de la generación visual, con modelos intercalados superando significativamente a los no intercalados; notablemente, combinar modelos unimodales fuertes no logra un razonamiento comparable. (ii) Los modelos muestran una disociación entre el razonamiento físico y simbólico: tienen éxito al interpretar conceptos perceptuales literalmente, pero fallan al construir abstracciones visuales para tareas simbólicas, donde un razonamiento defectuoso perjudica el rendimiento. Estos resultados destacan el razonamiento recíproco cruzado como una frontera crítica para permitir una verdadera generación omnimodal.
La imitación de movimiento es un enfoque prometedor para la locomoción de humanoides, permitiendo que los agentes adquieran comportamientos similares a los humanos. Los métodos existentes generalmente dependen de conjuntos de datos de captura de movimiento de alta calidad como AMASS, pero estos son escasos y costosos, lo que limita la escalabilidad y diversidad. Estudios recientes intentan escalar la recolección de datos convirtiendo videos masivos de internet, ejemplificado por Humanoid-X. Sin embargo, estos métodos suelen introducir artefactos físicos como flotación, penetración y deslizamiento de pies, que dificultan la imitación estable. Como respuesta, presentamos PHUMA, un conjunto de datos de locomoción humanoide con bases físicas que aprovecha videos humanos a gran escala, abordando los artefactos físicos mediante una cuidadosa curación de datos y redireccionamiento con restricciones físicas. PHUMA aplica límites articulares, garantiza contacto con el suelo y elimina el deslizamiento de pies, produciendo movimientos que son tanto a gran escala como físicamente confiables. Evaluamos PHUMA en dos conjuntos de condiciones: (i) imitación de movimientos no vistos provenientes de videos de prueba auto-grabados y (ii) seguimiento de trayectorias con guiado exclusivo de pelvis. En ambos casos, las políticas entrenadas con PHUMA superan a Humanoid-X y AMASS, logrando mejoras significativas en la imitación de movimientos diversos. El código está disponible en https://davian-robotics.github.io/PHUMA.
Los métodos actuales de generación de vídeo condicionada por movimiento adolecen de una latencia prohibitiva (minutos por vídeo) y un procesamiento no causal que impide la interacción en tiempo real. Presentamos MotionStream, que permite una latencia inferior al segundo con generación en streaming de hasta 29 FPS en una única GPU. Nuestro enfoque comienza aumentando un modelo de texto a vídeo con control de movimiento, el cual genera vídeos de alta calidad que se adhieren al texto global y a la guía de movimiento local, pero no realiza inferencia sobre la marcha. Por ello, destilamos este profesor bidireccional en un estudiante causal mediante Auto-Forzado con Destilación por Correspondencia de Distribuciones, permitiendo inferencia en streaming en tiempo real. Surgen varios desafíos clave al generar vídeos de horizontes temporales largos y potencialmente infinitos: (1) salvar la brecha de dominio entre el entrenamiento con longitud finita y la extrapolación a horizontes infinitos, (2) sostener una alta calidad evitando la acumulación de errores, y (3) mantener una inferencia rápida, sin incurrir en un crecimiento del coste computacional debido a ventanas de contexto crecientes. Un elemento clave de nuestro enfoque es la introducción de una atención causal deslizante cuidadosamente diseñada, combinada con "sumideros de atención". Al incorporar auto-desarrollo con sumideros de atención y desplazamiento de la caché KV durante el entrenamiento, simulamos adecuadamente las extrapolaciones en tiempo de inferencia con una ventana de contexto fija, permitiendo la generación a velocidad constante de vídeos de longitud arbitraria. Nuestros modelos logran resultados de vanguardia en seguimiento de movimiento y calidad de vídeo, siendo dos órdenes de magnitud más rápidos y permitiendo de forma única streaming de longitud infinita. Con MotionStream, los usuarios pueden dibujar trayectorias, controlar cámaras o transferir movimiento, y ver los resultados desarrollarse en tiempo real, ofreciendo una experiencia verdaderamente interactiva.
Presentamos LongCat-Flash-Omni, un modelo omni-modal de código abierto de vanguardia con 560 mil millones de parámetros, que sobresale en la interacción audio-visual en tiempo real. Mediante la adopción de una estrategia de entrenamiento progresivo inspirada en un currículum, que transita desde tareas de modelado de secuencias modales más simples hacia otras progresivamente más complejas, LongCat-Flash-Omni adquiere capacidades multimodales integrales mientras mantiene una sólida capacidad unimodal. Partiendo de LongCat-Flash, que adopta una arquitectura de Mezcla de Expertos (MoE) de alta rendimiento con conexiones de acceso directo y expertos de computación cero, LongCat-Flash-Omni integra módulos eficientes de percepción multimodal y reconstrucción del habla. A pesar de su inmenso tamaño de 560B parámetros (con 27B activados), LongCat-Flash-Omni logra una interacción audio-visual en tiempo real con baja latencia. Para la infraestructura de entrenamiento, desarrollamos un esquema de paralelismo con modalidades desacopladas, diseñado específicamente para gestionar la heterogeneidad de datos y modelos inherente al entrenamiento multimodal a gran escala. Este enfoque innovador demuestra una eficiencia excepcional al mantener más del 90% del rendimiento conseguido en el entrenamiento exclusivo con texto. Evaluaciones exhaustivas muestran que LongCat-Flash-Omni alcanza un rendimiento de vanguardia en benchmarks omni-modales entre los modelos de código abierto. Además, ofrece resultados altamente competitivos en una amplia gama de tareas específicas por modalidad, incluyendo la comprensión de texto, imagen y video, así como la comprensión y generación de audio. Proporcionamos una descripción general completa del diseño de la arquitectura del modelo, los procedimientos de entrenamiento y las estrategias de datos, y liberamos el código del modelo para fomentar la investigación y el desarrollo futuro en la comunidad.
Recientemente, los modelos de lenguaje extenso (LLMs) han demostrado capacidades notables para resolver problemas mediante la integración autónoma con herramientas externas para el razonamiento colaborativo. Sin embargo, debido a la naturaleza inherentemente compleja y diversa de la información multimodal, permitir que los modelos de lenguaje extenso multimodales (MLLMs) utilicen herramientas externas de manera flexible y eficiente durante el razonamiento sigue siendo un desafío poco explorado. En este trabajo, presentamos ToolScope, un marco agéntico diseñado para unificar la planificación global con la percepción multimodal local, adoptando una herramienta especializada Perceive para mitigar la degradación del contexto visual en tareas de VQA de largo horizonte. ToolScope comprende tres componentes principales: el Navegador Global, el Ejecutor Agéntico y el Sintetizador de Respuestas. El Navegador Global funciona como un "telescopio", ofreciendo orientación estratégica de alto nivel. El Ejecutor Agéntico opera de forma iterativa para aumentar el MLLM con percepción local mediante la integración de herramientas externas: Search, Code y Perceive. Finalmente, el Sintetizador de Respuestas consolida y organiza el proceso de razonamiento en una salida coherente y fácil de usar para el usuario. Evaluamos ToolScope en cuatro benchmarks de VQA en diversos dominios, incluyendo VQA 2.0, ScienceQA, MAT-Search y MathVista. Demuestra fuertes capacidades de generalización, logrando una mejora promedio en el rendimiento de hasta +6.69% en todos los conjuntos de datos.
Los avances recientes en el razonamiento de modelos de lenguaje grandes (LLM) mediante aprendizaje por refuerzo dependen de conjuntos de datos anotados para obtener recompensas verificables, lo que puede limitar la capacidad de los modelos para superar el rendimiento humano. Aunque el auto-juego ofrece una alternativa prometedora, los enfoques existentes dependen de verificadores externos o no pueden aprender de forma abierta. Presentamos Open-Ended Self-Improving Reasoner (OpenSIR), un marco de auto-juego en el que un LLM aprende a generar y resolver problemas novedosos alternando los roles de profesor y estudiante sin supervisión externa. Para generar problemas novedosos, OpenSIR optimiza tanto la dificultad como la diversidad, recompensando problemas que desafían adecuadamente mientras exploran conceptos distintos, permitiendo el descubrimiento matemático abierto. Partiendo de un único problema inicial trivial, OpenSIR mejora sustancialmente los modelos de instrucción: Llama-3.2-3B-Instruct avanza de 73.9 a 78.3 en GSM8K, y de 28.8 a 34.4 en College Math, mientras que Gemma-2-2B-Instruct aumenta de 38.5 a 58.7 en GSM8K. Nuestros análisis revelan que OpenSIR logra un aprendizaje abierto mediante roles profesor-estudiante que co-evolucionan, calibrando adaptativamente la dificultad e impulsando una exploración diversa, progresando autónomamente desde matemáticas básicas hasta avanzadas.
El paradigma predominante en recuperación de vídeo presenta una desalineación estructural, ya que los puntos de referencia limitados incentivan datos correspondientemente restringidos y entrenamiento monotarea. Por consiguiente, la capacidad universal se ve suprimida debido a la ausencia de una evaluación diagnóstica que defina y exija una generalización multidimensional. Para romper este ciclo, presentamos un marco basado en el co-diseño de evaluación, datos y modelado. Primero, establecemos el Universal Video Retrieval Benchmark (UVRB), un conjunto de 16 conjuntos de datos diseñado no solo para medir el rendimiento, sino también para diagnosticar brechas críticas de capacidad entre tareas y dominios. Segundo, guiados por los diagnósticos del UVRB, introducimos un flujo de trabajo de síntesis escalable que genera 1.55 millones de pares de alta calidad para poblar el espacio semántico requerido para la universalidad. Finalmente, ideamos la Pirámide de Modalidades, un currículum que entrena nuestro General Video Embedder (GVE) aprovechando explícitamente las interconexiones latentes dentro de nuestros diversos datos. Experimentos exhaustivos muestran que el GVE logra una generalización zero-shot de vanguardia en el UVRB. En particular, nuestro análisis revela que los puntos de referencia populares son malos predictores de la capacidad general y que la recuperación parcialmente relevante es un escenario dominante pero pasado por alto. En conjunto, nuestro marco de co-diseño proporciona un camino práctico para escapar del alcance limitado y avanzar hacia una recuperación de vídeo verdaderamente universal.
La frontera del razonamiento visual está desplazándose hacia modelos como OpenAI o3, que pueden crear y operar herramientas de forma inteligente para transformar imágenes con fines de resolución de problemas, lo que también se conoce como "pensar-con-imágenes" en cadena de pensamiento. Sin embargo, los puntos de referencia existentes no logran capturar plenamente esta capacidad avanzada. Incluso la Búsqueda Visual, el criterio más común para los métodos actuales de pensar-con-imágenes, evalúa únicamente operaciones básicas como la localización y el recorte, ofreciendo poca información sobre razonamientos más complejos, dinámicos y dependientes de herramientas. Presentamos TIR-Bench, un punto de referencia integral para evaluar el pensamiento agencial con imágenes a través de 13 tareas diversas, cada una de las cuales requiere el uso novedoso de herramientas para el procesamiento y manipulación de imágenes en una cadena de pensamiento. Evaluamos 22 modelos de lenguaje grandes multimodales (MLLMs), desde los principales modelos de código abierto y propietarios hasta aquellos con aumentos explícitos para el uso de herramientas. Los resultados muestran que TIR-Bench es universalmente desafiante, y que un rendimiento sólido requiere capacidades genuinas de pensar-con-imágenes. Finalmente, presentamos un estudio piloto que compara el ajuste fino directo frente al agencial.
Los modelos de visión y lenguaje demuestran un rendimiento y una capacidad de generalización sin precedentes en una amplia gama de tareas y escenarios. La integración de estos modelos fundacionales en sistemas de navegación robótica abre vías hacia la construcción de robots de propósito general. Sin embargo, la evaluación de las capacidades de navegación de estos modelos sigue estando limitada por costosas pruebas en el mundo real, simulaciones excesivamente simplificadas y puntos de referencia limitados. Presentamos NaviTrace, un benchmark de alta calidad de Respuesta a Preguntas Visuales donde un modelo recibe una instrucción y un tipo de encarnación (humano, robot con patas, robot con ruedas, bicicleta) y debe generar un trazo de navegación 2D en el espacio de la imagen. A lo largo de 1000 escenarios y más de 3000 trazos expertos, evaluamos sistemáticamente ocho modelos de visión y lenguaje de última generación utilizando una nueva métrica de puntuación de trazo consciente de la semántica. Esta métrica combina la distancia de deformación dinámica del tiempo, el error del punto final de la meta y penalizaciones condicionadas por la encarnación derivadas de la semántica por píxel, y se correlaciona con las preferencias humanas. Nuestra evaluación revela una brecha constante con el rendimiento humano causada por una pobre fundamentación espacial y una localización deficiente de los objetivos. NaviTrace establece un benchmark escalable y reproducible para la navegación robótica en el mundo real. El benchmark y la clasificación pueden encontrarse en https://leggedrobotics.github.io/navitrace_webpage/.
Comprender los acertijos rebus (los acertijos rebus utilizan imágenes, símbolos y letras para representar palabras o frases de manera creativa) requiere una variedad de habilidades, como el reconocimiento de imágenes, las habilidades cognitivas, el razonamiento de sentido común, el razonamiento multi-etapa, los juegos de palabras basados en imágenes, etc., lo que convierte esta tarea en un desafío incluso para los modelos de visión y lenguaje actuales. En este artículo, presentamos |↻BUS|, un benchmark extenso y diverso de 1.333 acertijos rebus en inglés que contiene diferentes estilos artísticos y niveles de dificultad, distribuidos en 18 categorías como comida, modismos, deportes, finanzas, entretenimiento, etc. También proponemos RebusDescProgICE, un marco independiente del modelo que utiliza una combinación de una descripción no estructurada y un razonamiento estructurado basado en código, junto con una mejor selección de ejemplos en contexto basada en el razonamiento, mejorando el rendimiento de los modelos de visión y lenguaje en |↻BUS| entre un 2,1% y un 4,1% y entre un 20% y un 30% utilizando modelos de código cerrado y de código abierto respectivamente, en comparación con el razonamiento en cadena (Chain-of-Thought).
Presentamos Trove, un kit de herramientas de recuperación de código abierto y fácil uso que simplifica los experimentos de investigación sin sacrificar flexibilidad o velocidad. Por primera vez, introducimos funciones eficientes de gestión de datos que cargan y procesan (filtran, seleccionan, transforman y combinan) conjuntos de datos de recuperación sobre la marcha, con solo unas pocas líneas de código. Esto brinda a los usuarios la flexibilidad de experimentar fácilmente con diferentes configuraciones de conjuntos de datos sin necesidad de calcular y almacenar múltiples copias de grandes volúmenes de datos. Trove es altamente personalizable: además de muchas opciones integradas, permite a los usuarios modificar libremente componentes existentes o reemplazarlos por completo con objetos definidos por el usuario. También proporciona una canalización unificada de bajo código para evaluación y minería de negativos duros, que admite ejecución multi-nodo sin ningún cambio de código. Las funciones de gestión de datos de Trove reducen el consumo de memoria en un factor de 2.6. Además, la canalización de inferencia fácil de usar de Trove no genera sobrecarga, y los tiempos de inferencia disminuyen linealmente con el número de nodos disponibles. Más importante aún, demostramos cómo Trove simplifica los experimentos de recuperación y permite personalizaciones arbitrarias, facilitando así la investigación exploratoria.
La lectura de instrumentos de medición es sencilla para los seres humanos y requiere relativamente poca experiencia en el dominio; sin embargo, sigue siendo sorprendentemente difícil para los modelos actuales de visión y lenguaje (VLM), como hemos descubierto en una evaluación preliminar. En este trabajo, presentamos MeasureBench, un benchmark sobre la lectura visual de mediciones que abarca tanto imágenes del mundo real como sintetizadas de varios tipos de instrumentos, junto con una canalización extensible para la síntesis de datos. Nuestra canalización genera de forma procedural un tipo específico de instrumento con una apariencia visual controlable, permitiendo una variación escalable en detalles clave como agujas, escalas, fuentes, iluminación y elementos de distracción. La evaluación de los VLM propietarios y de código abierto más populares muestra que incluso los VLM de última generación más potentes tienen dificultades generales con la lectura de mediciones. Un modo de fallo consistente es la localización del indicador: los modelos pueden leer dígitos o etiquetas, pero identifican incorrectamente las posiciones clave de las agujas o alineaciones, lo que genera grandes errores numéricos a pesar de una razonamiento textual plausible. También hemos realizado experimentos preliminares con aprendizaje por refuerzo sobre datos sintéticos y encontramos resultados alentadores en el subconjunto sintético dentro del dominio, pero menos prometedores para imágenes del mundo real. Nuestro análisis destaca una limitación fundamental de los VLM actuales en la fundamentación espacial de grano fino. Esperamos que este recurso pueda ayudar a futuros avances en la aritmética visualmente fundamentada y la percepción espacial precisa de los VLM, cerrando la brecha entre reconocer números y medir el mundo.
Los recientes avances en Modelos de Lenguaje Grandes Multimodales (MLLMs) han mejorado significativamente la comprensión visual 2D, lo que ha generado interés en su aplicación a tareas complejas de razonamiento 3D. Sin embargo, sigue sin estar claro si estos modelos pueden capturar eficazmente la información espacial detallada necesaria para un rendimiento robusto en el mundo real, especialmente la consistencia entre vistas, un requisito clave para un razonamiento 3D preciso. Considerando este problema, presentamos el Aprendizaje de Punto de Vista (Viewpoint Learning), una tarea diseñada para evaluar y mejorar las capacidades de razonamiento espacial de los MLLMs. Presentamos el conjunto de datos Viewpoint-100K, que consta de 100.000 pares de imágenes centradas en objetos con diversos puntos de vista y pares correspondientes de preguntas y respuestas. Nuestro enfoque emplea una estrategia de ajuste fino en dos etapas: primero, se inyecta conocimiento fundamental al MLLM de referencia mediante Ajuste Fino Supervisado (SFT) en Viewpoint-100K, lo que resulta en mejoras significativas en múltiples tareas; segundo, la generalización se mejora mediante Aprendizaje por Refuerzo utilizando el algoritmo de Optimización de Políticas Relativas de Grupo (GRPO) en un conjunto más amplio de preguntas. Adicionalmente, introducimos un método de inicialización híbrido de inicio en frío diseñado para aprender simultáneamente representaciones de puntos de vista y mantener un pensamiento de razonamiento coherente. Los resultados experimentales muestran que nuestro enfoque activa significativamente la capacidad de razonamiento espacial del MLLM, mejorando el rendimiento tanto en tareas de razonamiento dentro del dominio como fuera de él. Nuestros hallazgos resaltan el valor de desarrollar habilidades espaciales fundamentales en los MLLMs, apoyando el progreso futuro en robótica, sistemas autónomos y comprensión de escenas 3D.
La selección de datos es un aspecto crítico del Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) para mejorar las capacidades de razonamiento de los modelos de lenguaje grande (LLM). Los métodos actuales de selección de datos se basan en gran medida en heurísticas, careciendo de garantías teóricas y generalizabilidad. Este trabajo propone un enfoque con bases teóricas que utiliza funciones de influencia para estimar la contribución de cada punto de datos al objetivo de aprendizaje. Para superar el costo computacional prohibitivo de las simulaciones de políticas requeridas para la estimación de influencia en línea, introducimos un método de estimación de influencia fuera de la política que aproxima eficientemente la influencia de los datos utilizando trayectorias fuera de línea previamente recolectadas. Además, para manejar los gradientes de alta dimensionalidad de los LLM, empleamos proyección aleatoria dispersa para reducir la dimensionalidad y mejorar la eficiencia de almacenamiento y cómputo. Aprovechando estas técnicas, desarrollamos Aprendizaje por Refuerzo Curricular con Guía de Influencia Fuera de la Política (CROPI), un marco de RL multietapa que selecciona iterativamente los datos más influyentes para la política actual. Experimentos en modelos de hasta 7 mil millones de parámetros demuestran que CROPI acelera significativamente el entrenamiento. En un modelo de 1.5 mil millones, logra una aceleración a nivel de pasos de 2.66x mientras utiliza solo el 10% de los datos por etapa en comparación con el entrenamiento con el conjunto de datos completo. Nuestros resultados destacan el potencial sustancial de la selección de datos basada en influencia para un RLVR eficiente.
Encontrar las métricas norte correctas es fundamental para avanzar en las capacidades de razonamiento matemático de los modelos fundacionales, especialmente dado que las evaluaciones existentes son demasiado fáciles o se centran únicamente en obtener respuestas breves correctas. Para abordar estos problemas, presentamos IMO-Bench, un conjunto de puntos de referencia de razonamiento avanzado, revisado por un panel de especialistas de primer nivel y que se dirige específicamente al nivel de la Olimpiada Internacional de Matemáticas (IMO), el evento más prestigioso para jóvenes matemáticos. IMO-AnswerBench evalúa primero a los modelos en 400 problemas diversos de olimpiadas con respuestas breves verificables. IMO-Proof Bench es la evaluación de siguiente nivel para las capacidades de escritura de demostraciones, que incluye problemas básicos y avanzados de nivel IMO, así como pautas de calificación detalladas para facilitar la evaluación automática. Estos puntos de referencia desempeñaron un papel crucial en nuestro logro histórico del rendimiento a nivel de oro en la IMO 2025 con Gemini Deep Think (Luong y Lockhart, 2025). Nuestro modelo alcanzó un 80.0% en IMO-AnswerBench y un 65.7% en IMO-Proof Bench avanzado, superando a los mejores modelos no-Gemini por amplios márgenes del 6.9% y 42.4% respectivamente. También demostramos que los correctores automáticos construidos con el razonamiento de Gemini se correlacionan bien con las evaluaciones humanas y construimos IMO-GradingBench, con 1000 calificaciones humanas de demostraciones, para permitir un mayor progreso en la evaluación automática de respuestas de formato largo. Esperamos que IMO-Bench ayude a la comunidad a avanzar hacia un razonamiento matemático robusto y lo publicamos en https://imobench.github.io/.
Los modelos visión-lenguaje-acción (VLA) tienen como objetivo comprender instrucciones en lenguaje natural y observaciones visuales para ejecutar las acciones correspondientes como agentes corporizados. Trabajos recientes integran imágenes futuras en el bucle de comprensión-acción, dando lugar a VLAs unificados que comprenden, generan y actúan conjuntamente —leyendo texto e imágenes y produciendo imágenes futuras y acciones. Sin embargo, estos modelos dependen de expertos externos para la unificación de modalidades o tratan la generación de imágenes y la predicción de acciones como procesos separados, limitando los beneficios de la sinergia directa entre estas tareas. Nuestra filosofía central es optimizar la generación y la acción de manera conjunta mediante un proceso de eliminación de ruido sincrónico, donde el refinamiento iterativo permite que las acciones evolucionen desde su inicialización, bajo una guía visual constante y suficiente. Fundamentamos esta filosofía en nuestro modelo VLA de Difusión Unificada y el Proceso de Difusión de Eliminación de Ruido Discreta Conjunta (JD3P), que es un proceso de difusión conjunto que integra múltiples modalidades en una única trayectoria de eliminación de ruido para servir como mecanismo clave que permite que la comprensión, generación y acción sean intrínsecamente sinérgicas. Nuestro modelo y teoría se construyen sobre un espacio tokenizado unificado de todas las modalidades y un mecanismo de atención híbrida. Además, proponemos una pipeline de entrenamiento en dos etapas y varias técnicas en tiempo de inferencia que optimizan el rendimiento y la eficiencia. Nuestro enfoque logra un rendimiento de vanguardia en benchmarks como CALVIN, LIBERO y SimplerEnv con una inferencia 4 veces más rápida que los métodos autoregresivos, y demostramos su efectividad mediante análisis en profundidad y evaluaciones en entornos reales. Nuestra página del proyecto está disponible en https://irpn-eai.github.io/UD-VLA.github.io/.
Los modelos fundacionales en generación de vídeo están demostrando capacidades notables como modelos mundiales potenciales para simular el mundo físico. Sin embargo, su aplicación en dominios de alto riesgo como la cirugía, que exigen un conocimiento causal profundo y especializado en lugar de reglas físicas generales, sigue siendo un vacío crítico sin explorar. Para abordar sistemáticamente este desafío, presentamos SurgVeo, el primer punto de referencia curado por expertos para la evaluación de modelos de generación de vídeo en cirugía, y la Pirámide de Plausibilidad Quirúrgica (PPQ), un marco novedoso de cuatro niveles diseñado para evaluar las salidas del modelo, desde la apariencia básica hasta la estrategia quirúrgica compleja. Sobre la base del benchmark SurgVeo, asignamos al modelo avanzado Veo-3 una tarea de predicción zero-shot en clips quirúrgicos de procedimientos laparoscópicos y neuroquirúrgicos. Un panel de cuatro cirujanos certificados evalúa los vídeos generados de acuerdo con la PPQ. Nuestros resultados revelan una "brecha de plausibilidad" distintiva: mientras que Veo-3 logra una Plausibilidad Perceptiva Visual excepcional, falla críticamente en los niveles superiores de la PPQ, incluyendo la Plausibilidad de la Operación de Instrumentos, la Plausibilidad de la Retroalimentación del Entorno y la Plausibilidad de la Intención Quirúrgica. Este trabajo proporciona la primera evidencia cuantitativa del abismo entre la mímica visualmente convincente y la comprensión causal en la IA quirúrgica. Nuestros hallazgos de SurgVeo y la PPQ establecen una base y una hoja de ruta cruciales para desarrollar futuros modelos capaces de navegar las complejidades de los dominios sanitarios especializados del mundo real.
El notable éxito de los modelos de lenguaje grandes multimodales (MLLMs) ha impulsado avances en los embeddings multimodales, sin embargo, los modelos existentes siguen siendo inherentemente discriminativos, lo que limita su capacidad para beneficiarse del paradigma de generación impulsado por el razonamiento. En este trabajo, somos pioneros en la exploración de embeddings generativos, unificando las tareas de embedding dentro de un paradigma generativo. Proponemos UME-R1, un marco universal de embedding multimodal que consiste en una estrategia de entrenamiento en dos etapas: un ajuste fino supervisado de arranque en frío dota al modelo de capacidades de razonamiento y le permite generar embeddings tanto discriminativos como generativos; un posterior aprendizaje por refuerzo mejora el razonamiento y optimiza aún más la calidad del embedding generativo. Este trabajo pionero revela cuatro ideas clave: 1) los embeddings generativos desbloquean ganancias sustanciales de rendimiento sobre los embeddings discriminativos convencionales al aprovechar las potentes capacidades de razonamiento generativo de los MLLMs; 2) los embeddings discriminativos y generativos son complementarios, cuyo rendimiento óracle combinado supera con creces al de cualquiera por separado; 3) el RL puede mejorar eficazmente los embeddings generativos, estableciendo un paradigma de optimización escalable; 4) el muestreo repetido en la inferencia aumenta la cobertura de tareas posteriores (pass@k), destacando el potencial de escalabilidad en el tiempo de inferencia de los embeddings generativos. Evaluado en el benchmark MMEB-V2 a través de 78 tareas que abarcan video, imagen y documentos visuales, UME-R1 supera significativamente a los modelos de embedding discriminativos convencionales y ofrece una base para embeddings multimodales generativos más interpretables e impulsados por el razonamiento. Nuestro código, modelos y conjuntos de datos estarán disponibles públicamente en https://github.com/XMUDeepLIT/UME-R1.
Los Modelos de Lenguaje Grandes (LLM) han demostrado sólidas capacidades en el razonamiento de lenguaje natural, sin embargo, su aplicación a la Inteligencia sobre Amenazas Cibernéticas (CTI) sigue siendo limitada. El análisis de CTI implica destilar grandes volúmenes de informes no estructurados en conocimiento accionable, un proceso en el que los LLM podrían reducir sustancialmente la carga de trabajo de los analistas. CTIBench introdujo un benchmark integral para evaluar LLM en múltiples tareas de CTI. En este trabajo, extendemos CTIBench mediante el desarrollo de AthenaBench, un benchmark mejorado que incluye una canalización mejorada para la creación de conjuntos de datos, eliminación de duplicados, métricas de evaluación refinadas y una nueva tarea centrada en estrategias de mitigación de riesgos. Evaluamos doce LLM, incluyendo modelos propietarios de última generación como GPT-5 y Gemini-2.5 Pro, junto con siete modelos de código abierto de las familias LLaMA y Qwen. Si bien los LLM propietarios logran resultados más sólidos en general, su rendimiento sigue siendo deficiente en tareas intensivas en razonamiento, como la atribución de actores de amenazas y la mitigación de riesgos, con los modelos de código abierto quedando aún más rezagados. Estos hallazgos resaltan limitaciones fundamentales en las capacidades de razonamiento de los LLM actuales y subrayan la necesidad de modelos explícitamente adaptados a los flujos de trabajo y la automatización de CTI.
La fundamentación de interfaces gráficas de usuario (GUI) es una función clave de los agentes de uso informático, que mapea instrucciones en lenguaje natural a regiones accionables en pantalla. Los enfoques existentes basados en Modelos de Lenguaje Grandes Multimodales (MLLMs) típicamente lo formulan como una tarea de generación de coordenadas basada en texto; sin embargo, generar coordenadas precisas directamente a partir de entradas visuales sigue siendo un desafío y computacionalmente intensivo. Una forma intuitiva de implementar la fundamentación de GUI es primero seleccionar parches visuales relevantes para las instrucciones y luego determinar la ubicación precisa del clic dentro de esos parches. Basándonos en la observación de que los MLLMs generales poseen cierta capacidad de fundamentación nativa, anidada en sus mecanismos de atención, proponemos GUI-AIMA, un marco de ajuste fino supervisado, libre de coordenadas y basado en atención, para una fundamentación de GUI eficiente. GUI-AIMA alinea la atención multimodal intrínseca de los MLLMs con señales de fundamentación a nivel de parche. Estas señales se calculan de forma adaptativa para diversas instrucciones de usuario mediante agregación multi-cabezal en matrices de atención consulta-visual simplificadas. Además, su naturaleza libre de coordenadas permite integrar fácilmente una etapa de zoom enchufable y listo para usar. GUI-AIMA-3B fue entrenado con solo 85,000 capturas de pantalla, demostrando una eficiencia de datos excepcional y verificando que un entrenamiento ligero puede activar la capacidad de fundamentación nativa de los MLLMs. Logra un rendimiento de vanguardia entre los modelos de 3B, alcanzando una precisión promedio del 58.6% en ScreenSpot-Pro y del 62.2% en OSWorld-G. Página del proyecto: https://github.com/sjz5202/GUI-AIMA
Las Explicaciones en Lenguaje Natural (NLEs) describen cómo los Modelos de Lenguaje Grandes (LLMs) toman decisiones, basándose tanto en el Conocimiento Contextual (CK) externo como en el Conocimiento Paramétrico (PK) almacenado en los pesos del modelo. Comprender su interacción es clave para evaluar el fundamento de las NLEs, sin embargo, esta sigue estando poco explorada. Trabajos anteriores han examinado principalmente solo la generación de un solo paso, típicamente la respuesta final, y han modelado la interacción entre PK y CK únicamente como una elección binaria en un subespacio de rango 1. Esto pasa por alto formas más ricas de interacción, como el conocimiento complementario o de apoyo. Proponemos un novedoso subespacio de proyección de rango 2 que desentrelaza las contribuciones de PK y CK de manera más precisa y lo utilizamos para el primer análisis multi-paso de las interacciones de conocimiento a lo largo de secuencias de NLE más largas. Los experimentos en cuatro conjuntos de datos de preguntas y respuestas (QA) y tres LLMs de código abierto ajustados por instrucción muestran que las diversas interacciones de conocimiento están pobremente representadas en un subespacio de rango 1, pero son capturadas efectivamente en nuestra formulación de rango 2. Nuestro análisis multi-paso revela que las NLEs alucinadas se alinean fuertemente con la dirección del PK, las fieles al contexto equilibran PK y CK, y el prompting de Cadena de Pensamiento (Chain-of-Thought) para NLEs desplaza las NLEs generadas hacia el CK al reducir la dependencia del PK. Este trabajo proporciona el primer marco para estudios sistemáticos de interacciones de conocimiento multi-paso en LLMs a través de un desentrelazamiento más rico en un subespacio de rango 2. Código y datos: https://github.com/copenlu/pk-ck-knowledge-disentanglement.
En el ámbito de la recuperación de información, la fusión de candidatos procedentes de recuperadores heterogéneos es un desafío de larga data, particularmente para datos complejos y multimodales como los vídeos. Si bien las técnicas de fusión típicas no requieren entrenamiento, se basan únicamente en señales de ranking o puntuación, ignorando las representaciones de los candidatos. Este trabajo presenta Vote-in-Context (ViC), un marco generalizado y sin entrenamiento que replantea la rerordenación y fusión a nivel de lista como una tarea de razonamiento de cero disparos para un Modelo de Visión y Lenguaje (VLM). La idea central es serializar tanto la evidencia de contenido como los metadatos del recuperador directamente dentro del prompt del VLM, permitiendo que el modelo pondere de forma adaptativa el consenso del recuperador frente al contenido visual-lingüístico. Demostramos la generalidad de este marco aplicándolo al dominio desafiante de la recuperación de vídeos cross-modal. Para ello, introducimos S-Grid, un mapa de serialización compacto que representa cada vídeo como una cuadrícula de imágenes, opcionalmente acompañada de subtítulos para permitir el razonamiento a nivel de lista sobre candidatos de vídeo. ViC se evalúa tanto como un rerordenador de lista única, donde mejora drásticamente la precisión de los recuperadores individuales, como como un fusionador por ensamblado, donde supera consistentemente líneas base sólidas como CombSUM. En benchmarks de recuperación de vídeos que incluyen ActivityNet y VATEX, el marco establece un nuevo estado del arte en rendimiento de recuperación de cero disparos, demostrando su eficacia para manejar señales visuales y temporales complejas junto con texto. En configuraciones de cero disparos, ViC logra puntuaciones Recall@1 del 87.1% (t2v) / 89.0% (v2t) en MSR-VTT y del 99.6% (v2t) en VATEX, lo que representa ganancias masivas de hasta +40 puntos en Recall@1 sobre los anteriores estados del arte. Presentamos ViC como una receta simple, reproducible y altamente efectiva para convertir los VLMs modernos en poderosos rerordenadores y fusionadores de cero disparos. El código y los recursos están disponibles públicamente en: https://github.com/mohammad2012191/ViC