Artículos de investigación en IA seleccionados diariamente con traducciones
El reconocimiento óptico de caracteres (OCR) en documentos árabes sigue siendo una tarea desafiante debido a la escritura cursiva del idioma, la diversidad de fuentes, los diacríticos y la orientación de derecha a izquierda. Si bien los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) modernos han avanzado en la comprensión de documentos para idiomas con muchos recursos, su rendimiento en árabe sigue siendo limitado. En este trabajo, presentamos Baseer, un modelo de visión y lenguaje ajustado específicamente para OCR en documentos árabes. Aprovechando un conjunto de datos a gran escala que combina documentos sintéticos y del mundo real, Baseer se entrena utilizando una estrategia de ajuste fino de solo decodificador para adaptar un MLLM preentrenado mientras se preservan las características visuales generales. También presentamos Misraj-DocOCR, un punto de referencia de alta calidad verificado por expertos diseñado para la evaluación rigurosa de sistemas de OCR en árabe. Nuestros experimentos muestran que Baseer supera significativamente las soluciones existentes de código abierto y comerciales, logrando un WER de 0.25 y estableciendo un nuevo estado del arte en el dominio del OCR para documentos árabes. Nuestros resultados destacan los beneficios de la adaptación específica del dominio de MLLMs de propósito general y establecen una base sólida para OCR de alta precisión en idiomas morfológicamente ricos como el árabe.
La creciente disparidad entre el escalamiento exponencial de los recursos computacionales y el crecimiento limitado de datos de texto de alta calidad ahora restringe los enfoques convencionales de escalamiento para los modelos de lenguaje grandes (LLMs, por sus siglas en inglés). Para abordar este desafío, presentamos Reinforcement Learning on Pre-Training data (RLPT), un nuevo paradigma de escalamiento durante el entrenamiento para optimizar LLMs. A diferencia de enfoques previos que escalan el entrenamiento principalmente mediante aprendizaje supervisado, RLPT permite que la política explore de manera autónoma trayectorias significativas para aprender de los datos de pre-entrenamiento y mejorar su capacidad a través del aprendizaje por refuerzo (RL, por sus siglas en inglés). Mientras que estrategias existentes de RL, como el aprendizaje por refuerzo con retroalimentación humana (RLHF) y el aprendizaje por refuerzo con recompensas verificables (RLVR), dependen de anotaciones humanas para la construcción de recompensas, RLPT elimina esta dependencia al derivar señales de recompensa directamente de los datos de pre-entrenamiento. Específicamente, adopta un objetivo de razonamiento de segmento siguiente, recompensando a la política por predecir con precisión segmentos de texto posteriores condicionados al contexto precedente. Esta formulación permite escalar RL en datos de pre-entrenamiento, fomentando la exploración de trayectorias más ricas en contextos más amplios y, por lo tanto, promoviendo habilidades de razonamiento más generalizables. Experimentos extensos en benchmarks de razonamiento general y matemático en múltiples modelos validan la efectividad de RLPT. Por ejemplo, cuando se aplica a Qwen3-4B-Base, RLPT produce mejoras absolutas de 3.0, 5.1, 8.1, 6.0, 6.6 y 5.3 en MMLU, MMLU-Pro, GPQA-Diamond, KOR-Bench, AIME24 y AIME25, respectivamente. Los resultados demuestran además un comportamiento favorable de escalamiento, sugiriendo un fuerte potencial para ganancias continuas con más capacidad computacional. Además, RLPT proporciona una base sólida, extendiendo los límites de razonamiento de los LLMs y mejorando el rendimiento de RLVR.
Las políticas visuomotoras basadas en aprendizaje por imitación han sido ampliamente utilizadas en la manipulación robótica, donde tanto las observaciones visuales como los estados propioceptivos se suelen adoptar conjuntamente para un control preciso. Sin embargo, en este estudio, encontramos que esta práctica común hace que la política dependa excesivamente de la entrada del estado propioceptivo, lo que provoca un sobreajuste a las trayectorias de entrenamiento y resulta en una pobre generalización espacial. Por el contrario, proponemos la Política Libre de Estado, eliminando la entrada del estado propioceptivo y prediciendo acciones únicamente condicionadas por las observaciones visuales. La Política Libre de Estado se construye en el espacio de acción relativa del efector final, y debe garantizar las observaciones visuales completas relevantes para la tarea, aquí proporcionadas por cámaras de ángulo ancho duales en la muñeca. Los resultados empíricos demuestran que la política libre de estado logra una generalización espacial significativamente más fuerte que la política basada en estado: en tareas del mundo real como recoger y colocar, el desafiante doblado de camisas y la manipulación compleja de todo el cuerpo, abarcando múltiples configuraciones robóticas, la tasa de éxito promedio mejora del 0\% al 85\% en la generalización de altura y del 6\% al 64\% en la generalización horizontal. Además, también muestran ventajas en la eficiencia de datos y la adaptación entre configuraciones, mejorando su practicidad para la implementación en el mundo real.
Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) están experimentando un progreso acelerado y representan la vanguardia del desarrollo de la IA. Sin embargo, su eficiencia en entrenamiento e inferencia se ha convertido en un cuello de botella fundamental para hacer que los MLLMs sean más accesibles y escalables. Para abordar estos desafíos, presentamos MiniCPM-V 4.5, un modelo de 8 mil millones de parámetros diseñado para alta eficiencia y un rendimiento sólido. Introducimos tres mejoras clave en la arquitectura del modelo, la estrategia de datos y el método de entrenamiento: una arquitectura de modelo 3D-Resampler unificada para una codificación altamente compacta de imágenes y videos, un paradigma de aprendizaje unificado para el conocimiento documental y el reconocimiento de texto sin necesidad de una ingeniería de datos compleja, y una estrategia híbrida de aprendizaje por refuerzo para dominar tanto el razonamiento corto como el largo. Los resultados experimentales exhaustivos en la evaluación de OpenCompass muestran que MiniCPM-V 4.5 supera a modelos propietarios ampliamente utilizados, como GPT-4o-latest, y a modelos de código abierto significativamente más grandes, como Qwen2.5-VL 72B. Es destacable que este rendimiento sólido se logra con una eficiencia notable. Por ejemplo, en el benchmark ampliamente adoptado VideoMME, MiniCPM-V 4.5 alcanza un rendimiento de vanguardia entre los modelos de menos de 30 mil millones de parámetros, utilizando solo el 46.7% del costo de memoria GPU y el 8.7% del tiempo de inferencia de Qwen2.5-VL 7B.
Comprender y razonar sobre repositorios de software completos es una capacidad esencial para las herramientas de ingeniería de software inteligente. Si bien los puntos de referencia existentes, como CoSQA y CodeQA, han avanzado en el campo, se centran predominantemente en fragmentos de código pequeños y autónomos. Estas configuraciones no capturan la complejidad de los repositorios del mundo real, donde la comprensión y el razonamiento efectivos a menudo requieren navegar por múltiples archivos, entender la arquitectura del software y fundamentar las respuestas en dependencias de código de largo alcance. En este artículo, presentamos SWE-QA, un punto de referencia de respuesta a preguntas (QA) a nivel de repositorio diseñado para facilitar la investigación sobre sistemas automatizados de QA en entornos de código realistas. SWE-QA incluye 576 pares de preguntas y respuestas de alta calidad que abarcan diversas categorías, como la comprensión de intenciones, el razonamiento entre archivos y el análisis de dependencias de múltiples saltos. Para construir SWE-QA, primero rastreamos 77,100 issues de GitHub de 11 repositorios populares. Basándonos en un análisis de las preguntas de desarrolladores que ocurren naturalmente extraídas de estos issues, desarrollamos una taxonomía de dos niveles para preguntas a nivel de repositorio y construimos un conjunto de preguntas iniciales para cada categoría. Para cada categoría, curamos y validamos manualmente las preguntas y recopilamos sus respuestas correspondientes. Como aplicación prototipo, desarrollamos SWE-QA-Agent, un marco agéntico en el que los agentes de LLM razonan y actúan para encontrar respuestas automáticamente. Evaluamos seis LLM avanzados en SWE-QA bajo diversas estrategias de aumento de contexto. Los resultados experimentales destacan el potencial de los LLM, particularmente nuestro marco SWE-QA-Agent, para abordar QA a nivel de repositorio, al mismo tiempo que revelan desafíos abiertos y señalan direcciones futuras de investigación.
El razonamiento visual espacial (VSR, por sus siglas en inglés) es una capacidad cognitiva humana fundamental y un requisito crítico para avanzar en la inteligencia encarnada y los sistemas autónomos. A pesar del progreso reciente en los modelos de visión y lenguaje (VLMs), alcanzar un nivel humano en VSR sigue siendo un desafío considerable debido a la complejidad de representar y razonar sobre el espacio tridimensional. En este artículo, presentamos una investigación sistemática del VSR en los VLMs, que abarca una revisión de las metodologías existentes en cuanto a modalidades de entrada, arquitecturas de modelos, estrategias de entrenamiento y mecanismos de razonamiento. Además, categorizamos la inteligencia espacial en tres niveles de capacidad: percepción básica, comprensión espacial y planificación espacial, y creamos SIBench, un benchmark de inteligencia espacial que incluye cerca de 20 conjuntos de datos de código abierto en 23 configuraciones de tareas. Los experimentos con los VLMs más avanzados revelan una brecha pronunciada entre la percepción y el razonamiento, ya que los modelos muestran competencia en tareas perceptivas básicas, pero consistentemente tienen un rendimiento inferior en tareas de comprensión y planificación, particularmente en estimación numérica, razonamiento multivista, dinámica temporal e imaginación espacial. Estos hallazgos subrayan los desafíos sustanciales que persisten en la consecución de la inteligencia espacial, al mismo tiempo que proporcionan tanto una hoja de ruta sistemática como un benchmark integral para impulsar futuras investigaciones en este campo. Los recursos relacionados con este estudio están disponibles en https://sibench.github.io/Awesome-Visual-Spatial-Reasoning/.
Los recientes avances en el aprendizaje por refuerzo para modelos fundacionales, como la Optimización de Políticas Relativas por Grupos (GRPO), han mejorado significativamente el rendimiento de estos modelos en tareas de razonamiento. Cabe destacar que la función de ventaja actúa como un mecanismo central en GRPO para clasificar la importancia de las trayectorias. Sin embargo, las exploraciones existentes se enfrentan tanto al problema de reversión de la ventaja como al problema de espejo de la ventaja, lo que dificulta la asignación razonable de la ventaja entre diferentes muestras de consulta. En este trabajo, proponemos una estrategia GRPO sencilla pero efectiva, la Optimización de Políticas con Ventaja Mixta (MAPO). Revelamos que la trayectoria aparece con diferentes grados de certeza y proponemos la desviación porcentual de la ventaja para muestras con trayectorias de alta certeza. Además, reajustamos dinámicamente la función de ventaja para muestras con distintos grados de certeza en la trayectoria, configurando así de manera adaptativa la función de ventaja para tener en cuenta las características específicas de cada muestra. La comparación con métodos relacionados de última generación, junto con estudios de ablación sobre diferentes variantes de la ventaja, valida la efectividad de nuestro enfoque.
El enfoque de proyección hacia adelante con Splatting Gaussiano 3D (3DGS) ha surgido como una solución altamente efectiva para la síntesis de nuevas vistas. Los métodos existentes se basan predominantemente en un paradigma de predicción Gaussiana alineada por píxeles, donde cada píxel 2D se mapea a un Gaussiano 3D. Replanteamos esta formulación ampliamente adoptada e identificamos varias limitaciones inherentes: hace que los modelos 3D reconstruidos dependan en gran medida del número de vistas de entrada, conduce a distribuciones de densidad sesgadas por la vista e introduce errores de alineación, especialmente cuando las vistas fuente contienen oclusiones o texturas bajas. Para abordar estos desafíos, presentamos VolSplat, un nuevo paradigma de proyección hacia adelante multi-vista que reemplaza la alineación por píxeles con Gaussianos alineados por vóxeles. Al predecir directamente Gaussianos a partir de una malla de vóxeles 3D predicha, supera la dependencia de la alineación por píxeles en la coincidencia de características 2D propensa a errores, asegurando una consistencia multi-vista robusta. Además, permite un control adaptativo sobre la densidad Gaussiana basado en la complejidad de la escena 3D, produciendo nubes de puntos Gaussianas más fieles, una mejor consistencia geométrica y una calidad mejorada en la renderización de nuevas vistas. Los experimentos en puntos de referencia ampliamente utilizados, como RealEstate10K y ScanNet, demuestran que VolSplat alcanza un rendimiento de vanguardia mientras produce reconstrucciones Gaussianas más plausibles y consistentes con la vista. Además de resultados superiores, nuestro enfoque establece un marco más escalable para la reconstrucción 3D de proyección hacia adelante con representaciones más densas y robustas, allanando el camino para futuras investigaciones en comunidades más amplias. Los resultados en video, el código y los modelos entrenados están disponibles en nuestra página del proyecto: https://lhmd.top/volsplat.
Los modelos de razonamiento a gran escala (LRMs) dedican un tiempo de cómputo considerable durante las pruebas a largas trazas de pensamiento en cadena (CoT), pero lo que *caracteriza* una CoT efectiva sigue sin estar claro. Si bien trabajos previos reportan mejoras al alargar las CoT y aumentar la revisión (volver a pasos anteriores) mediante la adición de tokens de *espera*, estudios recientes sugieren que un pensamiento más corto puede superar a las trazas más largas. Por lo tanto, realizamos una evaluación sistemática en diez LRMs sobre razonamiento matemático y científico. Contrario a la narrativa de "más largo es mejor", encontramos que tanto el alargamiento ingenuo de las CoT como el aumento de la revisión están asociados con una precisión *menor*. A medida que la CoT se desarrolla paso a paso, las métricas a nivel de token pueden confundir la verbosidad con la calidad del proceso. Introducimos una vista gráfica de la CoT para extraer su estructura e identificar una única estadística: la *Fracción de Pasos Fallidos (FSF)*, la fracción de pasos en ramas abandonadas, que consistentemente predice mejor la corrección que la longitud y la proporción de revisión en todos los modelos. Para explorar la causalidad, diseñamos dos intervenciones. Primero, clasificamos las CoT candidatas por cada métrica durante las pruebas, donde la FSF produce las mayores ganancias en pass@1; segundo, editamos las CoT para eliminar las ramas fallidas, lo que mejora significativamente la precisión, indicando que las ramas fallidas sesgan el razonamiento posterior. En conjunto, estos resultados caracterizan las CoT efectivas como aquellas que *fallan menos* y respaldan un escalado en tiempo de prueba *consciente de la estructura* sobre la generación indiscriminada de CoT largas.
La capacidad de generar entornos virtuales es crucial para aplicaciones que van desde los videojuegos hasta dominios de IA física como la robótica, la conducción autónoma y la IA industrial. Los métodos actuales de reconstrucción 3D basados en aprendizaje dependen de la disponibilidad de datos multivista capturados del mundo real, los cuales no siempre están fácilmente accesibles. Los recientes avances en los modelos de difusión de video han demostrado capacidades notables de imaginación, aunque su naturaleza 2D limita las aplicaciones en simulaciones donde un robot necesita navegar e interactuar con el entorno. En este artículo, proponemos un marco de auto-distilación que busca destilar el conocimiento implícito en 3D de los modelos de difusión de video en una representación explícita de 3D Gaussian Splatting (3DGS), eliminando la necesidad de datos de entrenamiento multivista. Específicamente, aumentamos el decodificador RGB típico con un decodificador 3DGS, el cual es supervisado por la salida del decodificador RGB. En este enfoque, el decodificador 3DGS puede entrenarse únicamente con datos sintéticos generados por modelos de difusión de video. En el momento de la inferencia, nuestro modelo puede sintetizar escenas 3D a partir de un texto descriptivo o una sola imagen para renderizado en tiempo real. Nuestro marco se extiende además a la generación de escenas 3D dinámicas a partir de un video de entrada monocular. Los resultados experimentales muestran que nuestro marco logra un rendimiento de vanguardia en la generación de escenas 3D estáticas y dinámicas.
Los modelos multimodales unificados han atraído recientemente una atención considerable por sus notables capacidades para comprender y generar contenido diverso de manera conjunta. Sin embargo, a medida que los contextos integran un número creciente de tokens multimodales intercalados, los procesos iterativos de eliminación de ruido por difusión y decodificación autoregresiva imponen una sobrecarga computacional significativa. Para abordar esto, proponemos Hyper-Bagel, un marco de aceleración unificado diseñado para acelerar simultáneamente tanto las tareas de comprensión como de generación multimodal. Nuestro enfoque utiliza una estrategia de divide y vencerás, empleando decodificación especulativa para la predicción del siguiente token y un proceso de destilación en múltiples etapas para la eliminación de ruido por difusión. El marco ofrece ganancias sustanciales en el rendimiento, logrando una aceleración de más de 2x en la comprensión multimodal. Para tareas generativas, nuestro modelo resultante sin pérdidas de 6-NFE produce una aceleración de 16.67x en la generación de texto a imagen y una aceleración de 22x en la edición de imágenes, todo ello manteniendo la alta calidad de salida del modelo original. Además, desarrollamos un modelo altamente eficiente de 1-NFE que permite la edición y generación interactiva casi en tiempo real. Al combinar la destilación adversaria avanzada con el aprendizaje basado en retroalimentación humana, este modelo logra una relación costo-eficacia y capacidad de respuesta óptimas, haciendo que las interacciones multimodales complejas sean fluidas e instantáneas.
El uso de tokens continuos en lugar de discretos durante la fase de razonamiento de Cadena de Pensamiento (CoT, por sus siglas en inglés) en modelos de lenguaje grandes (LLMs) ha captado atención recientemente, basado en la intuición de que una mezcla continua de tokens discretos podría simular una superposición de varias rutas de razonamiento simultáneamente. Resultados teóricos han demostrado formalmente que los tokens continuos tienen una expresividad mucho mayor y pueden resolver problemas específicos de manera más eficiente. Sin embargo, el uso práctico de tokens continuos ha sido limitado por fuertes dificultades en el entrenamiento: trabajos previos o bien utilizan tokens continuos únicamente en tiempo de inferencia sobre un modelo preentrenado con tokens discretos, o deben destilar la CoT continua a partir de CoTs discretas de referencia y enfrentan costos computacionales que limitan la CoT a muy pocos tokens. Este es el primer trabajo que introduce un método escalable para aprender CoTs continuas mediante aprendizaje por refuerzo (RL, por sus siglas en inglés), sin destilar a partir de CoTs discretas de referencia. Utilizamos tokens "suaves": mezclas de tokens junto con ruido en la incrustación de entrada para proporcionar exploración en RL. La sobrecarga computacional es mínima, lo que nos permite aprender CoTs continuas con cientos de tokens. En benchmarks de razonamiento matemático con modelos Llama y Qwen de hasta 8B, el entrenamiento con CoTs continuas iguala a las CoTs de tokens discretos en pass@1 y las supera en pass@32, mostrando una mayor diversidad en la CoT. En comparaciones sistemáticas, el escenario de mejor rendimiento es entrenar con tokens de CoT continua y luego usar tokens discretos para la inferencia, lo que significa que los modelos "suaves" pueden implementarse de manera estándar. Finalmente, demostramos que el entrenamiento de RL con CoT continua preserva mejor las predicciones del modelo base en tareas fuera de dominio, proporcionando así un toque más suave al modelo base.
Recientemente, el método de Splatting Gaussiano 3D (3DGS) ha surgido como una alternativa potente a los enfoques basados en NeRF, permitiendo la síntesis de nuevas vistas en tiempo real y de alta calidad mediante el uso de Gaussianas 3D explícitas y optimizables. Sin embargo, 3DGS sufre un consumo significativo de memoria debido a su dependencia de parámetros por Gaussiana para modelar efectos dependientes de la vista y formas anisotrópicas. Aunque trabajos recientes proponen comprimir 3DGS utilizando campos neuronales, estos métodos tienen dificultades para capturar variaciones espaciales de alta frecuencia en las propiedades de las Gaussianas, lo que resulta en una reconstrucción degradada de detalles finos. Presentamos Campos de Radiancia Híbridos (HyRF), una representación novedosa de escenas que combina las fortalezas de las Gaussianas explícitas y los campos neuronales. HyRF descompone la escena en (1) un conjunto compacto de Gaussianas explícitas que almacenan únicamente parámetros críticos de alta frecuencia y (2) campos neuronales basados en cuadrículas que predicen las propiedades restantes. Para mejorar la capacidad de representación, introducimos una arquitectura de campo neuronal desacoplada, modelando por separado la geometría (escala, opacidad, rotación) y el color dependiente de la vista. Además, proponemos un esquema de renderizado híbrido que combina el splatting Gaussiano con un fondo predicho por un campo neuronal, abordando las limitaciones en la representación de escenas distantes. Los experimentos demuestran que HyRF logra una calidad de renderizado de vanguardia mientras reduce el tamaño del modelo en más de 20 veces en comparación con 3DGS y mantiene un rendimiento en tiempo real. Nuestra página del proyecto está disponible en https://wzpscott.github.io/hyrf/.
Los dialectos representan un componente significativo de la cultura humana y se encuentran presentes en todas las regiones del mundo. En Alemania, más del 40% de la población habla un dialecto regional (Adler y Hansen, 2022). Sin embargo, a pesar de su importancia cultural, las personas que hablan dialectos a menudo enfrentan estereotipos sociales negativos. Examinamos si dichos estereotipos se reflejan en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés). Nos basamos en la literatura sociolingüística sobre la percepción de los dialectos para analizar los rasgos comúnmente asociados con los hablantes de dialectos. Con base en estos rasgos, evaluamos el sesgo en la denominación de dialectos y el sesgo en el uso de dialectos expresado por los LLMs en dos tareas: una tarea de asociación y una tarea de decisión. Para evaluar el sesgo en el uso de dialectos de un modelo, construimos un corpus de evaluación novedoso que empareja oraciones de siete dialectos regionales alemanes (por ejemplo, alemánico y bávaro) con sus contrapartes en alemán estándar. Encontramos que: (1) en la tarea de asociación, todos los LLMs evaluados exhiben un sesgo significativo en la denominación y el uso de dialectos contra los hablantes de dialectos alemanes, reflejado en asociaciones de adjetivos negativos; (2) todos los modelos reproducen estos sesgos en la denominación y el uso de dialectos en su toma de decisiones; y (3) en contraste con trabajos previos que muestran un sesgo mínimo con menciones demográficas explícitas, encontramos que etiquetar explícitamente las características demográficas lingüísticas—los hablantes de dialectos alemanes—amplifica el sesgo más que las señales implícitas como el uso del dialecto.
El modelado generativo condicional tiene como objetivo aprender una distribución de datos condicional a partir de muestras que contienen pares de datos-condición. Para ello, los métodos basados en difusión y flujo han obtenido resultados convincentes. Estos métodos utilizan un modelo (de flujo) aprendido para transportar un ruido gaussiano estándar inicial que ignora la condición hacia la distribución de datos condicional. Por lo tanto, el modelo debe aprender tanto el transporte de masa como la inyección condicional. Para reducir la demanda sobre el modelo, proponemos la Reparametrización Consciente de la Condición para Emparejamiento de Flujo (CAR-Flow, por sus siglas en inglés): un desplazamiento ligero y aprendido que condiciona la fuente, el objetivo o ambas distribuciones. Al reubicar estas distribuciones, CAR-Flow acorta la trayectoria de probabilidad que el modelo debe aprender, lo que conduce a un entrenamiento más rápido en la práctica. En datos sintéticos de baja dimensión, visualizamos y cuantificamos los efectos de CAR. En datos de imágenes naturales de mayor dimensión (ImageNet-256), equipar SiT-XL/2 con CAR-Flow reduce el FID de 2.07 a 1.68, mientras introduce menos del 0.6% de parámetros adicionales.
La escasez de datos sigue siendo uno de los factores más limitantes para impulsar el progreso en robótica. Sin embargo, la cantidad de datos robóticos disponibles en entornos reales está creciendo exponencialmente, creando nuevas oportunidades para la utilización de datos a gran escala. La predicción confiable de la finalización temporal de tareas podría ayudar a anotar y curar automáticamente estos datos a escala. Recientemente se propuso el enfoque de Aprendizaje de Valor Generativo (GVL), que aprovecha el conocimiento incrustado en los modelos de visión y lenguaje (VLMs) para predecir el progreso de las tareas a partir de observaciones visuales. Basándonos en GVL, proponemos OpenGVL, un punto de referencia integral para estimar el progreso de tareas en diversas tareas de manipulación desafiantes que involucran tanto robots como humanos. Evaluamos las capacidades de los modelos de base de código abierto disponibles públicamente, mostrando que las familias de modelos de código abierto tienen un rendimiento significativamente inferior al de sus contrapartes de código cerrado, alcanzando solo aproximadamente el 70% de su rendimiento en tareas de predicción de progreso temporal. Además, demostramos cómo OpenGVL puede servir como una herramienta práctica para la curación y filtrado automático de datos, permitiendo una evaluación eficiente de la calidad de grandes conjuntos de datos robóticos. Publicamos el punto de referencia junto con el código completo en github.com/budzianowski/opengvl{OpenGVL}.
Los recientes avances en los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) han mejorado significativamente las capacidades de comprensión de videos, abriendo nuevas posibilidades para aplicaciones prácticas. Sin embargo, los benchmarks actuales de video se centran principalmente en escenas interiores o actividades al aire libre de corta duración, dejando en gran medida sin explorar los desafíos asociados con los viajes de larga distancia. Dominar trayectorias geoespaciales-temporales extendidas es crucial para la próxima generación de MLLMs, sustentando tareas del mundo real como la planificación y navegación en sistemas de IA encarnada. Para cerrar esta brecha, presentamos VIR-Bench, un nuevo benchmark compuesto por 200 videos de viajes que enmarca la reconstrucción de itinerarios como una tarea desafiante diseñada para evaluar y avanzar la inteligencia geoespacial-temporal de los MLLMs. Los resultados experimentales revelan que los MLLMs de vanguardia, incluidos los propietarios, tienen dificultades para alcanzar puntuaciones altas, subrayando la complejidad de manejar videos que abarcan escalas espaciales y temporales extendidas. Además, realizamos un estudio de caso en profundidad en el que desarrollamos un prototipo de agente de planificación de viajes que aprovecha los conocimientos obtenidos de VIR-Bench. Las recomendaciones de itinerario notablemente mejoradas del agente verifican que nuestro protocolo de evaluación no solo evalúa los modelos de manera efectiva, sino que también se traduce en mejoras concretas de rendimiento en aplicaciones orientadas al usuario.
La reconstrucción de superficies precisas mediante campos de radiación ha logrado avances notables en los últimos años. Sin embargo, los enfoques predominantes, basados principalmente en *Gaussian Splatting*, se ven cada vez más limitados por cuellos de botella en la representación. En este artículo, presentamos GeoSVR, un marco explícito basado en vóxeles que explora y amplía el potencial poco investigado de los vóxeles dispersos para lograr una reconstrucción de superficies precisa, detallada y completa. Como fortalezas, los vóxeles dispersos permiten preservar la integridad de la cobertura y la claridad geométrica, aunque también surgen desafíos relacionados con la ausencia de restricciones en la escena y la localidad en el refinamiento de superficies. Para garantizar una convergencia correcta de la escena, primero proponemos una Restricción de Profundidad con Incertidumbre de Vóxeles que maximiza el efecto de las señales de profundidad monoculares mientras presenta una incertidumbre orientada a vóxeles para evitar la degradación de la calidad, permitiendo restricciones de escena efectivas y robustas, y preservando geometrías altamente precisas. Posteriormente, se diseña una Regularización de Superficie con Vóxeles Dispersos para mejorar la consistencia geométrica de vóxeles diminutos y facilitar la formación de superficies nítidas y precisas basadas en vóxeles. Experimentos extensos demuestran nuestro rendimiento superior en comparación con métodos existentes en diversos escenarios desafiantes, destacando en precisión geométrica, preservación de detalles y completitud de la reconstrucción, manteniendo una alta eficiencia. El código está disponible en https://github.com/Fictionarry/GeoSVR.
Los sistemas de traducción simultánea de voz a texto (SimulST) deben equilibrar la calidad de la traducción con la latencia—el retraso entre la entrada de voz y la salida traducida. Si bien la evaluación de la calidad está bien establecida, la medición precisa de la latencia sigue siendo un desafío. Las métricas existentes a menudo producen resultados inconsistentes o engañosos, especialmente en el entorno de formato corto ampliamente utilizado, donde el habla está segmentada artificialmente de antemano. En este artículo, presentamos el primer análisis exhaustivo de las métricas de latencia de SimulST en pares de idiomas, sistemas y regímenes tanto de formato corto como largo. Descubrimos un sesgo estructural en las métricas actuales relacionado con la segmentación que socava las comparaciones justas y significativas. Para abordar esto, introducimos YAAL (Yet Another Average Lagging), una métrica de latencia refinada que ofrece evaluaciones más precisas en el régimen de formato corto. Extendemos YAAL a LongYAAL para audio no segmentado y proponemos SoftSegmenter, una herramienta novedosa de resegmentación basada en alineación a nivel de palabra. Nuestros experimentos muestran que YAAL y LongYAAL superan a las métricas de latencia populares, mientras que SoftSegmenter mejora la calidad de la alineación en la evaluación de formato largo, permitiendo juntos evaluaciones más confiables de los sistemas SimulST.
Este artículo presenta CommonForms, un conjunto de datos a escala web para la detección de campos de formularios. Plantea el problema de la detección de campos de formularios como un problema de detección de objetos: dada una imagen de una página, predecir la ubicación y el tipo (Entrada de Texto, Botón de Selección, Firma) de los campos de formularios. El conjunto de datos se construye filtrando Common Crawl para encontrar PDFs que contengan elementos rellenables. Partiendo de 8 millones de documentos, el proceso de filtrado se utiliza para obtener un conjunto de datos final de aproximadamente 55k documentos que contienen más de 450k páginas. El análisis muestra que el conjunto de datos contiene una mezcla diversa de idiomas y dominios; un tercio de las páginas no están en inglés, y entre los 14 dominios clasificados, ningún dominio representa más del 25% del conjunto de datos. Además, este artículo presenta una familia de detectores de campos de formularios, FFDNet-Small y FFDNet-Large, que alcanzan una precisión promedio muy alta en el conjunto de pruebas de CommonForms. Cada modelo costó menos de $500 en entrenamiento. Los resultados de ablación muestran que las entradas de alta resolución son cruciales para una detección de campos de formularios de alta calidad, y que el proceso de limpieza mejora la eficiencia de los datos en comparación con el uso de todos los PDFs que contienen campos rellenables en Common Crawl. Un análisis cualitativo muestra que superan a un popular lector de PDFs disponible comercialmente que puede preparar formularios. A diferencia de las soluciones comerciales más populares, FFDNet puede predecir casillas de verificación además de campos de texto y firma. Este es, hasta donde sabemos, el primer conjunto de datos a gran escala publicado para la detección de campos de formularios, así como los primeros modelos de código abierto. El conjunto de datos, los modelos y el código se publicarán en https://github.com/jbarrow/commonforms.
Las imágenes multiespectrales desempeñan un papel crucial en diversas aplicaciones de Teledetección, como la clasificación de usos del suelo, el monitoreo ambiental y la planificación urbana. Estas imágenes son ampliamente adoptadas porque sus bandas espectrales adicionales se correlacionan fuertemente con materiales físicos en la superficie, como hielo, agua y vegetación. Esto permite una identificación más precisa, y su disponibilidad pública en misiones como Sentinel-2 y Landsat solo aumenta su valor. Actualmente, el análisis automático de estos datos se gestiona principalmente mediante modelos de aprendizaje automático específicamente entrenados para entradas multiespectrales, los cuales son costosos de entrenar y mantener. Además, aunque proporcionan mucha utilidad para la Teledetección, estas entradas adicionales no pueden utilizarse con potentes modelos multimodales generalistas, capaces de resolver muchos problemas visuales, pero incapaces de comprender señales multiespectrales especializadas. Para abordar esto, proponemos un enfoque sin entrenamiento que introduce nuevos datos multiespectrales en un modo exclusivamente Zero-Shot, como entradas para modelos multimodales generalistas entrenados únicamente con entradas RGB. Nuestro enfoque aprovecha la comprensión del espacio visual por parte de los modelos multimodales y propone adaptar las entradas a ese espacio, inyectando información específica del dominio como instrucciones en el modelo. Ejemplificamos esta idea con el modelo Gemini2.5 y observamos fuertes mejoras en el rendimiento Zero-Shot del enfoque en benchmarks populares de Teledetección para la clasificación de cobertura y uso del suelo, demostrando la fácil adaptabilidad de Gemini2.5 a nuevas entradas. Estos resultados resaltan el potencial para que los profesionales geoespaciales, que trabajan con entradas especializadas no estándar, puedan aprovechar fácilmente potentes modelos multimodales, como Gemini2.5, para acelerar su trabajo, beneficiándose de sus ricas capacidades de razonamiento y contextualización, basadas en datos de sensores especializados.
Las políticas de manipulación robótica a menudo fallan en generalizar porque deben aprender simultáneamente dónde enfocarse, qué acciones tomar y cómo ejecutarlas. Argumentamos que el razonamiento de alto nivel sobre el dónde y el qué puede delegarse a los modelos de visión y lenguaje (VLMs), permitiendo que las políticas se especialicen en el cómo actuar. Presentamos PEEK (Extracción de Puntos Clave Esenciales Independiente de la Política), que ajusta finamente los VLMs para predecir una representación intermedia unificada basada en puntos: 1. trayectorias del efector final que especifican qué acciones tomar, y 2. máscaras relevantes para la tarea que indican dónde enfocarse. Estas anotaciones se superponen directamente sobre las observaciones del robot, haciendo que la representación sea independiente de la política y transferible entre arquitecturas. Para permitir un entrenamiento escalable, introducimos una canalización de anotación automática, generando datos etiquetados en más de 20 conjuntos de datos de robots que abarcan 9 configuraciones. En evaluaciones del mundo real, PEEK mejora consistentemente la generalización zero-shot, incluyendo una mejora de 41.4x en el mundo real para una política 3D entrenada únicamente en simulación, y ganancias de 2-3.5x tanto para grandes VLAs como para pequeñas políticas de manipulación. Al permitir que los VLMs absorban la complejidad semántica y visual, PEEK equipa a las políticas de manipulación con las señales mínimas que necesitan: dónde, qué y cómo. Sitio web en https://peek-robot.github.io/.
Presentamos RadEval, un marco unificado y de código abierto para evaluar textos radiológicos. RadEval consolida una amplia gama de métricas, desde la superposición clásica de n-gramas (BLEU, ROUGE) y medidas contextuales (BERTScore) hasta puntuaciones basadas en conceptos clínicos (F1CheXbert, F1RadGraph, RaTEScore, SRR-BERT, TemporalEntityF1) y evaluadores avanzados basados en LLM (GREEN). Refinamos y estandarizamos las implementaciones, extendemos GREEN para admitir múltiples modalidades de imágenes con un modelo más ligero, y preentrenamos un codificador específico del dominio radiológico, demostrando un fuerte rendimiento en recuperación zero-shot. También publicamos un conjunto de datos expertos ricamente anotados con más de 450 etiquetas de errores clínicamente significativos y mostramos cómo diferentes métricas se correlacionan con el juicio de los radiólogos. Finalmente, RadEval proporciona herramientas de pruebas estadísticas y evaluaciones de modelos de referencia en múltiples conjuntos de datos disponibles públicamente, facilitando la reproducibilidad y la evaluación robusta en la generación de informes radiológicos.
Presentamos DRISHTIKON, un punto de referencia multimodal y multilingüe sin precedentes, centrado exclusivamente en la cultura india, diseñado para evaluar la comprensión cultural de los sistemas de inteligencia artificial generativa. A diferencia de los puntos de referencia existentes con un alcance genérico o global, DRISHTIKON ofrece una cobertura profunda y detallada en las diversas regiones de la India, abarcando 15 idiomas, cubriendo todos los estados y territorios de la unión, e incorporando más de 64,000 pares de texto-imagen alineados. El conjunto de datos captura temas culturales ricos, incluyendo festivales, vestimenta, cocinas, formas de arte y patrimonio histórico, entre muchos otros. Evaluamos una amplia gama de modelos de visión-lenguaje (VLMs), incluyendo modelos pequeños y grandes de código abierto, sistemas propietarios, VLMs especializados en razonamiento y modelos enfocados en lenguas índicas, en configuraciones de cero disparos y cadena de pensamiento. Nuestros resultados revelan limitaciones clave en la capacidad de los modelos actuales para razonar sobre entradas multimodales con base cultural, particularmente para idiomas de bajos recursos y tradiciones menos documentadas. DRISHTIKON llena un vacío crucial en la investigación de IA inclusiva, ofreciendo un banco de pruebas robusto para avanzar en tecnologías del lenguaje culturalmente conscientes y multimodalmente competentes.