Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos Bielik v3, una serie de modelos generativos de texto eficientes en parámetros (1.5B y 4.5B) optimizados para el procesamiento del idioma polaco. Estos modelos demuestran que arquitecturas más pequeñas pero bien optimizadas pueden alcanzar un rendimiento comparable al de modelos mucho más grandes, requiriendo sustancialmente menos recursos computacionales. Nuestro enfoque incorpora varias innovaciones clave: un tokenizador personalizado para polaco (APT4) que mejora significativamente la eficiencia de los tokens, una función de pérdida de entropía cruzada ponderada por instrucciones (Weighted Instruction Cross-Entropy Loss) para equilibrar el aprendizaje entre tipos de instrucciones, y una tasa de aprendizaje adaptativa (Adaptive Learning Rate) que se ajusta dinámicamente según el progreso del entrenamiento. Entrenados en un corpus meticulosamente curado de 292 mil millones de tokens que abarcan 303 millones de documentos, estos modelos destacan en múltiples benchmarks, incluyendo el Open PL LLM Leaderboard, el Benchmark de Comprensión de Texto Complejo en Polaco, el Polish EQ-Bench y el Polish Medical Leaderboard. El modelo de 4.5B parámetros logra resultados competitivos con modelos 2-3 veces más grandes, mientras que el modelo de 1.5B ofrece un rendimiento sólido a pesar de su perfil extremadamente compacto. Estos avances establecen nuevos referentes en el modelado de lenguaje eficiente en parámetros para idiomas menos representados, haciendo que la IA de alta calidad en polaco sea más accesible para aplicaciones con recursos limitados.
Presentamos Bielik 11B v2, un modelo de lenguaje de vanguardia optimizado para el procesamiento de texto en polaco. Basado en la arquitectura Mistral 7B v0.2 y escalado a 11 mil millones de parámetros mediante escalado en profundidad, este modelo demuestra un rendimiento excepcional en los benchmarks de lenguaje polaco, manteniendo al mismo tiempo sólidas capacidades multilingües. Introducimos dos innovaciones técnicas clave: la Pérdida de Entropía Cruzada de Instrucción Ponderada, que optimiza el aprendizaje en diversos tipos de instrucciones asignando pesos basados en la calidad a los ejemplos de entrenamiento, y la Tasa de Aprendizaje Adaptativa, que se ajusta dinámicamente según la longitud del contexto. Una evaluación exhaustiva en múltiples benchmarks demuestra que Bielik 11B v2 supera a muchos modelos más grandes, incluidos aquellos con 2 a 6 veces más parámetros, y supera significativamente a otros modelos especializados en lenguaje polaco en tareas que van desde la comprensión lingüística hasta el razonamiento complejo. La eficiencia en parámetros del modelo y sus amplias opciones de cuantificación permiten su implementación en diversas configuraciones de hardware, avanzando en las capacidades de IA para el lenguaje polaco y estableciendo nuevos estándares para el modelado de lenguaje eficiente en recursos en idiomas menos representados.
Un robot generalista debería desempeñarse eficazmente en diversos entornos. Sin embargo, la mayoría de los enfoques existentes dependen en gran medida de escalar datos anotados con acciones para mejorar sus capacidades. Como consecuencia, suelen estar limitados a una única especificación física y tienen dificultades para aprender conocimientos transferibles entre diferentes configuraciones y entornos. Para abordar estas limitaciones, proponemos UniVLA, un nuevo marco para aprender políticas de visión-lenguaje-acción (VLA) entre configuraciones. Nuestra innovación clave es derivar representaciones de acciones centradas en tareas a partir de videos con un modelo de acción latente. Esto nos permite aprovechar datos extensos en un amplio espectro de configuraciones y perspectivas. Para mitigar el efecto de dinámicas irrelevantes para la tarea, incorporamos instrucciones de lenguaje y establecemos un modelo de acción latente dentro del espacio de características DINO. Aprendida a partir de videos a escala de internet, la política generalista puede implementarse en varios robots mediante una decodificación eficiente de acciones latentes. Obtenemos resultados de vanguardia en múltiples puntos de referencia de manipulación y navegación, así como en implementaciones con robots reales. UniVLA logra un rendimiento superior a OpenVLA con menos de 1/20 del cómputo de preentrenamiento y 1/10 de los datos de seguimiento. Se observan mejoras continuas en el rendimiento a medida que se incorporan datos heterogéneos, incluso videos humanos, en el proceso de entrenamiento. Los resultados subrayan el potencial de UniVLA para facilitar el aprendizaje escalable y eficiente de políticas robóticas.
Evaluar la efectividad del diseño de la interfaz de usuario (UI) va más allá de la estética para influir en el comportamiento del usuario, un principio central en la Persuasión del Diseño. Las pruebas A/B son el método predominante para determinar qué variaciones de UI generan un mayor compromiso del usuario, pero son costosas y consumen mucho tiempo. Aunque los modelos de Visión-Lenguaje (VLMs) recientes pueden procesar análisis automatizados de UI, los enfoques actuales se centran en atributos de diseño aislados en lugar de la persuasividad comparativa, el factor clave para optimizar las interacciones del usuario. Para abordar esto, presentamos WiserUI-Bench, un punto de referencia diseñado para la tarea de Evaluación de Persuasión de Diseño de UI por Pares, que incluye 300 pares de imágenes de UI del mundo real etiquetados con resultados de pruebas A/B y razonamientos de expertos. Además, proponemos G-FOCUS, una novedosa estrategia de razonamiento en tiempo de inferencia que mejora la evaluación de persuasividad basada en VLM al reducir el sesgo de posición y mejorar la precisión de la evaluación. Los resultados experimentales muestran que G-FOCUS supera a las estrategias de inferencia existentes en consistencia y precisión para la evaluación de UI por pares. Al promover la evaluación de la persuasividad de UI impulsada por VLM, nuestro trabajo ofrece un enfoque para complementar las pruebas A/B, impulsando el progreso en el modelado escalable de preferencias de UI y la optimización del diseño. El código y los datos se publicarán públicamente.
Los recientes avances en los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) han evolucionado desde el escalamiento durante el pre-entrenamiento hacia el escalamiento en etapas posteriores al entrenamiento y durante la prueba. En medio de estos avances, ha surgido un paradigma unificado clave: el Aprendizaje a partir de Recompensas, donde las señales de recompensa actúan como guías para dirigir el comportamiento de los LLMs. Este paradigma ha sustentado una amplia gama de técnicas prevalentes, como el aprendizaje por refuerzo (en RLHF, DPO y GRPO), la decodificación guiada por recompensas y la corrección post-hoc. Fundamentalmente, este paradigma permite la transición de un aprendizaje pasivo a partir de datos estáticos hacia un aprendizaje activo a partir de retroalimentación dinámica. Esto dota a los LLMs de preferencias alineadas y capacidades de razonamiento profundo. En este estudio, presentamos una visión general exhaustiva del paradigma de aprendizaje a partir de recompensas. Clasificamos y analizamos las estrategias bajo este paradigma en las etapas de entrenamiento, inferencia y post-inferencia. Además, discutimos los puntos de referencia para los modelos de recompensa y las principales aplicaciones. Finalmente, destacamos los desafíos y las direcciones futuras. Mantenemos una colección de artículos en https://github.com/bobxwu/learning-from-rewards-llm-papers.
A medida que los Modelos de Lenguaje de Gran Escala (LLMs) se vuelven ampliamente accesibles, es necesario comprender en detalle su conocimiento dentro de dominios específicos para un uso exitoso en el mundo real. Esto es particularmente crítico en el ámbito de la salud pública, donde la incapacidad de recuperar información relevante, precisa y actualizada podría tener un impacto significativo en los residentes del Reino Unido. Sin embargo, actualmente se sabe poco sobre el conocimiento de los LLMs respecto a la información de salud pública del Gobierno del Reino Unido. Para abordar este problema, este artículo presenta un nuevo punto de referencia, PubHealthBench, con más de 8000 preguntas para evaluar las respuestas de los LLMs en preguntas de opción múltiple (MCQA) y respuestas de forma libre a consultas de salud pública, creadas mediante una canalización automatizada. También publicamos un nuevo conjunto de datos de los documentos de orientación de salud pública del Gobierno del Reino Unido extraídos, utilizados como texto fuente para PubHealthBench. Al evaluar 24 LLMs en PubHealthBench, encontramos que los últimos LLMs privados (GPT-4.5, GPT-4.1 y o1) tienen un alto grado de conocimiento, logrando más del 90% en la configuración de MCQA, y superan a los humanos con un uso superficial de motores de búsqueda. Sin embargo, en la configuración de respuestas de forma libre observamos un rendimiento más bajo, sin que ningún modelo supere el 75%. Por lo tanto, aunque hay señales prometedoras de que los LLMs de última generación (SOTA) son una fuente cada vez más precisa de información de salud pública, aún pueden ser necesarias salvaguardias o herramientas adicionales al proporcionar respuestas de forma libre sobre temas de salud pública.
El modelo GPT-4o de OpenAI, que integra entradas y salidas multimodales dentro de una arquitectura autorregresiva, ha demostrado un rendimiento sin precedentes en la generación de imágenes. En este trabajo, investigamos su impacto potencial en la comunidad de restauración de imágenes. Presentamos la primera evaluación sistemática de GPT-4o en diversas tareas de restauración. Nuestros experimentos revelan que, aunque las salidas de restauración de GPT-4o son visualmente atractivas, a menudo presentan problemas de fidelidad estructural a nivel de píxel en comparación con las imágenes de referencia. Los problemas comunes incluyen variaciones en las proporciones de la imagen, desplazamientos en las posiciones y cantidades de objetos, y cambios en el punto de vista. Para abordar esto, tomando como estudios de caso representativos la eliminación de niebla, la eliminación de lluvia y la mejora de imágenes con poca luz, demostramos que las salidas de GPT-4o pueden servir como poderosos antecedentes visuales, mejorando sustancialmente el rendimiento de las redes existentes de eliminación de niebla. Ofrecemos pautas prácticas y un marco de referencia para facilitar la integración de GPT-4o en futuros flujos de trabajo de restauración de imágenes. Esperamos que el estudio sobre la restauración de imágenes con GPT-4o acelere la innovación en el campo más amplio de la generación de imágenes. Para apoyar investigaciones futuras, publicaremos imágenes restauradas por GPT-4o de más de 10 conjuntos de datos ampliamente utilizados en restauración de imágenes.
El registro rígido de nubes de puntos es un problema fundamental en la visión por computadora 3D. En el caso multivista, buscamos encontrar un conjunto de poses 6D para alinear un conjunto de objetos. Los métodos basados en registro por pares dependen de un algoritmo de sincronización posterior, lo que los hace poco escalables con el número de vistas. Los enfoques generativos superan esta limitación, pero se basan en modelos de mezcla gaussiana y utilizan un algoritmo de Expectation-Maximization. Por lo tanto, no son adecuados para manejar transformaciones grandes. Además, la mayoría de los métodos existentes no pueden manejar altos niveles de degradaciones. En este artículo, presentamos POLAR (POint cloud LAtent Registration), un método de registro multivista capaz de manejar eficientemente un gran número de vistas, al mismo tiempo que es robusto frente a un alto nivel de degradaciones y ángulos iniciales grandes. Para lograr esto, trasladamos el problema de registro al espacio latente de un autoencoder preentrenado, diseñamos una función de pérdida que tiene en cuenta las degradaciones y desarrollamos una estrategia de optimización multinicio eficiente. Nuestro método propuesto supera significativamente a los enfoques más avanzados en datos sintéticos y reales. POLAR está disponible en github.com/pypolar/polar o como un paquete independiente que puede instalarse con pip install polaregistration.