Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos fundacionales multimodales, como GPT-4o, han logrado avances notables recientemente, pero no está claro exactamente en qué nivel se encuentran en términos de comprensión visual. En este artículo, evaluamos el rendimiento de modelos fundacionales multimodales populares (GPT-4o, o4-mini, Gemini 1.5 Pro y Gemini 2.0 Flash, Claude 3.5 Sonnet, Qwen2-VL, Llama 3.2) en tareas estándar de visión por computadora (segmentación semántica, detección de objetos, clasificación de imágenes, predicción de profundidad y normales de superficie) utilizando conjuntos de datos establecidos (por ejemplo, COCO, ImageNet y sus variantes, etc.). Los principales desafíos para realizar esto son: 1) la mayoría de los modelos están entrenados para generar texto y no pueden expresar de forma nativa dominios versátiles, como segmentos o geometría 3D, y 2) muchos de los modelos líderes son propietarios y solo son accesibles a nivel de API, es decir, no hay acceso a los pesos para adaptarlos. Abordamos estos desafíos traduciendo tareas estándar de visión en tareas equivalentes que puedan ser formuladas mediante texto y sean compatibles con API, utilizando cadenas de prompts para crear un marco de evaluación estandarizado. Observamos que: 1) los modelos no se acercan al estado del arte de los modelos especializados en ninguna tarea. Sin embargo, 2) son generalistas respetables; esto es notable dado que presumiblemente están entrenados principalmente en tareas basadas en imágenes y texto. 3) Desempeñan tareas semánticas notablemente mejor que las geométricas. 4) Aunque las técnicas de cadenas de prompts afectan el rendimiento, los modelos mejores muestran menos sensibilidad a las variaciones de los prompts. 5) GPT-4o tiene el mejor rendimiento entre los modelos no razonadores, obteniendo el primer lugar en 4 de 6 tareas. 6) Los modelos razonadores, como o3, muestran mejoras en tareas geométricas. 7) Un análisis preliminar de modelos con generación nativa de imágenes, como el último GPT-4o, muestra que presentan peculiaridades como alucinaciones y desalineaciones espaciales.
El elevado costo computacional de los modelos de difusión durante la inferencia dificulta su uso como emuladores físicos rápidos. En el contexto de la generación de imágenes y videos, este inconveniente computacional se ha abordado generando en el espacio latente de un autoencoder en lugar del espacio de píxeles. En este trabajo, investigamos si una estrategia similar puede aplicarse de manera efectiva a la emulación de sistemas dinámicos y a qué costo. Descubrimos que la precisión de la emulación en el espacio latente es sorprendentemente robusta ante una amplia gama de tasas de compresión (hasta 1000x). También demostramos que los emuladores basados en difusión son consistentemente más precisos que sus contrapartes no generativas y compensan la incertidumbre en sus predicciones con una mayor diversidad. Finalmente, cubrimos decisiones de diseño prácticas, desde arquitecturas hasta optimizadores, que consideramos críticas para entrenar emuladores en el espacio latente.
El rápido avance de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) ha intensificado la necesidad de marcos de evaluación que vayan más allá de los puntos de referencia centrados en el inglés y aborden los requisitos de regiones lingüísticamente diversas como la India. Presentamos EKA-EVAL, un marco de evaluación unificado y listo para producción que integra más de 35 puntos de referencia, incluyendo 10 conjuntos de datos específicos para lenguas índicas, abarcando categorías como razonamiento, matemáticas, uso de herramientas, comprensión de contexto largo y comprensión lectora. En comparación con las herramientas de evaluación existentes para lenguas indias, EKA-EVAL ofrece una cobertura más amplia de puntos de referencia, con soporte integrado para inferencia distribuida, cuantización y uso de múltiples GPU. Nuestra comparación sistemática posiciona a EKA-EVAL como la primera suite de evaluación integral y extensible diseñada tanto para LLMs globales como para los específicos de lenguas índicas, reduciendo significativamente la barrera para la evaluación multilingüe. El marco es de código abierto y está disponible públicamente en https://github.com/lingo-iitgn/eka-eval y forma parte de la iniciativa EKA en curso (https://eka.soket.ai), que tiene como objetivo escalar a más de 100 puntos de referencia y establecer un ecosistema de evaluación multilingüe robusto para LLMs.
Evaluar la escritura creativa generada por modelos de lenguaje de gran escala (LLMs) sigue siendo un desafío debido a que las narrativas de final abierto carecen de verdades de referencia. Sin métodos automatizados de evaluación eficientes, se emplean modelos de lenguaje estándar (OTS) como jueces de evaluación en modo zero-shot, aunque su fiabilidad en este contexto no está clara. En busca de una evaluación robusta para la escritura creativa, presentamos LitBench, el primer punto de referencia estandarizado y conjunto de datos emparejado para la verificación de escritura creativa, que incluye un conjunto de prueba reservado de 2,480 comparaciones de historias desviadas y etiquetadas por humanos extraídas de Reddit, y un corpus de entrenamiento de 43,827 pares con etiquetas de preferencia humana. Utilizando LitBench, (i) evaluamos jueces LLM en modo zero-shot, (ii) entrenamos modelos de recompensa Bradley-Terry y generativos, y (iii) realizamos un estudio humano en línea para validar las clasificaciones de los modelos de recompensa en historias generadas recientemente por LLMs. Nuestro punto de referencia identifica a Claude-3.7-Sonnet como el juez estándar más fuerte, alcanzando un 73% de concordancia con las preferencias humanas; entre los modelos de recompensa entrenados, tanto los modelos Bradley-Terry como los generativos logran una precisión del 78%, superando a todos los jueces estándar. Un estudio humano en línea confirma además que nuestros modelos de recompensa entrenados se alinean consistentemente con las preferencias humanas en historias nuevas generadas por LLMs. Publicamos LitBench y los modelos de recompensa en https://huggingface.co/collections/SAA-Lab/litbench-68267b5da3aafe58f9e43461, proporcionando un recurso verificado para la evaluación y optimización automatizada confiable de sistemas de escritura creativa.