Artículos de investigación en IA seleccionados diariamente con traducciones
El Aprendizaje por Refuerzo (RL) formula matemáticamente la toma de decisiones con Proceso de Decisión de Markov (MDP). Con MDPs, los investigadores han logrado avances notables en diversos campos, incluidos juegos, robótica y modelos de lenguaje. Este documento busca una nueva posibilidad, Aprendizaje por Refuerzo de Lenguaje Natural (NLRL), al extender el MDP tradicional al espacio de representación basado en lenguaje natural. Específicamente, NLRL redefine de manera innovadora los principios de RL, incluidos los objetivos de la tarea, la política, la función de valor, la ecuación de Bellman y la iteración de políticas, en sus contrapartes lingüísticas. Con los avances recientes en modelos de lenguaje grandes (LLMs), NLRL puede implementarse prácticamente para lograr mejoras en la política y el valor al estilo de RL mediante el uso de indicaciones puras o entrenamiento basado en gradientes. Experimentos realizados en juegos de Laberinto, Breakthrough y Gato demuestran la efectividad, eficiencia e interpretabilidad del marco NLRL en diversos casos de uso. Nuestro código será publicado en https://github.com/waterhorse1/Natural-language-RL.
Los modelos de lenguaje multimodales grandes de código abierto (MLLMs) existentes generalmente siguen un proceso de entrenamiento que implica pre-entrenamiento y ajuste fino supervisado. Sin embargo, estos modelos sufren de desplazamientos de distribución, que limitan su razonamiento multimodal, particularmente en el rendimiento de la Cadena de Pensamiento (CoT). Para abordar esto, introducimos un proceso de optimización de preferencias (PO) para mejorar las capacidades de razonamiento multimodal de los MLLMs. Específicamente, (1) en el lado de los datos, diseñamos un canal automatizado de construcción de datos de preferencias para crear MMPR, un conjunto de datos de preferencias de razonamiento multimodal a gran escala y de alta calidad, y (2) en el lado del modelo, exploramos la integración de PO con MLLMs, desarrollando un método simple pero efectivo, denominado Optimización de Preferencias Mixtas (MPO), que mejora el rendimiento de CoT multimodal. Nuestro enfoque demuestra un rendimiento mejorado en múltiples pruebas, especialmente en tareas de razonamiento multimodal. Notablemente, nuestro modelo, InternVL2-8B-MPO, logra una precisión del 67.0 en MathVista, superando a InternVL2-8B en 8.7 puntos y logrando un rendimiento comparable al InternVL2-76B, que es 10 veces más grande. Esperamos que este estudio pueda inspirar nuevos avances en los MLLMs. El código, los datos y el modelo serán públicamente liberados.
Actualmente, OpenAI o1 ha generado un aumento de interés en el estudio de modelos de razonamiento amplios (LRA). Aprovechando este impulso, Marco-o1 no solo se enfoca en disciplinas con respuestas estándar, como matemáticas, física y codificación, que son adecuadas para el aprendizaje por refuerzo (RL), sino que también pone mayor énfasis en resoluciones abiertas. Nuestro objetivo es abordar la pregunta: "¿Puede el modelo o1 generalizar de manera efectiva a dominios más amplios donde no existen estándares claros y las recompensas son difíciles de cuantificar?" Marco-o1 está impulsado por el ajuste fino de Chain-of-Thought (CoT), la Búsqueda de Árbol de Monte Carlo (MCTS), mecanismos de reflexión y estrategias de razonamiento innovadoras, optimizadas para tareas complejas de resolución de problemas del mundo real.
Presentamos un método novedoso para el pre-entrenamiento de codificadores de visión a gran escala. Basándonos en los avances recientes en el pre-entrenamiento autoregresivo de modelos de visión, ampliamos este marco a un entorno multimodal, es decir, imágenes y texto. En este documento, presentamos AIMV2, una familia de codificadores de visión generalistas caracterizados por un proceso de pre-entrenamiento sencillo, escalabilidad y un rendimiento notable en una variedad de tareas secundarias. Esto se logra emparejando el codificador de visión con un decodificador multimodal que genera de forma autoregresiva parches de imagen crudos y tokens de texto. Nuestros codificadores destacan no solo en evaluaciones multimodales, sino también en pruebas de visión como localización, fundamentación y clasificación. Es notable que nuestro codificador AIMV2-3B logra un 89.5% de precisión en ImageNet-1k con un tronco congelado. Además, AIMV2 supera consistentemente a modelos de contraste de vanguardia (por ejemplo, CLIP, SigLIP) en la comprensión de imágenes multimodales en diversos entornos.
Proponemos Hymba, una familia de modelos de lenguaje pequeños que presentan una arquitectura paralela de cabeza híbrida que integra mecanismos de atención de transformadores con modelos de espacio de estado (SSMs) para una mayor eficiencia. Las cabezas de atención proporcionan un recuerdo de alta resolución, mientras que las cabezas de SSM permiten una sumarización eficiente del contexto. Además, introducimos meta tokens aprendibles que se anteponen a las indicaciones, almacenando información crítica y aliviando la carga de "forzado a atender" asociada con los mecanismos de atención. Este modelo se optimiza aún más mediante la incorporación de compartición de clave-valor (KV) entre capas y atención de ventana deslizante parcial, lo que resulta en un tamaño de caché compacto. Durante el desarrollo, realizamos un estudio controlado comparando varias arquitecturas bajo ajustes idénticos y observamos ventajas significativas de nuestra arquitectura propuesta. Notablemente, Hymba logra resultados de vanguardia para LMs pequeños: Nuestro modelo Hymba-1.5B-Base supera a todos los modelos públicos de menos de 2B en rendimiento e incluso supera a Llama-3.2-3B con un 1.32% de precisión promedio más alta, una reducción del tamaño del caché de 11.67 veces y una mayor velocidad de procesamiento de 3.49 veces.
El progreso científico depende de la capacidad de los investigadores para sintetizar el creciente cuerpo de literatura. ¿Pueden los grandes modelos de lenguaje (LMs) ayudar a los científicos en esta tarea? Presentamos OpenScholar, un LM especializado con recuperación aumentada que responde a consultas científicas identificando pasajes relevantes de 45 millones de artículos de acceso abierto y sintetizando respuestas respaldadas por citas. Para evaluar OpenScholar, desarrollamos ScholarQABench, el primer banco de pruebas multi-dominio a gran escala para búsqueda de literatura, que consta de 2,967 consultas escritas por expertos y 208 respuestas extensas en informática, física, neurociencia y biomedicina. En ScholarQABench, OpenScholar-8B supera a GPT-4o en un 5% y a PaperQA2 en un 7% en corrección, a pesar de ser un modelo más pequeño y abierto. Mientras que GPT-4o alucina citas entre el 78 y el 90% del tiempo, OpenScholar logra una precisión de citas comparable a la de expertos humanos. La base de datos, el recuperador y el bucle de inferencia de auto-retroalimentación de OpenScholar también mejoran los LMs listos para usar: por ejemplo, OpenScholar-GPT4o mejora la corrección de GPT-4o en un 12%. En evaluaciones humanas, los expertos prefirieron las respuestas de OpenScholar-8B y OpenScholar-GPT4o sobre las escritas por expertos el 51% y el 70% del tiempo, respectivamente, en comparación con el 32% de GPT-4o. Ponemos a disposición de todos nuestro código, modelos, base de datos, datos y una demostración pública.
Los Modelos de Lenguaje Grandes (LLMs) demuestran capacidades mejoradas y confiabilidad al razonar más, evolucionando desde la generación de cadenas de pensamiento hasta soluciones a nivel de producto como OpenAI o1. A pesar de varios esfuerzos por mejorar el razonamiento de los LLMs, los datos de razonamiento de larga cadena de alta calidad y los flujos de entrenamiento optimizados aún permanecen insuficientemente explorados en tareas de visión y lenguaje. En este artículo, presentamos Insight-V, un esfuerzo inicial para 1) producir de manera escalable datos de razonamiento largos y robustos para tareas complejas multimodales, y 2) un flujo de entrenamiento efectivo para mejorar las capacidades de razonamiento de los Modelos de Lenguaje Grandes multimodales (MLLMs). Específicamente, para crear datos de razonamiento largos y estructurados sin la intervención humana, diseñamos un flujo de trabajo de dos pasos con una estrategia progresiva para generar caminos de razonamiento lo suficientemente largos y diversos, y un método de evaluación de múltiples granularidades para garantizar la calidad de los datos. Observamos que supervisar directamente a los MLLMs con datos de razonamiento tan largos y complejos no producirá una capacidad de razonamiento ideal. Para abordar este problema, diseñamos un sistema multiagente que consta de un agente de razonamiento dedicado a realizar razonamientos de cadena larga y un agente de resumen entrenado para juzgar y resumir los resultados del razonamiento. Además, incorporamos un algoritmo DPO iterativo para mejorar la estabilidad y calidad de generación del agente de razonamiento. Basándonos en el popular modelo LLaVA-NeXT y en nuestro sólido MLLM base, demostramos ganancias significativas de rendimiento en desafiantes referencias multimodales que requieren razonamiento visual. Gracias a nuestro sistema multiagente, Insight-V también puede mantener o mejorar fácilmente el rendimiento en tareas multimodales centradas en la percepción.
Es ampliamente reconocido que el rendimiento de los modelos Transformer está relacionado de forma exponencial con su número de parámetros y complejidad computacional. Aunque enfoques como la Mezcla de Expertos (MoE) separan el recuento de parámetros de la complejidad computacional, aún enfrentan desafíos en la inferencia debido a los altos costos de acceso a la memoria. Este trabajo presenta UltraMem, que incorpora una capa de memoria a gran escala y ultra dispersa para abordar estas limitaciones. Nuestro enfoque reduce significativamente la latencia de inferencia manteniendo el rendimiento del modelo. También investigamos las leyes de escala de esta nueva arquitectura, demostrando que no solo presenta propiedades de escala favorables, sino que supera a los modelos tradicionales. En nuestros experimentos, entrenamos redes con hasta 20 millones de espacios de memoria. Los resultados muestran que nuestro método logra una velocidad de inferencia y rendimiento del modelo de vanguardia dentro de un presupuesto computacional dado.
Los modelos de difusión han revolucionado el campo de la síntesis y edición de contenido. Los modelos recientes han reemplazado la arquitectura UNet tradicional con el Transformador de Difusión (DiT) y han utilizado el emparejamiento de flujos para mejorar el entrenamiento y el muestreo. Sin embargo, muestran una diversidad de generación limitada. En este trabajo, aprovechamos esta limitación para realizar ediciones de imágenes consistentes mediante la inyección selectiva de características de atención. El principal desafío es que, a diferencia de los modelos basados en UNet, DiT carece de una estructura de síntesis de grueso a fino, lo que hace que no esté claro en qué capas realizar la inyección. Por lo tanto, proponemos un método automático para identificar las "capas vitales" dentro de DiT, cruciales para la formación de imágenes, y demostramos cómo estas capas facilitan una variedad de ediciones estables controladas, desde modificaciones no rígidas hasta la adición de objetos, utilizando el mismo mecanismo. A continuación, para permitir la edición de imágenes reales, introducimos un método de inversión de imágenes mejorado para modelos de flujo. Finalmente, evaluamos nuestro enfoque a través de comparaciones cualitativas y cuantitativas, junto con un estudio de usuarios, y demostramos su efectividad en múltiples aplicaciones. La página del proyecto está disponible en https://omriavrahami.com/stable-flow.
En este documento, presentamos DINO-X, que es un modelo unificado de visión centrado en objetos desarrollado por IDEA Research con el mejor rendimiento de detección de objetos en entornos abiertos hasta la fecha. DINO-X emplea la misma arquitectura codificador-decodificador basada en Transformer que Grounding DINO 1.5 para buscar una representación a nivel de objeto para la comprensión de objetos en entornos abiertos. Para facilitar la detección de objetos de cola larga, DINO-X amplía sus opciones de entrada para admitir indicaciones de texto, indicaciones visuales y indicaciones personalizadas. Con estas opciones de indicaciones flexibles, desarrollamos una indicación de objeto universal para admitir la detección en entornos abiertos sin indicaciones, lo que permite detectar cualquier cosa en una imagen sin requerir que los usuarios proporcionen ninguna indicación. Para mejorar la capacidad central del modelo de fundamentación, hemos construido un conjunto de datos a gran escala con más de 100 millones de muestras de fundamentación de alta calidad, denominado Grounding-100M, para mejorar el rendimiento de detección de vocabulario abierto del modelo. El preentrenamiento en un conjunto de datos de fundamentación a gran escala conduce a una representación a nivel de objeto fundamental, que permite a DINO-X integrar múltiples cabezas de percepción para admitir simultáneamente múltiples tareas de percepción y comprensión de objetos, incluyendo detección, segmentación, estimación de postura, descripción de objetos, preguntas y respuestas basadas en objetos, etc. Los resultados experimentales demuestran el rendimiento superior de DINO-X. Específicamente, el modelo DINO-X Pro logra 56.0 AP, 59.8 AP y 52.4 AP en los puntos de referencia de detección de objetos de cero disparo COCO, LVIS-minival y LVIS-val, respectivamente. Notablemente, obtiene 63.3 AP y 56.5 AP en las clases raras de los puntos de referencia LVIS-minival y LVIS-val, mejorando el rendimiento anterior del estado del arte en 5.8 AP en ambos casos. Este resultado subraya su capacidad significativamente mejorada para reconocer objetos de cola larga.
Las alucinaciones en los grandes modelos de lenguaje son un problema generalizado, sin embargo, los mecanismos detrás de si los modelos alucinarán son poco comprendidos, lo que limita nuestra capacidad para resolver este problema. Utilizando autoencoders dispersos como una herramienta de interpretabilidad, descubrimos que una parte clave de estos mecanismos es el reconocimiento de entidades, donde el modelo detecta si una entidad es una de la que puede recordar hechos. Los autoencoders dispersos descubren direcciones significativas en el espacio de representación, las cuales detectan si el modelo reconoce una entidad, por ejemplo, detectando que no conoce a un atleta o una película. Esto sugiere que los modelos pueden tener autoconocimiento: representaciones internas sobre sus propias capacidades. Estas direcciones son relevantes causalmente: capaces de guiar al modelo para que se niegue a responder preguntas sobre entidades conocidas, o para alucinar atributos de entidades desconocidas cuando de otro modo se negaría. Demostramos que a pesar de que los autoencoders dispersos fueron entrenados en el modelo base, estas direcciones tienen un efecto causal en el comportamiento de rechazo del modelo de chat, lo que sugiere que el ajuste fino del chat ha reutilizado este mecanismo existente. Además, proporcionamos una exploración inicial del papel mecanicista de estas direcciones en el modelo, encontrando que interrumpen la atención de las cabezas descendentes que típicamente mueven atributos de entidades al token final.
El rápido avance de los modelos de difusión ha mejorado significativamente la síntesis de video, especialmente en la generación de video controlable, lo cual es esencial para aplicaciones como la conducción autónoma. Sin embargo, los métodos existentes se ven limitados por la escalabilidad y la integración de condiciones de control, sin lograr satisfacer las necesidades de videos de alta resolución y larga duración para aplicaciones de conducción autónoma. En este documento, presentamos MagicDriveDiT, un enfoque novedoso basado en la arquitectura DiT, que aborda estos desafíos. Nuestro método mejora la escalabilidad a través de la coincidencia de flujos y emplea una estrategia de entrenamiento progresiva para manejar escenarios complejos. Al incorporar codificación condicional espacio-temporal, MagicDriveDiT logra un control preciso sobre latentes espacio-temporales. Experimentos exhaustivos muestran su rendimiento superior en la generación de videos realistas de escenas callejeras con mayor resolución y más cuadros. MagicDriveDiT mejora significativamente la calidad de generación de video y los controles espacio-temporales, ampliando sus aplicaciones potenciales en diversas tareas de conducción autónoma.
Los métodos existentes de imágenes a 3D de avance de alimentación se basan principalmente en modelos de difusión de múltiples vistas en 2D que no pueden garantizar consistencia en 3D. Estos métodos colapsan fácilmente al cambiar la dirección de la vista de referencia y principalmente manejan imágenes de referencia centradas en objetos. En este documento, proponemos un nuevo modelo de difusión 3D de una sola etapa, DiffusionGS, para la generación de objetos y escenas a partir de una sola vista. DiffusionGS produce directamente nubes de puntos gaussianas en 3D en cada paso de tiempo para imponer consistencia de vista y permitir que el modelo genere de manera robusta vistas de referencia de cualquier dirección, más allá de las entradas centradas en objetos. Además, para mejorar la capacidad y la capacidad de generalización de DiffusionGS, escalamos los datos de entrenamiento en 3D mediante el desarrollo de una estrategia de entrenamiento mixta de escena-objeto. Los experimentos muestran que nuestro método disfruta de una mejor calidad de generación (2,20 dB más alto en PSNR y 23,25 más bajo en FID) y una velocidad más rápida de más de 5 veces (~6s en una GPU A100) que los métodos de última generación. El estudio de usuario y las aplicaciones de texto a 3D también revelan los valores prácticos de nuestro método. Nuestra página del proyecto en https://caiyuanhao1998.github.io/project/DiffusionGS/ muestra el video y los resultados interactivos de generación.
Los modelos de lenguaje grandes (LLMs) tienen un rendimiento inferior en los idiomas con recursos limitados debido a la cantidad limitada de datos de entrenamiento. Presentamos un método para recopilar de manera eficiente datos de texto para idiomas con recursos limitados a partir de todo el corpus de Common Crawl. Nuestro enfoque, UnifiedCrawl, filtra y extrae Common Crawl utilizando recursos computacionales mínimos, lo que resulta en conjuntos de datos monolingües mucho más grandes que las fuentes disponibles anteriormente. Demostramos que aprovechar estos datos para ajustar finamente los LLMs multilingües a través de métodos de adaptador eficientes (QLoRA) aumenta significativamente el rendimiento en el idioma con recursos limitados, al tiempo que minimiza el uso de VRAM. Nuestros experimentos muestran grandes mejoras en la perplejidad del modelado del lenguaje y un aumento en los puntajes de generación con pocos ejemplos. Nuestro trabajo y el código fuente publicado ofrecen un enfoque asequible para mejorar los LLMs para idiomas con recursos limitados utilizando hardware de consumo. Nuestro código fuente está disponible aquí en https://github.com/bethelmelesse/unifiedcrawl.
Los avances recientes en el campo de los modelos de lenguaje grandes, particularmente a través del enfoque de Cadena de Pensamiento (CoT), han demostrado mejoras significativas en la resolución de problemas complejos. Sin embargo, los modelos existentes tienden a sacrificar el razonamiento detallado por la brevedad debido a las preferencias del usuario, o requieren datos de entrenamiento extensos y costosos para aprender habilidades de razonamiento complicadas, limitando su potencial en la resolución de tareas complejas. Para cerrar esta brecha, siguiendo el concepto de escalar en tiempo de prueba, proponemos un método simple al alentar a los modelos a adoptar un estilo de razonamiento más paciente sin necesidad de introducir nuevos conocimientos o habilidades. Para emplear un enfoque de optimización de preferencias, generamos procesos de razonamiento detallados como ejemplos positivos y respuestas simples como ejemplos negativos, entrenando así al modelo para favorecer la minuciosidad en sus respuestas. Nuestros resultados demuestran un aumento de rendimiento de hasta un 6.7% en GSM8k con entrenamiento solo en un conjunto de datos liviano.