Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos de lenguaje a gran escala han surgido como una herramienta versátil, pero son difíciles de aplicar a tareas que carecen de grandes presupuestos de inferencia y grandes conjuntos de entrenamiento en el dominio específico. Este trabajo formaliza estas restricciones y distingue cuatro variables importantes: el presupuesto de preentrenamiento (para entrenar antes de conocer el dominio objetivo), el presupuesto de especialización (para entrenar después de conocer el dominio objetivo), el presupuesto de inferencia y el tamaño del conjunto de entrenamiento en el dominio. En estos escenarios, comparamos diferentes enfoques de la literatura de aprendizaje automático. Limitados por el costo de inferencia, encontramos alternativas mejores a la práctica estándar de entrenar modelos de transformadores muy grandes sin modificaciones. En particular, demostramos que las hiper-redes y las mezclas de expertos tienen mejor perplejidad para grandes presupuestos de preentrenamiento, mientras que los modelos pequeños entrenados en conjuntos de datos muestreados por importancia son atractivos para grandes presupuestos de especialización.
El avance de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) ha impulsado significativamente el campo de la generación de código. Trabajos previos integraron el aprendizaje por refuerzo (RL, por sus siglas en inglés) con retroalimentación del compilador para explorar el espacio de salida de los LLMs y mejorar la calidad de la generación de código. Sin embargo, el código extenso generado por los LLMs en respuesta a requisitos humanos complejos convierte la exploración mediante RL en un desafío. Además, dado que las pruebas unitarias pueden no cubrir el código complicado, optimizar los LLMs utilizando estos fragmentos de código no ejecutados resulta ineficaz. Para abordar estos desafíos, presentamos StepCoder, un novedoso marco de RL para la generación de código, que consta de dos componentes principales: CCCS aborda el desafío de la exploración dividiendo la tarea de generación de secuencias largas de código en un Currículo de Subtareas de Completado de Código, mientras que FGO optimiza el modelo únicamente enmascarando los segmentos de código no ejecutados para proporcionar una Optimización de Grano Fino. Además, construimos el conjunto de datos APPS+ para el entrenamiento de RL, el cual ha sido verificado manualmente para garantizar la corrección de las pruebas unitarias. Los resultados experimentales muestran que nuestro método mejora la capacidad de explorar el espacio de salida y supera a los enfoques más avanzados en los benchmarks correspondientes.
La planificación ha sido parte fundamental de la inteligencia artificial desde sus inicios, pero los primeros agentes de IA se centraban principalmente en entornos restringidos debido a la falta de muchos de los sustratos cognitivos necesarios para una planificación a nivel humano. Recientemente, los agentes lingüísticos impulsados por modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado capacidades interesantes, como el uso de herramientas y el razonamiento. ¿Son estos agentes lingüísticos capaces de planificar en entornos más complejos que están fuera del alcance de los agentes de IA anteriores? Para avanzar en esta investigación, proponemos TravelPlanner, un nuevo punto de referencia para la planificación que se centra en la planificación de viajes, un escenario común de planificación en el mundo real. Este ofrece un entorno de pruebas enriquecido, diversas herramientas para acceder a casi cuatro millones de registros de datos, y 1,225 intenciones de planificación y planes de referencia cuidadosamente elaborados. Las evaluaciones exhaustivas muestran que los agentes lingüísticos actuales aún no son capaces de manejar tareas de planificación tan complejas; incluso GPT-4 solo alcanza una tasa de éxito del 0.6%. Los agentes lingüísticos tienen dificultades para mantenerse enfocados en la tarea, usar las herramientas adecuadas para recopilar información o gestionar múltiples restricciones. Sin embargo, destacamos que la mera posibilidad de que los agentes lingüísticos aborden un problema tan complejo representa en sí misma un avance no trivial. TravelPlanner proporciona un banco de pruebas desafiante pero significativo para futuros agentes lingüísticos.
Presentamos Pok\'eLLMon, el primer agente encarnado por un LLM que alcanza un rendimiento a la par con los humanos en juegos de batallas tácticas, como se demuestra en las batallas de Pok\'emon. El diseño de Pok\'eLLMon incorpora tres estrategias clave: (i) Aprendizaje por refuerzo en contexto que consume instantáneamente retroalimentación basada en texto derivada de las batallas para refinar iterativamente la política; (ii) Generación aumentada con conocimiento que recupera conocimiento externo para contrarrestar la alucinación y permite al agente actuar de manera oportuna y adecuada; (iii) Generación de acciones consistentes para mitigar el fenómeno de cambio por pánico cuando el agente se enfrenta a un oponente poderoso y desea eludir la batalla. Mostramos que las batallas en línea contra humanos demuestran las estrategias de batalla similares a las humanas y la toma de decisiones justo a tiempo de Pok\'eLLMon, logrando una tasa de victoria del 49\% en las competiciones de Ladder y del 56\% en las batallas invitadas. Nuestra implementación y los registros de batallas jugables están disponibles en: https://github.com/git-disl/PokeLLMon.
Generar movimiento rico y controlable es un desafío fundamental en la síntesis de video. Proponemos Boximator, un nuevo enfoque para el control fino del movimiento. Boximator introduce dos tipos de restricciones: caja dura y caja suave. Los usuarios seleccionan objetos en el fotograma condicional utilizando cajas duras y luego usan cualquiera de los tipos de cajas para definir de manera aproximada o rigurosa la posición, forma o trayectoria del movimiento del objeto en fotogramas futuros. Boximator funciona como un complemento para los modelos de difusión de video existentes. Su proceso de entrenamiento preserva el conocimiento del modelo base al congelar los pesos originales y entrenar solo el módulo de control. Para abordar los desafíos del entrenamiento, introducimos una novedosa técnica de auto-seguimiento que simplifica enormemente el aprendizaje de las correlaciones entre cajas y objetos. Empíricamente, Boximator logra puntuaciones de calidad de video (FVD) de vanguardia, mejorando dos modelos base, y se ve aún más potenciado después de incorporar restricciones de caja. Su robusta capacidad de control del movimiento se valida mediante aumentos drásticos en la métrica de alineación de cajas delimitadoras. La evaluación humana también muestra que los usuarios prefieren los resultados generados por Boximator sobre los del modelo base.
Los Transformers son la arquitectura dominante para el modelado de secuencias, pero existe un creciente interés en modelos que utilizan un estado latente de tamaño fijo que no depende de la longitud de la secuencia, a los que nos referimos como "modelos de espacio de estado generalizados" (GSSMs, por sus siglas en inglés). En este artículo demostramos que, aunque los GSSMs son prometedores en términos de eficiencia durante la inferencia, están limitados en comparación con los modelos Transformer en tareas que requieren copiar información del contexto de entrada. Comenzamos con un análisis teórico de la tarea simple de copiar cadenas de texto y probamos que un Transformer de dos capas puede copiar cadenas de longitud exponencial, mientras que los GSSMs están fundamentalmente limitados por su estado latente de tamaño fijo. Empíricamente, encontramos que los Transformers superan a los GSSMs en términos de eficiencia y generalización en tareas sintéticas que requieren copiar el contexto. Finalmente, evaluamos modelos de lenguaje preentrenados a gran escala y encontramos que los modelos Transformer superan significativamente a los modelos de espacio de estado en la tarea de copiar y recuperar información del contexto. En conjunto, estos resultados sugieren una brecha fundamental entre los Transformers y los GSSMs en tareas de interés práctico.
Si bien los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado su competencia en tareas de razonamiento complejo, su desempeño en escenarios dinámicos, interactivos y competitivos —como la estrategia empresarial y el análisis del mercado bursátil— sigue siendo poco explorado. Para cerrar esta brecha, exploramos formalmente las capacidades de razonamiento dinámico de los LLMs para la toma de decisiones en entornos que evolucionan rápidamente. Introducimos dos desafíos piloto basados en la teoría de juegos que reflejan las complejidades de la toma de decisiones dinámica en el mundo real. Estos desafíos están bien definidos, lo que permite una evaluación clara, controlable y precisa de las habilidades de razonamiento dinámico de los LLMs. A través de experimentos exhaustivos, encontramos que los métodos de razonamiento existentes tienden a fallar en entornos dinámicos que requieren pensamiento de nivel k —un concepto clave no abordado por trabajos anteriores—. Para abordar esto, proponemos un nuevo enfoque de razonamiento para los LLMs, denominado "Razonamiento de Nivel K". Este enfoque adopta la perspectiva de los rivales para emplear recursivamente el pensamiento de nivel k basado en la información histórica disponible, lo que mejora significativamente la precisión en la predicción de los movimientos posteriores de los rivales y permite una toma de decisiones más estratégica. Esta investigación no solo establece un punto de referencia cuantitativo robusto para la evaluación del razonamiento dinámico, sino que también mejora notablemente la competencia de los LLMs en contextos dinámicos.
Este informe técnico describe el entrenamiento de nomic-embed-text-v1, el primer modelo de embeddings de texto en inglés de código abierto, pesos abiertos, datos abiertos y longitud de contexto de 8192 tokens que supera tanto a OpenAI Ada-002 como a OpenAI text-embedding-3-small en tareas de contexto corto y largo. Publicamos el código de entrenamiento y los pesos del modelo bajo una licencia Apache 2. A diferencia de otros modelos de código abierto, liberamos un cargador de datos de entrenamiento con 235 millones de pares de texto curados que permite la replicación completa de nomic-embed-text-v1. Puedes encontrar el código y los datos para replicar el modelo en https://github.com/nomic-ai/contrastors.
El advenimiento de los Modelos Grandes marca una nueva era en el aprendizaje automático, superando significativamente a los modelos más pequeños al aprovechar vastos conjuntos de datos para capturar y sintetizar patrones complejos. A pesar de estos avances, la exploración del escalamiento, especialmente en el dominio de la generación de audio, sigue siendo limitada, con esfuerzos previos que no se extendieron al dominio de alta fidelidad (HiFi) de 44.1 kHz y que sufrieron tanto discontinuidades espectrales como borrosidad en el dominio de alta frecuencia, junto con una falta de robustez frente a datos fuera del dominio. Estas limitaciones restringen la aplicabilidad de los modelos a diversos casos de uso, incluida la generación de música y canto. Nuestro trabajo introduce Enhanced Various Audio Generation via Scalable Generative Adversarial Networks (EVA-GAN), que ofrece mejoras significativas sobre el estado del arte anterior en la reconstrucción espectral y de alta frecuencia, así como en la robustez frente a datos fuera del dominio, permitiendo la generación de audios HiFi mediante el empleo de un extenso conjunto de datos de 36,000 horas de audio a 44.1 kHz, un módulo consciente del contexto, un kit de herramientas de medición de artefactos con intervención humana (Human-In-The-Loop), y la expansión del modelo a aproximadamente 200 millones de parámetros. Las demostraciones de nuestro trabajo están disponibles en https://double-blind-eva-gan.cc.