Artículos de investigación en IA seleccionados diariamente con traducciones
¿Pueden los modelos de lenguaje grandes (LLMs) servir directamente como potentes modelos mundiales para agentes basados en modelos? Si bien existen brechas entre el conocimiento previo de los LLMs y la dinámica del entorno especificado, nuestro estudio revela que estas brechas pueden ser superadas al alinear un LLM con su entorno desplegado, y dicha "alineación mundial" puede lograrse eficientemente mediante el aprendizaje de reglas en los LLMs. Dado el rico conocimiento previo de los LLMs, solo unas pocas reglas adicionales son suficientes para alinear las predicciones de los LLMs con la dinámica del entorno especificado. Con este fin, proponemos un enfoque neurosimbólico para aprender estas reglas sin gradientes a través de los LLMs, induciendo, actualizando y podando reglas basadas en comparaciones de trayectorias exploradas por el agente y predicciones del modelo mundial. El modelo mundial resultante está compuesto por el LLM y las reglas aprendidas. Nuestro agente LLM encarnado "WALL-E" se basa en el control predictivo del modelo (MPC). Al optimizar las acciones de anticipación basadas en el modelo mundial preciso, MPC mejora significativamente la eficiencia de exploración y aprendizaje. En comparación con los agentes LLM existentes, el razonamiento de WALL-E solo requiere unas pocas reglas principales en lugar de trayectorias verbosas almacenadas en la entrada del LLM. En desafíos de mundo abierto en Minecraft y ALFWorld, WALL-E logra tasas de éxito más altas que los métodos existentes, con menores costos en tiempo de replanificación y en el número de tokens utilizados para el razonamiento. En Minecraft, WALL-E supera las líneas de base en un 15-30% en la tasa de éxito, mientras que requiere de 8-20 rondas de replanificación menos y solo el 60-80% de los tokens. En ALFWorld, su tasa de éxito aumenta a un nuevo récord del 95% después de solo 6 iteraciones.
Se ha demostrado que el código es efectivo para mejorar las habilidades de razonamiento matemático de grandes modelos de lenguaje debido a su precisión y exactitud. Trabajos anteriores que involucran el preentrenamiento matemático continuo a menudo incluyen código que utiliza paquetes relacionados con matemáticas, diseñados principalmente para campos como la ingeniería, el aprendizaje automático, el procesamiento de señales o pruebas de módulos, en lugar de estar directamente enfocados en el razonamiento matemático. En este documento, presentamos un método novedoso para generar código matemático acompañado de pasos de razonamiento correspondientes para el preentrenamiento continuo. Nuestro enfoque comienza con la construcción de un conjunto de datos de preentrenamiento matemático continuo de alta calidad incorporando datos web relacionados con matemáticas, código que utiliza paquetes matemáticos, libros de texto de matemáticas y datos sintéticos. A continuación, construimos pasos de razonamiento extrayendo expresiones LaTeX, las condiciones necesarias para las expresiones y los resultados de las expresiones del conjunto de datos previamente recopilado. Con base en esta información extraída, generamos código correspondiente para capturar con precisión el proceso de razonamiento matemático. Adjuntar el código generado a cada paso de razonamiento resulta en datos que consisten en pasos de razonamiento en lenguaje natural emparejados con su código correspondiente. Combinar estos datos con el conjunto de datos original resulta en un corpus de preentrenamiento matemático de alto rendimiento de 19.2 mil millones de tokens, al que llamamos MathCode-Pile. Entrenar varios modelos base populares con este corpus mejora significativamente sus habilidades matemáticas, lo que lleva a la creación de la familia de modelos MathCoder2. Todo nuestro código de procesamiento de datos y entrenamiento está disponible en código abierto, garantizando total transparencia y fácil reproducibilidad de toda la recopilación de datos y el proceso de entrenamiento. El código se encuentra disponible en https://github.com/mathllm/MathCoder2.
Los agentes MLLM demuestran potencial para tareas corporales complejas al recuperar datos de trayectorias multimodales relevantes para la tarea. Sin embargo, los métodos actuales de recuperación se centran principalmente en similitudes a nivel superficial de pistas textuales o visuales en las trayectorias, descuidando su efectividad para la tarea específica en cuestión. Para abordar este problema, proponemos un método novedoso, MLLM como Recuperador (MART), que mejora el rendimiento de los agentes corporales al utilizar datos de interacción para ajustar finamente un recuperador MLLM basado en el aprendizaje de preferencias, de modo que el recuperador considere completamente la efectividad de las trayectorias y las priorice para tareas no vistas. También introducimos la Abstracción de Trayectoria, un mecanismo que aprovecha las capacidades de resumen de los MLLM para representar trayectorias con menos tokens mientras se preserva la información clave, lo que permite a los agentes comprender mejor hitos en la trayectoria. Los resultados experimentales en varios entornos demuestran que nuestro método mejora significativamente las tasas de éxito en tareas en escenas no vistas en comparación con los métodos de referencia. Este trabajo presenta un nuevo paradigma para la recuperación multimodal en agentes corporales, ajustando finamente un MLLM de propósito general como el recuperador para evaluar la efectividad de la trayectoria. Se publicarán todos los conjuntos de tareas de referencia y modificaciones de código del simulador para espacios de acción y observación.
La cuantificación es esencial para implementar Modelos de Lenguaje Grandes (LLMs) al mejorar la eficiencia de memoria y la velocidad de inferencia. Los métodos existentes para la cuantificación de activación abordan principalmente los valores atípicos por canal, a menudo descuidando los valores atípicos por token, lo que lleva a depender de una costosa cuantificación dinámica por token. Para abordar esto, presentamos PrefixQuant, una técnica novedosa que aísla los tokens atípicos sin necesidad de volver a entrenar. Específicamente, PrefixQuant identifica los tokens atípicos de alta frecuencia y los prefija en la caché KV, evitando la generación de tokens atípicos durante la inferencia y simplificando la cuantificación. Hasta donde sabemos, PrefixQuant es el primero en permitir una cuantificación estática por tensor eficiente para superar la costosa cuantificación dinámica por token. Por ejemplo, en Llama-3-8B con W4A4KV4 (peso de 4 bits, activación de 4 bits y caché KV de 4 bits), PrefixQuant con cuantificación estática por tensor logra una perplejidad de 7.43 en WikiText2 y una precisión promedio del 71.08% en 5 tareas de razonamiento de sentido común, superando a métodos anteriores de cuantificación dinámica por token como QuaRot con una mejora de 0.98 en perplejidad y +5.98 puntos en precisión. Además, la velocidad de inferencia de los modelos cuantificados W4A4 utilizando PrefixQuant es de 1.60x a 2.81x más rápida que los modelos FP16 y supera a los modelos QuaRot en 1.2x a 1.3x. Nuestro código está disponible en https://github.com/ChenMnZ/PrefixQuant.
Los Modelos de Lenguaje de Gran Tamaño (LLMs), con su excepcional capacidad para abordar una amplia gama de tareas, han impulsado avances significativos en la resolución de tareas de razonamiento y planificación, donde descomponer problemas complejos en flujos de trabajo ejecutables es un paso crucial en este proceso. Los marcos de evaluación de flujos de trabajo existentes se centran únicamente en el rendimiento holístico o presentan limitaciones como cobertura de escenarios restringida, estructuras de flujo de trabajo simplistas y estándares de evaluación laxos. Con este fin, presentamos WorFBench, un banco unificado de generación de flujos de trabajo con escenarios multifacéticos y estructuras de flujo de gráficos intrincadas. Además, introducimos WorFEval, un protocolo de evaluación sistemático que utiliza algoritmos de coincidencia de subsecuencias y subgráficos para cuantificar con precisión las capacidades de generación de flujos de trabajo del agente LLM. A través de evaluaciones exhaustivas en diferentes tipos de LLMs, descubrimos brechas distintas entre las capacidades de planificación de secuencias y de gráficos de los agentes LLM, incluso GPT-4 exhibe una brecha de alrededor del 15%. También entrenamos dos modelos de código abierto y evaluamos sus capacidades de generalización en tareas reservadas. Además, observamos que los flujos de trabajo generados pueden mejorar las tareas posteriores, permitiéndoles lograr un rendimiento superior en menos tiempo durante la inferencia. El código y el conjunto de datos estarán disponibles en https://github.com/zjunlp/WorFBench.
Presentamos Agente S, un marco agente abierto que permite la interacción autónoma con computadoras a través de una Interfaz Gráfica de Usuario (GUI), con el objetivo de transformar la interacción humano-computadora mediante la automatización de tareas complejas y multi-paso. El Agente S tiene como objetivo abordar tres desafíos clave en la automatización de tareas informáticas: adquirir conocimiento específico del dominio, planificar a lo largo de horizontes temporales extensos y manejar interfaces dinámicas y no uniformes. Con este fin, el Agente S introduce la planificación jerárquica aumentada por la experiencia, que aprende de la búsqueda de conocimiento externo y la recuperación de experiencias internas en múltiples niveles, facilitando la planificación eficiente de tareas y la ejecución de subtareas. Además, emplea una Interfaz Agente-Computadora (IAC) para obtener de manera más efectiva las capacidades de razonamiento y control de agentes GUI basados en Modelos de Lenguaje Multimodal Grande (MLLMs). La evaluación en el banco de pruebas OSWorld muestra que el Agente S supera al valor base en un 9.37% en la tasa de éxito (una mejora relativa del 83.6%) y logra un nuevo estado del arte. Un análisis exhaustivo destaca la efectividad de los componentes individuales y proporciona ideas para futuras mejoras. Además, el Agente S demuestra una amplia generalizabilidad a diferentes sistemas operativos en un nuevo banco de pruebas WindowsAgentArena recientemente lanzado. Código disponible en https://github.com/simular-ai/Agent-S.
Los modelos de difusión se han convertido en el enfoque dominante para la generación visual. Se entrenan mediante el proceso de desruido de un proceso markoviano que añade gradualmente ruido a la entrada. Sostenemos que la propiedad markoviana limita la capacidad de los modelos para utilizar completamente la trayectoria de generación, lo que conduce a ineficiencias durante el entrenamiento y la inferencia. En este documento, proponemos DART, un modelo basado en transformadores que unifica los modelos autorregresivos (AR) y de difusión dentro de un marco no markoviano. DART desruidiza de forma iterativa parches de imagen espacial y espectralmente utilizando un modelo AR con la misma arquitectura que los modelos de lenguaje estándar. DART no depende de la cuantización de imágenes, lo que permite una modelización de imágenes más efectiva manteniendo la flexibilidad. Además, DART se entrena de manera fluida con datos de texto e imágenes en un modelo unificado. Nuestro enfoque demuestra un rendimiento competitivo en tareas de generación condicionada por clase y de texto a imagen, ofreciendo una alternativa escalable y eficiente a los modelos de difusión tradicionales. A través de este marco unificado, DART establece un nuevo punto de referencia para la síntesis de imágenes escalable y de alta calidad.
Los modelos de difusión discreta han tenido éxito en tareas como la generación de imágenes y el modelado de lenguaje enmascarado, pero enfrentan limitaciones en la edición de contenido controlado. Presentamos DICE (Inversión Discreta para Edición Controlable), el primer enfoque que permite la inversión precisa para modelos de difusión discreta, incluyendo la difusión multinomial y modelos generativos enmascarados. Al grabar secuencias de ruido y patrones de enmascaramiento durante el proceso de difusión inversa, DICE permite la reconstrucción precisa y la edición flexible de datos discretos sin la necesidad de máscaras predefinidas o manipulación de atención. Demostramos la efectividad de DICE en los dominios de imágenes y texto, evaluándolo en modelos como VQ-Diffusion, Paella y RoBERTa. Nuestros resultados muestran que DICE conserva una alta fidelidad de datos al tiempo que mejora las capacidades de edición, ofreciendo nuevas oportunidades para la manipulación de contenido detallada en espacios discretos. Para acceder a la página web del proyecto, visite https://hexiaoxiao-cs.github.io/DICE/.
Los modelos de difusión han mejorado significativamente la generación visual, pero se ven obstaculizados por la lenta velocidad de generación debido a la naturaleza intensiva computacional de resolver ODEs generativos. El flujo rectificado, una solución ampliamente reconocida, mejora la velocidad de generación al enderezar la trayectoria de la ODE. Sus componentes clave incluyen: 1) utilizar la forma de difusión de coincidencia de flujo, 2) emplear la predicción en negrita v y 3) realizar la rectificación (también conocida como reflujo). En este documento, argumentamos que el éxito de la rectificación radica principalmente en el uso de un modelo de difusión preentrenado para obtener pares coincidentes de ruido y muestras, seguido de un nuevo entrenamiento con estos pares de ruido-muestra coincidentes. Basándonos en esto, los componentes 1) y 2) son innecesarios. Además, destacamos que la rectitud no es un objetivo de entrenamiento esencial para la rectificación; más bien, es un caso específico de modelos de coincidencia de flujo. El objetivo de entrenamiento más crítico es lograr una aproximación de primer orden de la trayectoria de la ODE, que es inherentemente curva para modelos como DDPM y Sub-VP. Basándonos en esta idea, proponemos Difusión Rectificada, que generaliza el espacio de diseño y el alcance de aplicación de la rectificación para abarcar la categoría más amplia de modelos de difusión, en lugar de estar restringido a modelos de coincidencia de flujo. Validamos nuestro método en Stable Diffusion v1-5 y Stable Diffusion XL. Nuestro método no solo simplifica en gran medida el procedimiento de entrenamiento de trabajos anteriores basados en flujo rectificado (por ejemplo, InstaFlow), sino que también logra un rendimiento superior con un costo de entrenamiento aún menor. Nuestro código está disponible en https://github.com/G-U-N/Rectified-Diffusion.
Los modelos actuales de difusión de video en la frontera han demostrado resultados notables en la generación de videos de alta calidad. Sin embargo, solo pueden generar clips de video cortos, normalmente alrededor de 10 segundos o 240 cuadros, debido a limitaciones computacionales durante el entrenamiento. En este trabajo, mostramos que los modelos existentes pueden ser extendidos de forma natural a modelos de difusión de video autoregresivos sin cambiar las arquitecturas. Nuestra idea clave es asignar a los cuadros latentes niveles de ruido progresivamente crecientes en lugar de un solo nivel de ruido, lo que permite una condición detallada entre los latentes y grandes superposiciones entre las ventanas de atención. Esta desruidificación progresiva de video permite a nuestros modelos generar autoregresivamente cuadros de video sin degradación de calidad o cambios abruptos de escena. Presentamos resultados de vanguardia en generación de video largo de 1 minuto (1440 cuadros a 24 FPS). Los videos de este trabajo están disponibles en https://desaixie.github.io/pa-vdm/.
En este trabajo, proponemos un método novedoso (GLOV) que permite a los Modelos de Lenguaje Grandes (LLMs) actuar como Optimizadores implícitos para los Modelos de Visión-Lenguaje (VLMs) con el fin de mejorar las tareas de visión subsecuentes. Nuestro GLOV meta-solicita a un LLM con la descripción de la tarea subsecuente, consultándolo para obtener indicaciones adecuadas para los VLM (por ejemplo, para clasificación de cero disparos con CLIP). Estas indicaciones se clasifican según una medida de pureza obtenida a través de una función de idoneidad. En cada paso de optimización respectivo, las indicaciones clasificadas se alimentan como ejemplos en contexto (con sus precisiones) para dotar al LLM con el conocimiento del tipo de indicaciones de texto preferidas por el VLM subsecuente. Además, también dirigimos explícitamente el proceso de generación del LLM en cada paso de optimización al agregar específicamente un vector de diferencia de desplazamiento de las incrustaciones de las soluciones positivas y negativas encontradas por el LLM, en pasos de optimización anteriores, a la capa intermedia de la red para el siguiente paso de generación. Este vector de desplazamiento dirige la generación del LLM hacia el tipo de lenguaje preferido por el VLM subsecuente, lo que resulta en un rendimiento mejorado en las tareas de visión subsecuentes. Evaluamos exhaustivamente nuestro GLOV en 16 conjuntos de datos diversos utilizando dos familias de VLMs, es decir, modelos de doble codificador (por ejemplo, CLIP) y codificador-decodificador (por ejemplo, LLaVa), mostrando que las soluciones descubiertas pueden mejorar el rendimiento de reconocimiento hasta un 15.0% y un 57.5% (3.8% y 21.6% en promedio) para estos modelos.
Recientemente, los grandes modelos de lenguaje y visión (LLVMs) han recibido una atención significativa y esfuerzos de desarrollo debido a su notable rendimiento de generalización en una amplia gama de tareas que requieren habilidades de percepción y cognitivas. Un factor clave detrás de su éxito es su arquitectura simple, que consta de un codificador de visión, un proyector y un gran modelo de lenguaje (LLM). A pesar de sus logros en tareas avanzadas de razonamiento, su rendimiento en tareas fundamentales relacionadas con la percepción (por ejemplo, MMVP) sigue siendo sorprendentemente bajo. Esta discrepancia plantea la pregunta de cómo los LLVMs realmente perciben imágenes y aprovechan las ventajas del codificador de visión. Para abordar esto, investigamos sistemáticamente esta cuestión con respecto a varios aspectos: invariancia a la permutación, robustez, razonamiento matemático, preservación y importancia del alineamiento, evaluando las familias de LLVMs más comunes (es decir, LLaVA) a través de 10 benchmarks de evaluación. Nuestros experimentos extensos revelan varias propiedades intrigantes de los LLVMs actuales: (1) procesan internamente la imagen de manera global, incluso cuando el orden de las secuencias de parches visuales se permuta aleatoriamente; (2) a veces pueden resolver problemas matemáticos sin percibir completamente la información numérica detallada; (3) el alineamiento cruzado modal está sobreajustado a tareas de razonamiento complejas, lo que les hace perder algunas de las capacidades perceptuales originales de su codificador de visión; (4) el espacio de representación en las capas inferiores (<25%) desempeña un papel crucial en determinar el rendimiento y mejorar la comprensión visual. Por último, basándonos en las observaciones anteriores, sugerimos posibles direcciones futuras para construir mejores LLVMs y desarrollar benchmarks de evaluación más desafiantes.
La Búsqueda del Árbol de Monte Carlo (Monte Carlo Tree Search, MCTS) ha surgido recientemente como una técnica poderosa para mejorar las capacidades de razonamiento de los LLMs. Técnicas como SFT o DPO han permitido a los LLMs destilar comportamientos de alta calidad de MCTS, mejorando su rendimiento de razonamiento. Sin embargo, los métodos de destilación existentes subutilizan la rica información de trayectorias generada por MCTS, limitando el potencial de mejora en el razonamiento de los LLMs. En este artículo, proponemos AlphaLLM-CPL, un novedoso marco de entrenamiento por pares que permite a los LLMs auto-mejorarse a través de la destilación de comportamientos de MCTS. AlphaLLM-CPL aprovecha eficientemente las trayectorias de MCTS a través de dos innovaciones clave: (1) AlphaLLM-CPL construye pares de trayectorias paso a paso a partir de nodos hijos que comparten el mismo padre en el árbol de búsqueda, proporcionando información a nivel de paso para una destilación de comportamiento de MCTS más efectiva. (2) AlphaLLM-CPL introduce el aprendizaje de preferencias de currículo, ajustando dinámicamente la secuencia de entrenamiento de pares de trayectorias en cada época de entrenamiento offline para priorizar pasos de aprendizaje críticos y mitigar el sobreajuste. Los resultados experimentales en tareas de razonamiento matemático demuestran que AlphaLLM-CPL supera significativamente a los métodos previos de destilación de comportamiento de MCTS, mejorando sustancialmente las capacidades de razonamiento de los LLMs.
Los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) han demostrado notables capacidades de aprendizaje en contexto (AEC). En este estudio, exploramos un fenómeno sorprendente relacionado con la AEC: los LLMs pueden llevar a cabo múltiples tareas de AEC computacionalmente distintas simultáneamente, durante una única llamada de inferencia, una capacidad que denominamos "superposición de tareas". Presentamos evidencia empírica de este fenómeno en diversas familias y escalas de LLMs, y demostramos que esta capacidad emerge incluso si entrenamos al modelo para aprender en contexto una tarea a la vez. Ofrecemos explicaciones teóricas de que esta capacidad se encuentra dentro del poder expresivo de los transformadores. También investigamos cómo los LLMs componen internamente vectores de tarea durante la superposición. Además, mostramos que modelos más grandes pueden resolver más tareas de AEC en paralelo y calibrar mejor su distribución de salida. Nuestros hallazgos ofrecen perspectivas sobre las capacidades latentes de los LLMs, respaldan aún más la perspectiva de "LLMs como superposición de simuladores" y plantean interrogantes sobre los mecanismos que permiten la ejecución simultánea de tareas.
En este documento, proponemos un nuevo método para mejorar la comprensión composicional en modelos pre-entrenados de visión y lenguaje (VLMs) sin sacrificar el rendimiento en tareas multi-modales de cero disparo. Los enfoques tradicionales de ajuste fino a menudo mejoran el razonamiento composicional a expensas de degradar las capacidades multi-modales, principalmente debido al uso de pérdida global de negativos difíciles (HN), que contrasta las representaciones globales de imágenes y textos. Esta pérdida global de HN empuja a textos HN que son altamente similares a los originales, dañando las representaciones multi-modales del modelo. Para superar esta limitación, proponemos CLIP Calibrado Selectivo Fino (FSC-CLIP), que integra pérdida local de negativos difíciles y regularización selectiva calibrada. Estas innovaciones proporcionan supervisión negativa detallada mientras preservan la integridad representacional del modelo. Nuestras extensas evaluaciones en diversos puntos de referencia tanto para la composicionalidad como para las tareas multi-modales muestran que FSC-CLIP no solo logra composicionalidad al nivel de los modelos de última generación, sino que también conserva sólidas capacidades multi-modales. El código está disponible en: https://github.com/ytaek-oh/fsc-clip.
Para inducir comportamientos deseados en modelos de lenguaje grandes (LLMs) para tareas impulsadas por interacción, la etapa de ajuste de instrucciones generalmente entrena a los LLMs en pares de instrucción-respuesta utilizando la pérdida de predicción del siguiente token (NTP). Trabajos anteriores que buscan mejorar el rendimiento del ajuste de instrucciones a menudo enfatizan la necesidad de conjuntos de datos de ajuste fino supervisado (SFT) de alta calidad, que generalmente implica un costoso filtrado de datos con LLMs propietarios o una generación de datos intensiva en mano de obra por anotadores humanos. Sin embargo, estos enfoques no aprovechan completamente las propiedades intrínsecas de los conjuntos de datos, lo que resulta en altos costos computacionales y laborales, limitando así la escalabilidad y las mejoras de rendimiento. En este documento, proponemos SFTMix, una novedosa receta que eleva el rendimiento del ajuste de instrucciones más allá del paradigma NTP convencional, sin necesidad de conjuntos de datos bien curados. Observando que los LLMs muestran una confianza desigual en todo el espacio de representación semántica, argumentamos que los ejemplos con diferentes niveles de confianza deberían desempeñar roles distintos durante el proceso de ajuste de instrucciones. Basándonos en esta idea, SFTMix aprovecha la dinámica de entrenamiento para identificar ejemplos con diferentes niveles de confianza, luego aplica una regularización basada en Mixup para mitigar el sobreajuste en ejemplos confiables mientras propaga señales de supervisión para mejorar el aprendizaje en los menos confiables. Este enfoque permite que SFTMix supere significativamente a NTP en una amplia gama de tareas de SFT específicas de seguir instrucciones y del dominio de la salud, demostrando su adaptabilidad a diversas familias de LLMs y escalabilidad a conjuntos de datos de cualquier tamaño. Estudios exhaustivos de abstracción verifican aún más la solidez de las elecciones de diseño de SFTMix, subrayando su versatilidad para mejorar consistentemente el rendimiento en diferentes LLMs y conjuntos de datos en aplicaciones más amplias de procesamiento de lenguaje natural.
Los Sistemas Multiagente (MAS) basados en Modelos de Lenguaje Grande (LLM) muestran un potencial notable en la resolución colaborativa de problemas, sin embargo, todavía enfrentan desafíos críticos: baja eficiencia de comunicación, escasa escalabilidad y falta de métodos de optimización efectivos para la actualización de parámetros. Presentamos Optima, un marco novedoso que aborda estos problemas al mejorar significativamente tanto la eficiencia de comunicación como la efectividad de tareas en MAS basados en LLM a través del entrenamiento de LLM. Optima emplea un paradigma iterativo de generación, clasificación, selección y entrenamiento con una función de recompensa que equilibra el rendimiento de la tarea, la eficiencia de tokens y la legibilidad de la comunicación. Exploramos varios algoritmos de RL, incluyendo Ajuste Fino Supervisado, Optimización Directa de Preferencias y sus enfoques híbridos, proporcionando información sobre sus compensaciones de efectividad-eficiencia. Integramos técnicas inspiradas en la Búsqueda de Árbol de Monte Carlo para la generación de datos de DPO, tratando los turnos de conversación como nodos de árbol para explorar diversos caminos de interacción. Evaluado en tareas multiagente comunes, incluyendo respuestas asimétricas de información y razonamiento complejo, Optima muestra mejoras consistentes y sustanciales sobre líneas base de un solo agente y MAS básicos basados en Llama 3 8B, logrando hasta un aumento de rendimiento de 2.8 veces con menos del 10\% de tokens en tareas que requieren un intercambio intenso de información. Además, las ganancias de eficiencia de Optima abren nuevas posibilidades para aprovechar la inferencia-cómputo de manera más efectiva, lo que conduce a leyes de escalado de tiempo de inferencia mejoradas. Al abordar desafíos fundamentales en MAS basados en LLM, Optima muestra el potencial hacia MAS escalables, eficientes y efectivos (https://chenweize1998.github.io/optima-project-page).
Este documento propone el paradigma de grandes núcleos convolucionales en el diseño de las modernas Redes Neuronales Convolucionales (ConvNets). Establecemos que emplear unos pocos núcleos grandes, en lugar de apilar múltiples más pequeños, puede ser una estrategia de diseño superior. Nuestro trabajo introduce un conjunto de pautas de diseño de arquitectura para ConvNets de grandes núcleos que optimizan su eficiencia y rendimiento. Proponemos la arquitectura UniRepLKNet, que ofrece principios de diseño de arquitectura sistemáticamente elaborados para ConvNets de grandes núcleos, enfatizando su capacidad única para capturar una amplia información espacial sin apilar capas profundas. Esto resulta en un modelo que no solo supera a sus predecesores con una precisión de ImageNet del 88.0%, un mIoU de ADE20K del 55.6%, y un AP de caja COCO del 56.4%, sino que también demuestra una impresionante escalabilidad y rendimiento en diversas modalidades como pronóstico de series temporales, audio, nube de puntos y reconocimiento de video. Estos resultados indican las capacidades de modelado universales de los ConvNets de grandes núcleos con una velocidad de inferencia más rápida en comparación con los transformadores de visión. Nuestros hallazgos revelan que los ConvNets de grandes núcleos poseen campos receptivos efectivos más grandes y un sesgo de forma más alto, alejándose del sesgo de textura típico de las CNNs de núcleo más pequeño. Todos los códigos y modelos están disponibles públicamente en https://github.com/AILab-CVC/UniRepLKNet promoviendo una mayor investigación y desarrollo en la comunidad.
Los benchmarks automáticos de LLM, como AlpacaEval 2.0, Arena-Hard-Auto y MT-Bench, se han vuelto populares para evaluar modelos de lenguaje debido a su rentabilidad y escalabilidad en comparación con la evaluación humana. Lograr altas tasas de victoria en estos benchmarks puede aumentar significativamente el impacto promocional de los nuevos modelos de lenguaje lanzados. Este beneficio promocional puede motivar trucos, como manipular la longitud o el estilo de la salida del modelo para aumentar las tasas de victoria, a pesar de que se han desarrollado varios mecanismos para controlar la longitud y desentrañar el estilo para reducir la posibilidad de manipulación. Sin embargo, demostramos que incluso un "modelo nulo" que siempre emite una respuesta constante (irrelevante para las instrucciones de entrada) puede hacer trampa en los benchmarks automáticos y lograr tasas de victoria de alto rango: una tasa de victoria del 86.5% en AlpacaEval 2.0; una puntuación de 83.0 en Arena-Hard-Auto; y una puntuación de 9.55 en MT-Bench. Además, las salidas tramposas elaboradas son transferibles porque asumimos que las instrucciones de estos benchmarks (por ejemplo, 805 muestras de AlpacaEval 2.0) son privadas y no pueden ser accedidas. Si bien nuestros experimentos son principalmente una prueba de concepto, un adversario podría utilizar LLM para generar respuestas tramposas más imperceptibles, beneficiándose de manera poco ética de altas tasas de victoria e impacto promocional. Nuestros hallazgos destacan la necesidad de desarrollar mecanismos contra el fraude para benchmarks automáticos confiables. El código está disponible en https://github.com/sail-sg/Cheating-LLM-Benchmarks.
Estudiamos el rendimiento de los transformadores en función del número de repeticiones de ejemplos de entrenamiento con conjuntos de datos generados algorítmicamente. En tres problemas matemáticos: el máximo común divisor, la multiplicación modular y los autovalores de matrices, demostramos que para un número fijo de pasos de entrenamiento, los modelos entrenados con conjuntos más pequeños de ejemplos repetidos superan a los modelos entrenados con conjuntos más grandes de ejemplos de un solo uso. También demostramos que el entrenamiento con dos conjuntos, es decir, el uso repetido de un pequeño subconjunto aleatorio de ejemplos junto con un muestreo normal en el resto del conjunto de entrenamiento, permite un aprendizaje más rápido y un mejor rendimiento. Esto resalta que los beneficios de la repetición pueden superar a los de la diversidad de datos. Estos conjuntos de datos y problemas proporcionan un entorno controlado para arrojar luz sobre la interacción aún poco comprendida entre la generalización y la memorización en el aprendizaje profundo.
El Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (ARRH) ha surgido como una herramienta fundamental para alinear grandes modelos de lenguaje (GML) con las preferencias humanas. La Optimización Directa de Preferencias (ODP), uno de los enfoques más populares, formula el ARRH como un problema de optimización de políticas sin estimar explícitamente la función de recompensa. Supera los problemas de estabilidad y eficiencia de enfoques de dos pasos, que típicamente implican primero estimar la función de recompensa y luego optimizar la política a través de la optimización de políticas proximales (OPP). Dado que el ARRH es fundamentalmente un problema de optimización, y es bien sabido que las técnicas de momento pueden acelerar la optimización tanto teórica como empíricamente, surge naturalmente la pregunta: ¿Puede el ARRH ser acelerado por momento? Este documento responde afirmativamente a esta pregunta. En detalle, primero mostramos que el método iterativo de optimización de preferencias puede ser visto como un método de punto proximal. Basándonos en esta observación, proponemos un marco general de Optimización Acelerada de Preferencias (OAP), que unifica muchos algoritmos de optimización de preferencias existentes y emplea la técnica de momento de Nesterov para acelerar la alineación de GML. Teóricamente, demostramos que OAP puede lograr una tasa de convergencia más rápida que los métodos estándar iterativos de optimización de preferencias, incluyendo ODP y Optimización de Preferencias de Autojuego (OPA). Empíricamente, mostramos la superioridad de OAP sobre ODP, ODP iterativo y otras líneas de base sólidas para ARRH en el banco de pruebas AlpacaEval 2.0.
La reconstrucción dinámica de escenas es un desafío a largo plazo en el campo de la visión 3D. Recientemente, la aparición del Splatting Gaussiano 3D ha proporcionado nuevas perspectivas sobre este problema. Aunque los esfuerzos posteriores extienden rápidamente el Gaussiano 3D estático a escenas dinámicas, a menudo carecen de restricciones explícitas sobre el movimiento de objetos, lo que conduce a dificultades de optimización y degradación del rendimiento. Para abordar los problemas mencionados, proponemos un novedoso marco de splatting Gaussiano 3D deformable llamado MotionGS, que explora prioridades de movimiento explícitas para guiar la deformación de los Gaussianos 3D. Específicamente, primero introducimos un módulo de desacoplamiento de flujo óptico que separa el flujo óptico en flujo de cámara y flujo de movimiento, correspondientes al movimiento de la cámara y al movimiento del objeto respectivamente. Luego, el flujo de movimiento puede restringir efectivamente la deformación de los Gaussianos 3D, simulando así el movimiento de objetos dinámicos. Además, se propone un módulo de refinamiento de la pose de la cámara para optimizar alternativamente los Gaussianos 3D y las poses de la cámara, mitigando el impacto de las poses de cámara inexactas. Experimentos extensos en escenas dinámicas monoculares validan que MotionGS supera a los métodos de vanguardia y muestra una superioridad significativa tanto en resultados cualitativos como cuantitativos. Página del proyecto: https://ruijiezhu94.github.io/MotionGS_page
Los grandes modelos de lenguaje (LLMs) han demostrado notables capacidades de aprendizaje en contexto (ICL) en datos textuales. Exploramos si estas capacidades pueden extenderse a vectores continuos de diversos dominios, obtenidos de codificadores preentrenados de caja negra. Al alinear los datos de entrada con el espacio de incrustación de un LLM a través de proyectores ligeros, observamos que los LLMs pueden procesar y aprender de manera efectiva a partir de estos vectores proyectados, a los que denominamos Vector-ICL. En particular, encontramos que el preentrenamiento de proyectores con objetivos generales de modelado de lenguaje habilita el Vector-ICL, mientras que el ajuste fino específico de la tarea mejora aún más el rendimiento. En nuestros experimentos en diversas tareas y modalidades, incluyendo reconstrucción de texto, regresión de funciones numéricas, clasificación de texto, resumen, titulación de moléculas, clasificación de series temporales, clasificación de grafos y decodificación de fMRI, el Vector-ICL a menudo supera tanto al ICL de pocas muestras como al modelo o ajuste específico de dominio. Además, realizamos análisis y estudios de casos, que indican el potencial de los LLMs para procesar representaciones vectoriales más allá de los paradigmas tradicionales basados en tokens.
Los datos son un elemento crucial en el alineamiento de modelos de lenguaje grandes (LLM, por sus siglas en inglés). Estudios recientes han explorado el uso de LLMs para una recolección eficiente de datos. Sin embargo, los datos generados por LLM a menudo presentan problemas de calidad, con aspectos subrepresentados o ausentes y puntos de datos de baja calidad. Para abordar estos problemas, proponemos Data Advisor, un método mejorado basado en LLM para la generación de datos que tiene en cuenta las características del conjunto de datos deseado. Comenzando con un conjunto de principios predefinidos, Data Advisor monitorea el estado de los datos generados, identifica debilidades en el conjunto de datos actual y aconseja la siguiente iteración de generación de datos en consecuencia. Data Advisor se puede integrar fácilmente en métodos existentes de generación de datos para mejorar la calidad y cobertura de los datos. Experimentos sobre el alineamiento de seguridad de tres LLMs representativos (es decir, Mistral, Llama2 y Falcon) demuestran la efectividad de Data Advisor en mejorar la seguridad del modelo contra varios problemas de seguridad detallados sin sacrificar la utilidad del modelo.
A pesar del rendimiento excepcional, la Búsqueda de Arquitectura Neural (NAS, por sus siglas en inglés) es criticada por su enorme carga computacional. Recientemente, la Búsqueda NAS de Cero Disparos ha surgido como un enfoque prometedor al explotar Proxies de Cero Costo (ZC), que reducen notablemente las demandas computacionales. A pesar de esto, los proxies ZC existentes dependen en gran medida del conocimiento experto y conllevan costos significativos de prueba y error. Especialmente en tareas de Procesamiento del Lenguaje Natural (NLP, por sus siglas en inglés), la mayoría de los proxies ZC existentes no logran superar el rendimiento de la línea base ingenua. Para abordar estos desafíos, presentamos un nuevo marco, LPZero, que es el primero en diseñar automáticamente proxies ZC para diversas tareas, logrando una mayor consistencia en la clasificación que los proxies diseñados por humanos. Específicamente, modelamos el proxy ZC como una ecuación simbólica e incorporamos un espacio unificado de búsqueda de proxies que abarca los proxies ZC existentes, los cuales están compuestos por un conjunto predefinido de símbolos matemáticos. Para buscar heurísticamente el mejor proxy ZC, LPZero incorpora programación genética para encontrar la composición simbólica óptima. Proponemos una Estrategia de Poda Basada en Reglas (RPS, por sus siglas en inglés), que elimina de manera preventiva proxies poco prometedores, mitigando así el riesgo de degradación del proxy. Experimentos extensos en FlexiBERT, GPT-2 y LLaMA-7B demuestran la capacidad de clasificación superior y el rendimiento de LPZero en tareas posteriores en comparación con enfoques actuales.
Resolver ecuaciones en derivadas parciales (EDP) paramétricas dependientes del tiempo es desafiante, ya que los modelos deben adaptarse a variaciones en parámetros como coeficientes, términos forzantes y condiciones de contorno. Los solucionadores neuronales basados en datos se entrenan con datos muestreados de la distribución de parámetros de las EDP con la esperanza de que el modelo se generalice a nuevas instancias, o bien se basan en adaptación basada en gradientes y meta-aprendizaje para codificar implícitamente la dinámica a partir de observaciones. Esto a menudo conlleva una mayor complejidad de inferencia. Inspirados en las capacidades de aprendizaje en contexto de los grandes modelos de lenguaje (LLMs), presentamos Zebra, un novedoso transformador auto-regresivo generativo diseñado para resolver EDP paramétricas sin necesidad de adaptación de gradientes en inferencia. Al aprovechar la información en contexto durante el preentrenamiento y la inferencia, Zebra se adapta dinámicamente a nuevas tareas condicionándose a secuencias de entrada que incorporan trayectorias de contexto o estados previos. Este enfoque permite a Zebra manejar de manera flexible entradas de contexto de tamaño arbitrario y soporta la cuantificación de incertidumbre mediante el muestreo de múltiples trayectorias de solución. Evaluamos Zebra en una variedad de escenarios desafiantes de EDP, demostrando su adaptabilidad, robustez y rendimiento superior en comparación con enfoques existentes.