Artículos de investigación en IA seleccionados diariamente con traducciones
La información se presenta en diversas modalidades. Los modelos nativos multimodales de IA son esenciales para integrar información del mundo real y proporcionar una comprensión integral. Aunque existen modelos nativos multimodales propietarios, su falta de apertura impone obstáculos para su adopción, y mucho menos para su adaptación. Para llenar este vacío, presentamos Aria, un modelo nativo multimodal abierto con un rendimiento de primer nivel en una amplia gama de tareas multimodales, de lenguaje y de codificación. Aria es un modelo de mezcla de expertos con 3.9B y 3.5B parámetros activados por token visual y token de texto, respectivamente. Supera a Pixtral-12B y Llama3.2-11B, y compite con los mejores modelos propietarios en diversas tareas multimodales. Pre-entrenamos Aria desde cero siguiendo un pipeline de 4 etapas, que dota progresivamente al modelo con sólidas capacidades en comprensión del lenguaje, comprensión multimodal, ventana de contexto larga y seguimiento de instrucciones. Publicamos los pesos del modelo junto con un código base que facilita la adopción y adaptación de Aria en aplicaciones del mundo real.
Los Modelos de Lenguaje Grandes (LLMs) muestran un potencial significativo en interacciones económicas y estratégicas, donde la comunicación a través del lenguaje natural es frecuente. Esto plantea preguntas clave: ¿Se comportan los LLMs de manera racional? ¿Pueden imitar el comportamiento humano? ¿Tienden a alcanzar un resultado eficiente y justo? ¿Cuál es el papel del lenguaje natural en la interacción estratégica? ¿Cómo influyen las características del entorno económico en estas dinámicas? Estas preguntas se vuelven cruciales en relación con las implicaciones económicas y sociales de integrar agentes basados en LLMs en sistemas del mundo real impulsados por datos, como plataformas de venta en línea y sistemas de recomendación. Aunque la comunidad de ML ha estado explorando el potencial de los LLMs en tales configuraciones multiagente, las diferentes suposiciones, elecciones de diseño y criterios de evaluación en los estudios dificultan llegar a conclusiones sólidas y significativas. Para abordar esto, presentamos un punto de referencia para estandarizar la investigación en juegos basados en lenguaje secuencial de dos jugadores. Inspirados en la literatura económica, definimos tres familias base de juegos con parametrización consistente, grados de libertad y medidas económicas para evaluar el rendimiento de los agentes (auto-ganancia), así como el resultado del juego (eficiencia y justicia). Desarrollamos un marco de código abierto para simulación y análisis de interacciones, y lo utilizamos para recopilar un conjunto de datos de interacciones LLM vs. LLM en numerosas configuraciones de juegos y un conjunto de datos adicional de interacciones humanos vs. LLM. A través de experimentación extensiva, demostramos cómo nuestro marco y conjunto de datos pueden usarse para: (i) comparar el comportamiento de agentes basados en LLM con jugadores humanos en varios contextos económicos; (ii) evaluar agentes en medidas de rendimiento tanto individuales como colectivas; y (iii) cuantificar el efecto de las características económicas de los entornos en el comportamiento de los agentes.
Los avances recientes en modelos de lenguaje grandes multimodales (MLLMs) han demostrado un progreso significativo; sin embargo, estos modelos presentan una limitación notable, a la que nos referimos como "ceguera facial". Específicamente, pueden participar en conversaciones generales pero no logran llevar a cabo diálogos personalizados dirigidos a individuos específicos. Esta deficiencia obstaculiza la aplicación de MLLMs en entornos personalizados, como asistentes visuales personalizados en dispositivos móviles, o robots domésticos que necesitan reconocer a los miembros de la familia. En este documento, presentamos Personalized Visual Instruction Tuning (PVIT), un marco novedoso de curación de datos y entrenamiento diseñado para permitir a los MLLMs identificar individuos objetivo dentro de una imagen y participar en diálogos personalizados y coherentes. Nuestro enfoque implica el desarrollo de un sofisticado proceso que genera de forma autónoma datos de entrenamiento que contienen conversaciones personalizadas. Este proceso aprovecha las capacidades de varios expertos visuales, modelos de generación de imágenes y modelos de lenguaje grandes (multimodales). Para evaluar el potencial personalizado de los MLLMs, presentamos un banco de pruebas llamado P-Bench, que abarca varios tipos de preguntas con diferentes niveles de dificultad. Los experimentos demuestran una mejora sustancial en el rendimiento personalizado después de un ajuste fino con nuestro conjunto de datos curados.
Presentamos Pixtral-12B, un modelo de lenguaje multimodal de 12 mil millones de parámetros. Pixtral-12B está entrenado para comprender tanto imágenes naturales como documentos, logrando un rendimiento líder en varios puntos de referencia multimodales, superando a varios modelos más grandes. A diferencia de muchos modelos de código abierto, Pixtral es también un modelo de texto de vanguardia para su tamaño y no compromete el rendimiento en lenguaje natural para destacarse en tareas multimodales. Pixtral utiliza un nuevo codificador de visión entrenado desde cero, lo que le permite procesar imágenes en su resolución y relación de aspecto naturales. Esto brinda a los usuarios flexibilidad en la cantidad de tokens utilizados para procesar una imagen. Pixtral también puede procesar cualquier cantidad de imágenes en su ventana de contexto largo de 128K tokens. Pixtral 12B supera sustancialmente a otros modelos abiertos de tamaños similares (Llama-3.2 11B y Qwen-2-VL 7B). También supera a modelos abiertos mucho más grandes como Llama-3.2 90B siendo 7 veces más pequeño. Además, contribuimos con un punto de referencia de código abierto, MM-MT-Bench, para evaluar modelos de visión-lenguaje en escenarios prácticos, y proporcionamos un análisis detallado y código para protocolos de evaluación estandarizados para LLMs multimodales. Pixtral-12B se publica bajo la licencia Apache 2.0.
Este documento presenta F5-TTS, un sistema de texto a voz completamente no autoregresivo basado en el emparejamiento de flujo con el Transformador de Difusión (DiT). Sin necesidad de diseños complejos como un modelo de duración, codificador de texto y alineación de fonemas, la entrada de texto simplemente se rellena con tokens de relleno hasta la misma longitud que la entrada de voz, y luego se realiza el proceso de eliminación de ruido para la generación de voz, lo cual fue originalmente demostrado como factible por E2 TTS. Sin embargo, el diseño original de E2 TTS dificulta su seguimiento debido a su lenta convergencia y baja robustez. Para abordar estos problemas, primero modelamos la entrada con ConvNeXt para refinar la representación del texto, facilitando su alineación con la voz. Además, proponemos una estrategia de Muestreo de Balanceo en tiempo de inferencia, que mejora significativamente el rendimiento y la eficiencia de nuestro modelo. Esta estrategia de muestreo para el paso de flujo se puede aplicar fácilmente a modelos existentes basados en emparejamiento de flujo sin necesidad de volver a entrenarlos. Nuestro diseño permite un entrenamiento más rápido y logra un RTF de inferencia de 0.15, lo cual es una mejora considerable en comparación con los modelos de TTS basados en difusión más avanzados. Entrenado en un conjunto de datos multilingüe público de 100,000 horas, nuestro Fairytaler Fakes Fluent and Faithful speech with Flow matching (F5-TTS) exhibe una capacidad de cero disparos altamente natural y expresiva, una capacidad de cambio de código sin interrupciones y una eficiencia en el control de la velocidad. Se pueden encontrar muestras de demostración en https://SWivid.github.io/F5-TTS. Publicamos todo el código y los puntos de control para fomentar el desarrollo comunitario.
Los modelos de texto a video (T2V) como Sora han avanzado significativamente en la visualización de instrucciones complejas, lo cual se considera cada vez más como un camino prometedor hacia la construcción del simulador de mundo universal. Los psicólogos cognitivos creen que la base para lograr este objetivo es la capacidad de comprender la física intuitiva. Sin embargo, la capacidad de estos modelos para representar con precisión la física intuitiva sigue siendo en gran medida inexplorada. Para cerrar esta brecha, presentamos PhyGenBench, un completo Banco de Evaluación de Generación de Física diseñado para evaluar la corrección del sentido común físico en la generación T2V. PhyGenBench consta de 160 instrucciones cuidadosamente elaboradas que abarcan 27 leyes físicas distintas, que se extienden a lo largo de cuatro dominios fundamentales, y que podrían evaluar de manera integral la comprensión del sentido común físico de los modelos. Junto con PhyGenBench, proponemos un novedoso marco de evaluación llamado PhyGenEval. Este marco emplea una estructura de evaluación jerárquica utilizando modelos apropiados avanzados de visión-lenguaje y grandes modelos de lenguaje para evaluar el sentido común físico. A través de PhyGenBench y PhyGenEval, podemos realizar evaluaciones automatizadas a gran escala de la comprensión del sentido común físico de los modelos T2V, que se alinean estrechamente con la retroalimentación humana. Nuestros resultados de evaluación y análisis en profundidad demuestran que los modelos actuales tienen dificultades para generar videos que cumplan con el sentido común físico. Además, simplemente escalar los modelos o emplear técnicas de ingeniería de instrucciones es insuficiente para abordar completamente los desafíos presentados por PhyGenBench (por ejemplo, escenarios dinámicos). Esperamos que este estudio inspire a la comunidad a priorizar el aprendizaje del sentido común físico en estos modelos más allá de las aplicaciones de entretenimiento. Publicaremos los datos y códigos en https://github.com/OpenGVLab/PhyGenBench
Los modelos avanzados de difusión como RPG, Difusión Estable 3 y FLUX han logrado avances notables en la generación de texto a imagen de manera compositiva. Sin embargo, estos métodos suelen exhibir fortalezas distintas para la generación compositiva, con algunos destacando en el manejo de la unión de atributos y otros en las relaciones espaciales. Esta disparidad resalta la necesidad de un enfoque que pueda aprovechar las fortalezas complementarias de varios modelos para mejorar de manera integral la capacidad de composición. Con este fin, presentamos IterComp, un marco novedoso que agrega preferencias de modelo con conciencia de composición de múltiples modelos y emplea un enfoque de aprendizaje de retroalimentación iterativa para mejorar la generación compositiva. Específicamente, creamos una galería de seis potentes modelos de difusión de código abierto y evaluamos sus tres métricas compositivas clave: unión de atributos, relaciones espaciales y relaciones no espaciales. Basándonos en estas métricas, desarrollamos un conjunto de datos de preferencias de modelo con conciencia de composición que incluye numerosos pares de imagen-rango para entrenar modelos de recompensa con conciencia de composición. Luego, proponemos un método de aprendizaje de retroalimentación iterativa para mejorar la composicionalidad de manera cíclica, permitiendo el automejoramiento progresivo tanto del modelo base de difusión como de los modelos de recompensa a lo largo de múltiples iteraciones. Una prueba teórica demuestra la efectividad y experimentos extensos muestran nuestra notable superioridad sobre métodos anteriores de vanguardia (por ejemplo, Omost y FLUX), especialmente en la composición de objetos de múltiples categorías y en la alineación semántica compleja. IterComp abre nuevas vías de investigación en el aprendizaje de retroalimentación de recompensa para modelos de difusión y generación compositiva. Código: https://github.com/YangLing0818/IterComp
La generación de video requiere modelar un vasto espacio espacio-temporal, lo que demanda significativos recursos computacionales y uso de datos. Para reducir la complejidad, los enfoques predominantes emplean una arquitectura en cascada para evitar el entrenamiento directo con resolución completa. A pesar de reducir las demandas computacionales, la optimización separada de cada subetapa obstaculiza el intercambio de conocimientos y sacrifica la flexibilidad. Este trabajo introduce un algoritmo unificado de coincidencia de flujo piramidal. Reinterpreta la trayectoria original de eliminación de ruido como una serie de etapas piramidales, donde solo la etapa final opera a plena resolución, permitiendo así un modelado generativo de video más eficiente. A través de nuestro diseño sofisticado, los flujos de diferentes etapas piramidales pueden estar interconectados para mantener la continuidad. Además, creamos generación de video autoregresiva con una pirámide temporal para comprimir la historia a plena resolución. Todo el marco se puede optimizar de manera integral y con un único Transformador de Difusión unificado (DiT). Experimentos extensos demuestran que nuestro método es capaz de generar videos de alta calidad de 5 segundos (hasta 10 segundos) a una resolución de 768p y 24 FPS en 20.7k horas de entrenamiento en GPU A100. Todo el código y los modelos se compartirán en código abierto en https://pyramid-flow.github.io.
Presentamos la Tasa de Integración de Modalidades (MIR), una métrica efectiva, robusta y generalizada para indicar la calidad de pre-entrenamiento multi-modal de Modelos de Lenguaje de Visión Amplia (LVLMs). El pre-entrenamiento a gran escala juega un papel crítico en la construcción de LVLMs capaces, mientras que evaluar su calidad de entrenamiento sin la costosa etapa de ajuste fino supervisado está poco explorado. La pérdida, la perplejidad y los resultados de evaluación en contexto son métricas comúnmente utilizadas para el pre-entrenamiento de Modelos de Lenguaje Amplio (LLMs), mientras que observamos que estas métricas son menos indicativas al alinear un LLM bien entrenado con una nueva modalidad. Debido a la falta de métricas adecuadas, la investigación de LVLMs en la etapa crítica de pre-entrenamiento se ve enormemente obstaculizada, incluida la elección de datos de entrenamiento, el diseño eficiente de módulos, etc. En este documento, proponemos evaluar la calidad de pre-entrenamiento desde la perspectiva de la distancia de distribución inter-modal y presentamos MIR, la Tasa de Integración de Modalidades, que es 1) Efectiva para representar la calidad de pre-entrenamiento y mostrar una relación positiva con el rendimiento de referencia después del ajuste fino supervisado. 2) Robusta ante diferentes datos de entrenamiento/evaluación. 3) Generalizable a través de configuraciones de entrenamiento y elecciones de arquitectura. Realizamos una serie de experimentos de pre-entrenamiento para explorar la efectividad de MIR y observamos resultados satisfactorios que indican que MIR es informativa sobre la selección de datos de entrenamiento, la programación de estrategias de entrenamiento y el diseño de arquitectura de modelos para obtener mejores resultados de pre-entrenamiento. Esperamos que MIR pueda ser una métrica útil para construir LVLMs capaces e inspirar la investigación siguiente sobre el alineamiento de modalidades en diferentes áreas. Nuestro código está en: https://github.com/shikiw/Modality-Integration-Rate.
En este informe técnico, presentamos Falcon Mamba 7B, un nuevo modelo de lenguaje base grande basado en la novedosa arquitectura Mamba. Falcon Mamba 7B está entrenado en 5.8 billones de tokens con mezclas de datos cuidadosamente seleccionadas. Como un modelo puramente basado en Mamba, Falcon Mamba 7B supera a los principales modelos de peso abierto basados en Transformers, como Mistral 7B, Llama3.1 8B y Falcon2 11B. Está a la par con Gemma 7B y supera a modelos con diferentes diseños de arquitectura, como RecurrentGemma 9B y RWKV-v6 Finch 7B/14B. Actualmente, Falcon Mamba 7B es el modelo Mamba de mejor rendimiento en la literatura en esta escala, superando tanto a los modelos Mamba existentes como a los modelos híbridos Mamba-Transformer, según el Open LLM Leaderboard. Debido a su arquitectura, Falcon Mamba 7B es significativamente más rápido en inferencia y requiere sustancialmente menos memoria para la generación de secuencias largas. A pesar de estudios recientes que sugieren que los modelos híbridos Mamba-Transformer superan a los diseños de arquitectura pura, demostramos que incluso el diseño puro de Mamba puede lograr resultados similares, o incluso superiores, en comparación con los diseños de Transformer y híbridos. Ponemos los pesos de nuestra implementación de Falcon Mamba 7B públicamente disponibles en https://huggingface.co/tiiuae/falcon-mamba-7b, bajo una licencia permisiva.
Este documento explora la interacción entre las espinas dorsales de visión y los optimizadores, revelando un fenómeno interdependiente denominado \textbf{sesgo de acoplamiento espinadorsal-optimizador} (BOCB). Observamos que las CNN canónicas, como VGG y ResNet, muestran una marcada co-dependencia con las familias de SGD, mientras que arquitecturas recientes como ViTs y ConvNeXt comparten un acoplamiento estrecho con aquellas que utilizan una tasa de aprendizaje adaptativa. Además, demostramos que el BOCB puede ser introducido tanto por optimizadores como por ciertos diseños de espinas dorsales y puede impactar significativamente en el pre-entrenamiento y ajuste fino de modelos de visión. A través de un análisis empírico en profundidad, resumimos conclusiones sobre los optimizadores recomendados y conocimientos sobre arquitecturas robustas de espinas dorsales de visión. Esperamos que este trabajo inspire a la comunidad a cuestionar suposiciones arraigadas sobre espinas dorsales y optimizadores, estimule nuevas exploraciones y, de esta manera, contribuya a sistemas de visión más robustos. El código fuente y los modelos están disponibles públicamente en https://bocb-ai.github.io/.
Esta investigación tiene como objetivo explorar de manera exhaustiva la creación de un modelo base multimodal para la comprensión de videos egocéntricos. Para lograr este objetivo, trabajamos en tres frentes. En primer lugar, dado que existe una falta de datos de preguntas y respuestas para la comprensión de videos egocéntricos, desarrollamos un motor de datos que genera de manera eficiente 7 millones de muestras de preguntas y respuestas de alta calidad para videos egocéntricos que van desde 30 segundos hasta una hora de duración, basados en datos anotados por humanos. Actualmente, este es el conjunto de datos de preguntas y respuestas egocéntricas más grande. En segundo lugar, contribuimos con un desafiante conjunto de datos de preguntas y respuestas egocéntricas que consta de 629 videos y 7,026 preguntas para evaluar la capacidad de los modelos para reconocer y memorizar detalles visuales a lo largo de videos de diferentes longitudes. Introducimos un nuevo método de evaluación de desbias para ayudar a mitigar el sesgo de lenguaje inevitable presente en los modelos evaluados. En tercer lugar, proponemos una arquitectura multimodal especializada que presenta un novedoso mecanismo de "Memory Pointer Prompting". Este diseño incluye un paso de visión global para obtener una comprensión general del video completo e identificar información visual clave, seguido por un paso de respaldo que utiliza la información visual clave para generar respuestas. Esto permite que el modelo comprenda de manera más efectiva el contenido extenso del video. Con los datos, el conjunto de datos de referencia y el modelo, construimos exitosamente MM-Ego, un LLM multimodal egocéntrico que muestra un rendimiento potente en la comprensión de videos egocéntricos.
La visualización de historias, la tarea de generar imágenes coherentes basadas en una narrativa, ha experimentado avances significativos con la aparición de modelos de texto a imagen, en particular los modelos de difusión. Sin embargo, mantener la consistencia semántica, generar interacciones detalladas de alta calidad y garantizar la viabilidad computacional siguen siendo desafíos, especialmente en la visualización de historias largas (es decir, hasta 100 fotogramas). En este trabajo, proponemos un marco de trabajo libre de entrenamiento y computacionalmente eficiente, denominado Story-Adapter, para mejorar la capacidad generativa de historias largas. Específicamente, proponemos un paradigma iterativo para refinar cada imagen generada, aprovechando tanto la indicación de texto como todas las imágenes generadas de la iteración anterior. En el centro de nuestro marco de trabajo se encuentra un módulo de atención cruzada global de referencia sin entrenamiento, que agrega todas las imágenes generadas de la iteración anterior para preservar la consistencia semántica en toda la historia, al tiempo que minimiza los costos computacionales con incrustaciones globales. Este proceso iterativo optimiza progresivamente la generación de imágenes al incorporar repetidamente restricciones de texto, lo que resulta en interacciones más precisas y detalladas. Experimentos extensos validan la superioridad de Story-Adapter en mejorar tanto la consistencia semántica como la capacidad generativa para interacciones detalladas, especialmente en escenarios de historias largas. La página del proyecto y el código asociado se pueden acceder a través de https://jwmao1.github.io/storyadapter.
A través de la alineación con las preferencias humanas, los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) han avanzado significativamente en la generación de respuestas honestas, inofensivas y útiles. Sin embargo, recopilar datos de preferencia de alta calidad es un proceso intensivo en recursos y exigente en creatividad, especialmente para la mejora continua de los LLMs. Presentamos SynPO, un paradigma de autoimpulso que aprovecha datos de preferencia sintéticos para la alineación del modelo. SynPO emplea un mecanismo iterativo en el cual un generador de auto-prompt crea diversos estímulos, y un mejorador de respuestas perfecciona progresivamente las respuestas del modelo. Este enfoque entrena a los LLMs para aprender autónomamente las recompensas generativas para sus propias salidas y elimina la necesidad de una anotación a gran escala de estímulos y preferencias humanas. Después de cuatro iteraciones de SynPO, Llama3-8B y Mistral-7B muestran mejoras significativas en habilidades de seguimiento de instrucciones, logrando mejoras de más del 22.1% en las tasas de éxito en AlpacaEval 2.0 y ArenaHard. Simultáneamente, SynPO mejora el rendimiento general de los LLMs en diversas tareas, validado por un aumento promedio de puntuación de 3.2 a 5.0 en el reconocido tablero de líderes de Open LLM.
Los modelos base (FMs) se pre-entrenan en conjuntos de datos a gran escala y luego se ajustan en una tarea secundaria para una aplicación específica. El método de ajuste más exitoso y comúnmente utilizado consiste en actualizar los pesos pre-entrenados a través de una adaptación de bajo rango (LoRA). LoRA introduce nuevas matrices de peso que generalmente se inicializan al azar con una distribución de rango uniforme en todos los pesos del modelo. Trabajos recientes se centran en la inicialización basada en pesos o en el aprendizaje de rangos adaptativos durante el entrenamiento. Ambos enfoques solo se han investigado de forma aislada, lo que resulta en una convergencia lenta o una distribución de rango uniforme, lo que a su vez lleva a un rendimiento subóptimo. Proponemos mejorar LoRA inicializando los nuevos pesos de manera basada en datos mediante la descomposición en valores singulares en mini lotes de vectores de activación. Luego, inicializamos las matrices LoRA con los vectores singulares derechos obtenidos y redistribuimos los rangos entre todas las matrices de peso para explicar la máxima cantidad de varianza y continuar con el procedimiento estándar de ajuste fino de LoRA. Esto da lugar a nuestro nuevo método de Adaptación de Varianza Explicada (EVA). Aplicamos EVA a una variedad de tareas de ajuste fino que van desde la generación y comprensión del lenguaje hasta la clasificación de imágenes y el aprendizaje por refuerzo. EVA muestra una convergencia más rápida que los competidores y alcanza la puntuación promedio más alta en una multitud de tareas por dominio.
En este documento, nos enfocamos en mejorar un modelo texto-a-video (T2V) basado en difusión durante la fase de post-entrenamiento mediante la destilación de un modelo de consistencia altamente capaz de un modelo T2V preentrenado. Nuestro método propuesto, T2V-Turbo-v2, introduce un avance significativo al integrar varios señales de supervisión, incluyendo datos de entrenamiento de alta calidad, retroalimentación del modelo de recompensa y guía condicional, en el proceso de destilación de consistencia. A través de estudios de ablación exhaustivos, resaltamos la importancia crucial de adaptar conjuntos de datos a objetivos de aprendizaje específicos y la efectividad de aprender de diversos modelos de recompensa para mejorar tanto la calidad visual como la alineación texto-video. Además, destacamos el vasto espacio de diseño de estrategias de guía condicional, que se centra en diseñar una función de energía efectiva para aumentar el solucionador ODE del profesor. Demostramos el potencial de este enfoque extrayendo guía de movimiento de los conjuntos de datos de entrenamiento e incorporándola en el solucionador ODE, mostrando su efectividad en mejorar la calidad de movimiento de los videos generados con las métricas mejoradas relacionadas con el movimiento de VBench y T2V-CompBench. Empíricamente, nuestro T2V-Turbo-v2 establece un nuevo resultado de vanguardia en VBench, con una puntuación Total de 85.13, superando a sistemas propietarios como Gen-3 y Kling.
Los modelos de lenguaje grandes se han aplicado con éxito a tareas de asistencia en programación, como completar código, insertar código y editar código instructivo. Sin embargo, estas aplicaciones siguen siendo insuficientemente automatizadas y tienen dificultades para integrar de manera efectiva varios tipos de información durante el proceso de programación, incluida la historia de codificación, el código actual y las instrucciones del usuario. En este trabajo, proponemos un nuevo marco conversacional que integra de manera integral estas fuentes de información, recopilamos datos para entrenar nuestros modelos y evaluamos su rendimiento. En primer lugar, para evaluar a fondo qué tan bien se alinean los modelos con diferentes tipos de información y la calidad de sus salidas, presentamos un nuevo punto de referencia, APEval (Evaluación de Asistencia en Programación), para evaluar de manera integral el rendimiento de los modelos en tareas de asistencia en programación. Luego, para la recopilación de datos, desarrollamos un canal de generación de datos, Programming-Instruct, que sintetiza datos de entrenamiento de diversas fuentes, como GitHub y plataformas de jueces en línea. Este canal puede generar automáticamente varios tipos de mensajes a lo largo del proceso de programación. Finalmente, utilizando este canal, generamos 219K ejemplos, ajustamos varios modelos y desarrollamos la serie CursorCore. Mostramos que CursorCore supera a otros modelos de tamaño comparable. Este marco unifica aplicaciones como chat en línea y edición automatizada, contribuyendo al avance de los asistentes de codificación. El código, los modelos y los datos están disponibles de forma gratuita en https://github.com/TechxGenus/CursorCore.
Los Modelos de Lenguaje en Video a Gran Escala (Video LLMs) han demostrado capacidades prometedoras en la comprensión de videos, sin embargo, tienen dificultades para rastrear cambios temporales y razonar sobre relaciones temporales. Mientras que investigaciones previas atribuyeron esta limitación a la codificación temporal ineficaz de las entradas visuales, nuestro estudio diagnóstico revela que las representaciones de video contienen suficiente información para que incluso clasificadores de prueba pequeños logren una precisión perfecta. Sorprendentemente, encontramos que el cuello de botella clave en la capacidad de razonamiento temporal de los Video LLMs se origina en la dificultad inherente del LLM subyacente con conceptos temporales, como lo demuestra el bajo rendimiento en tareas de pregunta-respuesta temporal textual. Basándonos en este descubrimiento, presentamos la Transferencia de Razonamiento Temporal Textual (T3). T3 sintetiza diversas tareas de razonamiento temporal en formato de texto puro a partir de conjuntos de datos de imagen-texto existentes, abordando la escasez de muestras de video con escenarios temporales complejos. De manera notable, sin utilizar datos de video, T3 mejora la comprensión temporal de LongVA-7B, logrando una mejora de precisión absoluta del 5.3 en el desafiante benchmark TempCompass, lo que permite que nuestro modelo supere a ShareGPT4Video-8B entrenado con 28,000 muestras de video. Además, el modelo mejorado LongVA-7B logra un rendimiento competitivo en benchmarks de video completos. Por ejemplo, alcanza una precisión del 49.7 en la tarea de Razonamiento Temporal de Video-MME, superando a modelos a gran escala potentes como InternVL-Chat-V1.5-20B y VILA1.5-40B. Un análisis adicional revela una fuerte correlación entre el rendimiento de tareas temporales textuales y de video, validando la eficacia de transferir habilidades de razonamiento temporal de texto a dominios de video.
El reciente progreso en los modelos de difusión de texto a video (T2V) y de imagen a video (I2V) a gran escala ha mejorado significativamente la generación de videos, especialmente en términos de interpolación de fotogramas clave. Sin embargo, los actuales modelos de difusión de imagen a video, aunque son potentes en la generación de videos a partir de un solo fotograma condicionante, necesitan adaptarse para la generación condicionada de dos fotogramas (inicio y fin), lo cual es esencial para una interpolación acotada efectiva. Desafortunadamente, los enfoques existentes que fusionan caminos temporalmente hacia adelante y hacia atrás en paralelo a menudo sufren de problemas fuera del conjunto, lo que resulta en artefactos o requiere múltiples pasos iterativos de re-ruido. En este trabajo, presentamos una novedosa estrategia de muestreo bidireccional para abordar estos problemas fuera del conjunto sin necesidad de extensos re-ruidos o ajustes finos. Nuestro método emplea muestreo secuencial a lo largo de ambos caminos, hacia adelante y hacia atrás, condicionados en los fotogramas de inicio y fin, respectivamente, asegurando una generación más coherente y en el conjunto de los fotogramas intermedios. Además, incorporamos técnicas avanzadas de orientación, CFG++ y DDS, para mejorar aún más el proceso de interpolación. Al integrar estos elementos, nuestro método logra un rendimiento de vanguardia, generando eficientemente videos de alta calidad y suaves entre fotogramas clave. En una sola GPU 3090, nuestro método puede interpolar 25 fotogramas a una resolución de 1024 x 576 en solo 195 segundos, estableciéndose como una solución líder para la interpolación de fotogramas clave.
A pesar de los avances significativos en la personalización de modelos de generación de texto a imagen y video, generar imágenes y videos que integren efectivamente múltiples conceptos personalizados sigue siendo una tarea desafiante. Para abordar esto, presentamos TweedieMix, un método novedoso para componer modelos de difusión personalizados durante la fase de inferencia. Al analizar las propiedades del muestreo de difusión inversa, nuestro enfoque divide el proceso de muestreo en dos etapas. Durante los pasos iniciales, aplicamos una técnica de muestreo consciente de múltiples objetos para garantizar la inclusión de los objetos objetivo deseados. En los pasos posteriores, mezclamos las apariencias de los conceptos personalizados en el espacio de imagen desenfocada utilizando la fórmula de Tweedie. Nuestros resultados demuestran que TweedieMix puede generar múltiples conceptos personalizados con una fidelidad mayor que los métodos existentes. Además, nuestro marco puede extenderse fácilmente a modelos de difusión de imagen a video, lo que permite la generación de videos que presentan múltiples conceptos personalizados. Los resultados y el código fuente se encuentran en nuestra página de proyecto anónima.
La sintonización de instrucciones, un ajuste supervisado mediante el uso de pares de instrucciones-respuestas, es un paso fundamental en la transición de Modelos de Lenguaje Grandes (LLMs) pre-entrenados hacia asistentes de chat útiles y seguros. Nuestra hipótesis es que establecer un espacio de salida adecuado puede permitir dicha transición dadas las capacidades inherentes en los LLMs pre-entrenados. Para verificar esto, proponemos el Ajuste de Respuestas (RT), que elimina el paso de condicionamiento de instrucciones en la sintonización de instrucciones y se enfoca únicamente en la supervisión del espacio de respuestas. Nuestros experimentos demuestran que los modelos RT, entrenados solo utilizando respuestas, pueden responder efectivamente a una amplia gama de instrucciones y mostrar utilidad comparable a la de sus contrapartes ajustadas con instrucciones. Además, observamos que controlar la distribución de respuestas de entrenamiento puede mejorar significativamente la preferencia del usuario o provocar comportamientos deseados como rechazar asistencia para consultas inseguras. Nuestros hallazgos iluminan el papel de establecer un espacio de salida adecuado en alineación, resaltando el potencial de las extensas capacidades inherentes de los LLMs pre-entrenados.
En este documento, proponemos AutoDAN-Turbo, un método de jailbreak de caja negra que puede descubrir automáticamente la mayor cantidad posible de estrategias de jailbreak desde cero, sin intervención humana ni ámbitos predefinidos (por ejemplo, estrategias candidatas especificadas) y utilizarlas para red teaming. Como resultado, AutoDAN-Turbo puede superar significativamente a los métodos base, logrando una tasa de éxito de ataque promedio un 74.3% más alta en benchmarks públicos. Es destacable que AutoDAN-Turbo alcanza una tasa de éxito de ataque del 88.5 en GPT-4-1106-turbo. Además, AutoDAN-Turbo es un marco unificado que puede incorporar estrategias de jailbreak diseñadas por humanos existentes de forma plug-and-play. Al integrar estrategias diseñadas por humanos, AutoDAN-Turbo puede incluso lograr una tasa de éxito de ataque más alta del 93.4 en GPT-4-1106-turbo.
Los avances recientes en modelos de difusión han demostrado capacidades excepcionales en la generación de imágenes y videos, mejorando aún más la efectividad de la síntesis 4D. Los métodos de generación 4D existentes pueden crear objetos o escenas 4D de alta calidad basados en condiciones fáciles de usar, beneficiando a las industrias de los videojuegos y videos. Sin embargo, estos métodos tienen dificultades para sintetizar deformaciones significativas de objetos en transiciones 4D complejas e interacciones dentro de escenas. Para abordar este desafío, proponemos Trans4D, un novedoso marco de síntesis de texto a 4D que permite transiciones realistas y complejas de escenas. Específicamente, primero utilizamos modelos de lenguaje multimodales grandes (MLLMs) para producir una descripción de escena con conciencia física para la inicialización de la escena 4D y una planificación efectiva del tiempo de transición. Luego proponemos una red de transición 4D con conciencia geométrica para realizar una transición 4D a nivel de escena compleja basada en el plan, que implica deformaciones geométricas expresivas de objetos. Experimentos extensos demuestran que Trans4D supera consistentemente a los métodos existentes de vanguardia en la generación de escenas 4D con transiciones precisas y de alta calidad, validando su efectividad. Código: https://github.com/YangLing0818/Trans4D
Los Modelos de Lenguaje Multimodal Grande (MLLMs) están evolucionando rápidamente, demostrando capacidades impresionantes como asistentes multimodales que interactúan tanto con humanos como con sus entornos. Sin embargo, esta mayor sofisticación introduce preocupaciones significativas de seguridad. En este documento, presentamos la primera evaluación y análisis de un nuevo desafío de seguridad denominado Seguridad Situacional Multimodal, que explora cómo las consideraciones de seguridad varían según la situación específica en la que el usuario o agente está involucrado. Sostenemos que para que un MLLM responda de manera segura, ya sea a través del lenguaje o la acción, a menudo necesita evaluar las implicaciones de seguridad de una consulta de lenguaje dentro de su contexto visual correspondiente. Para evaluar esta capacidad, desarrollamos el banco de pruebas de Seguridad Situacional Multimodal (MSSBench) para evaluar el rendimiento de seguridad situacional de los MLLMs actuales. El conjunto de datos consta de 1,820 pares de consulta de lenguaje-imagen, la mitad de los cuales tiene un contexto de imagen seguro y la otra mitad es insegura. También desarrollamos un marco de evaluación que analiza aspectos clave de seguridad, incluido el razonamiento de seguridad explícito, la comprensión visual y, crucialmente, el razonamiento de seguridad situacional. Nuestros hallazgos revelan que los MLLMs actuales tienen dificultades con este problema de seguridad sutil en el entorno de seguimiento de instrucciones y luchan por abordar estos desafíos de seguridad situacional de una vez, resaltando un área clave para futuras investigaciones. Además, desarrollamos tuberías de múltiples agentes para resolver coordinadamente desafíos de seguridad, lo que muestra una mejora consistente en la seguridad respecto a la respuesta original del MLLM. Código y datos: mssbench.github.io.
Los modelos de generación texto-a-video (T2V), que ofrecen una creación visual conveniente, han ganado recientemente una atención creciente. A pesar de su potencial sustancial, los videos generados pueden presentar artefactos, incluyendo implausibilidad estructural, inconsistencia temporal y falta de movimiento, a menudo resultando en videos casi estáticos. En este trabajo, hemos identificado una correlación entre la disparidad de mapas de atención temporal en diferentes bloques y la presencia de inconsistencias temporales. Además, hemos observado que la energía contenida en los mapas de atención temporal está directamente relacionada con la magnitud de la amplitud del movimiento en los videos generados. Basándonos en estas observaciones, presentamos BroadWay, un método sin entrenamiento para mejorar la calidad de la generación texto-a-video sin introducir parámetros adicionales, aumentar la memoria o el tiempo de muestreo. Específicamente, BroadWay se compone de dos componentes principales: 1) Autoguía Temporal mejora la plausibilidad estructural y la consistencia temporal de los videos generados al reducir la disparidad entre los mapas de atención temporal en varios bloques decodificadores. 2) Mejora del Movimiento basada en Fourier aumenta la magnitud y riqueza del movimiento al amplificar la energía del mapa. Experimentos extensos demuestran que BroadWay mejora significativamente la calidad de la generación texto-a-video con un costo adicional insignificante.
Los modelos generativos están transformando dominios creativos como la generación de música, con estrategias de tiempo de inferencia como la Guía sin Clasificador (CFG, por sus siglas en inglés) desempeñando un papel crucial. Sin embargo, CFG duplica el costo de inferencia al tiempo que limita la originalidad y diversidad en los contenidos generados. En este artículo, presentamos la destilación de CFG recompensada por diversidad, un procedimiento de ajuste fino novedoso que destila las fortalezas de CFG mientras aborda sus limitaciones. Nuestro enfoque optimiza dos objetivos de entrenamiento: (1) un objetivo de destilación, que alienta al modelo solo (sin CFG) a imitar las predicciones aumentadas por CFG, y (2) un objetivo de RL con una recompensa de diversidad, que promueve la generación de salidas diversas para una indicación dada. A través del ajuste fino, aprendemos los pesos del modelo con la capacidad de generar salidas de alta calidad y diversas, sin ningún costo adicional de inferencia. Esto también desbloquea el potencial de estrategias de fusión de modelos basadas en pesos: al interpolar entre los pesos de dos modelos (el primero enfocado en calidad, el segundo en diversidad), podemos controlar el equilibrio calidad-diversidad en el momento de implementación, e incluso mejorar aún más el rendimiento. Realizamos experimentos extensos en el modelo generativo de texto a música MusicLM (Agostinelli et al., 2023), donde nuestro enfoque supera a CFG en términos de optimalidad de Pareto calidad-diversidad. Según evaluadores humanos, nuestro modelo ajustado y luego fusionado genera muestras con una calidad-diversidad más alta que el modelo base aumentado con CFG. Explore nuestras generaciones en https://google-research.github.io/seanet/musiclm/diverse_music/.
Este trabajo investiga la selección de datos de pre-entrenamiento de alta calidad de corpus masivos para mejorar las capacidades de los Modelos de Lenguaje (LMs) para su uso posterior. Formulamos la selección de datos como un problema generalizado de Control Óptimo, que puede resolverse teóricamente mediante el Principio del Máximo de Pontryagin (PMP), produciendo un conjunto de condiciones necesarias que caracterizan la relación entre la selección óptima de datos y la dinámica del entrenamiento de LM. Basándonos en estos resultados teóricos, presentamos la Selección de Datos basada en PMP (PDS), un marco que aproxima la selección óptima de datos mediante la resolución de las condiciones de PMP. En nuestros experimentos, adoptamos PDS para seleccionar datos de CommmonCrawl y demostramos que el corpus seleccionado por PDS acelera el aprendizaje de LMs y mejora constantemente su rendimiento en una amplia gama de tareas posteriores en varios tamaños de modelos. Además, los beneficios de PDS se extienden a modelos de ~400B entrenados en ~10T tokens, como lo demuestra la extrapolación de las curvas de pérdida de prueba de acuerdo con las Leyes de Escala. PDS también mejora la utilización de datos cuando los datos de pre-entrenamiento son limitados, al reducir la demanda de datos en 1.8 veces, lo que mitiga el rápido agotamiento de los corpus rastreados en la web disponibles. Nuestro código, datos y puntos de control del modelo se pueden encontrar en https://github.com/microsoft/LMOps/tree/main/data_selection.
La Temporalización de Video (VTG) es una capacidad crucial para los modelos de comprensión de video y desempeña un papel vital en tareas posteriores como la navegación y edición de videos. Para manejar efectivamente varias tareas simultáneamente y permitir la predicción sin datos, hay una tendencia creciente en el uso de LLMs de video para tareas de VTG. Sin embargo, los métodos actuales basados en LLMs de video dependen exclusivamente de la generación de lenguaje natural, careciendo de la capacidad para modelar la clara estructura inherente en los videos, lo que limita su efectividad en abordar las tareas de VTG. Para abordar este problema, este documento introduce formalmente primero un marco de modelado de eventos causales, que representa videos como secuencias de eventos, y predice el evento actual utilizando eventos anteriores, entradas de video e instrucciones textuales. Cada evento consta de tres componentes: marcas de tiempo, puntajes destacados y leyendas textuales. Luego, proponemos un nuevo LLM de video entrelazado de tareas llamado TRACE para implementar efectivamente el marco de modelado de eventos causales en la práctica. TRACE procesa cuadros visuales, marcas de tiempo, puntajes destacados y texto como tareas distintas, empleando varios codificadores y cabezas de decodificación para cada uno. Los tokens de tarea se organizan en una secuencia entrelazada de acuerdo con la formulación del marco de modelado de eventos causales. Experimentos extensos en varias tareas y conjuntos de datos de VTG demuestran el rendimiento superior de TRACE en comparación con los LLMs de video de última generación. Nuestro modelo y código están disponibles en https://github.com/gyxxyg/TRACE.
A medida que los modelos de lenguaje multimodales grandes (MLLMs) continúan demostrando un rendimiento cada vez más competitivo en una amplia gama de tareas, se han desarrollado benchmarks más intrincados y completos para evaluar estos modelos de vanguardia. Estos benchmarks introducen nuevos desafíos a capacidades fundamentales como la percepción, el razonamiento y la planificación. Sin embargo, los benchmarks multimodales existentes no logran proporcionar una evaluación enfocada en la planificación de múltiples pasos basada en relaciones espaciales en imágenes. Para cerrar esta brecha, presentamos ING-VP, el primer benchmark de Visión y Planificación basado en Juegos Interactivos, diseñado específicamente para evaluar la imaginación espacial y las habilidades de razonamiento de múltiples pasos de los MLLMs. ING-VP cuenta con 6 juegos distintos, que abarcan 300 niveles, cada uno con 6 configuraciones únicas. Un solo modelo participa en más de 60,000 rondas de interacción. El marco de benchmark permite múltiples configuraciones de comparación, incluyendo entradas de imagen-texto vs. solo texto, razonamiento de un solo paso vs. de múltiples pasos, y condiciones con historial vs. sin historial, ofreciendo valiosas ideas sobre las capacidades del modelo. Evaluamos numerosos MLLMs de última generación, con el modelo de mejor rendimiento, Claude-3.5 Sonnet, logrando una precisión promedio de solo el 3.37%, muy por debajo del estándar anticipado. Este trabajo tiene como objetivo proporcionar un marco de evaluación especializado para impulsar los avances en la capacidad de los MLLMs para el razonamiento espacial y la planificación compleja. El código está disponible públicamente en https://github.com/Thisisus7/ING-VP.git.
La capacidad de seguir instrucciones es una habilidad clave para los LLMs. Sin embargo, estudios recientes han demostrado que los LLMs a menudo tienen dificultades con instrucciones que contienen múltiples restricciones (por ejemplo, una solicitud para crear una publicación en redes sociales "con un tono divertido" sin "ningún hashtag"). A pesar de esto, la mayoría de las evaluaciones se centran únicamente en datos sintéticos. Para abordar esto, presentamos RealInstruct, el primer conjunto de pruebas diseñado para evaluar la capacidad de los LLMs para seguir instrucciones del mundo real con múltiples restricciones, aprovechando las consultas que los usuarios reales hicieron a los asistentes de IA. También investigamos la evaluación basada en modelos como una alternativa rentable a la anotación humana para esta tarea. Nuestros hallazgos revelan que incluso el modelo GPT-4 propietario no logra cumplir al menos una restricción en más del 21% de las instrucciones, resaltando las limitaciones de los modelos de vanguardia. Para abordar la brecha de rendimiento entre los modelos de código abierto y los propietarios, proponemos el pipeline de autocorrección Decompose, Critique and Refine (DeCRIM), que mejora la capacidad de los LLMs para seguir restricciones. DeCRIM funciona descomponiendo la instrucción original en una lista de restricciones y utilizando un modelo Crítico para decidir cuándo y dónde la respuesta del LLM necesita ser refinada. Nuestros resultados muestran que DeCRIM mejora el rendimiento de Mistral en un 7.3% en RealInstruct y un 8.0% en IFEval incluso con retroalimentación débil. Además, demostramos que con retroalimentación fuerte, los LLMs de código abierto con DeCRIM pueden superar a GPT-4 en ambos conjuntos de pruebas.
A medida que los modelos de difusión de texto a imagen se vuelven lo suficientemente avanzados para aplicaciones comerciales, también hay una creciente preocupación sobre su potencial para un uso malicioso y perjudicial. Se ha propuesto el desaprendizaje del modelo para mitigar estas preocupaciones al eliminar información no deseada y potencialmente dañina del modelo preentrenado. Hasta ahora, el éxito del desaprendizaje se mide principalmente por si el modelo desaprendido puede generar un concepto objetivo manteniendo la calidad de la imagen. Sin embargo, el desaprendizaje suele ser probado en escenarios limitados y los efectos secundarios del desaprendizaje apenas han sido estudiados en la literatura actual. En este trabajo, analizamos exhaustivamente el desaprendizaje bajo varios escenarios con cinco aspectos clave. Nuestra investigación revela que cada método tiene efectos secundarios o limitaciones, especialmente en situaciones más complejas y realistas. Al liberar nuestro marco de evaluación integral con los códigos fuente y artefactos, esperamos inspirar más investigaciones en esta área, lo que conducirá a métodos de desaprendizaje más confiables y efectivos.
Si bien los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) han integrado imágenes, adaptarlos a grafos sigue siendo un desafío, lo que limita sus aplicaciones en el diseño de materiales y fármacos. Esta dificultad surge de la necesidad de una generación autoregresiva coherente a través de textos y grafos. Para abordar esto, presentamos Llamole, el primer LLM multimodal capaz de generar de forma entrelazada texto y grafos, lo que permite el diseño inverso molecular con planificación retrosintética. Llamole integra un LLM base con el Transformador de Difusión de Grafos y Redes Neuronales de Grafos para la generación molecular multi-condicional y la inferencia de reacciones dentro de textos, mientras que el LLM, con una comprensión molecular mejorada, controla de manera flexible la activación entre los diferentes módulos de grafo. Además, Llamole integra la búsqueda A* con funciones de costo basadas en LLM para una planificación retrosintética eficiente. Creamos conjuntos de datos de referencia y realizamos experimentos extensos para evaluar Llamole frente al aprendizaje en contexto y al ajuste fino supervisado. Llamole supera significativamente a 14 LLMs adaptados en 12 métricas para el diseño molecular controlable y la planificación retrosintética.
Los sistemas de diálogo recientemente introducidos han demostrado una alta usabilidad. Sin embargo, todavía no logran reflejar escenarios de conversación del mundo real. Los sistemas de diálogo actuales muestran una incapacidad para replicar las interacciones dinámicas, continuas y a largo plazo que involucran a múltiples interlocutores. Esta deficiencia surge debido a los esfuerzos limitados para tener en cuenta ambos aspectos de los diálogos del mundo real: interacciones profundamente estructuradas a lo largo del diálogo a largo plazo y redes de conversación ampliamente expandidas que involucran a múltiples participantes. Con el esfuerzo de incorporar estos aspectos combinados, presentamos la Conversación de Sesión Mixta, un sistema de diálogo diseñado para construir conversaciones con varios interlocutores en un entorno de diálogo de múltiples sesiones. Proponemos un nuevo conjunto de datos llamado MiSC para implementar este sistema. Los episodios de diálogo de MiSC constan de 6 sesiones consecutivas, con cuatro interlocutores (un interlocutor principal y tres interlocutores) que aparecen en cada episodio. Además, proponemos un nuevo modelo de diálogo con un mecanismo de gestión de memoria novedoso, llamado Agente de Conversación de Sesión Mixta con Memoria Egocéntrica Mejorada (EMMA). EMMA recopila y retiene recuerdos desde la perspectiva del interlocutor principal durante las conversaciones con los interlocutores, lo que permite una continuidad fluida en las interacciones posteriores. Evaluaciones humanas extensas validan que los diálogos en MiSC demuestran un flujo conversacional fluido, incluso cuando los interlocutores cambian en cada sesión. EMMA entrenado con MiSC también se evalúa para mantener una alta memorabilidad sin contradicciones a lo largo de toda la conversación.
Generar una historia larga de varias miles de palabras con coherencia narrativa utilizando Modelos de Lenguaje Grandes (LLMs) ha sido una tarea desafiante. Investigaciones previas han abordado este desafío proponiendo diferentes marcos de trabajo que crean un plan de historia y generan una historia larga basada en ese plan. Sin embargo, estos marcos de trabajo se han centrado principalmente en mantener la coherencia narrativa en las historias, a menudo pasando por alto la creatividad en la planificación de historias y la expresividad de las historias generadas a partir de esos planes, que son propiedades deseables para cautivar el interés de los lectores. En este documento, proponemos el marco de trabajo Críticos Colectivos para la Generación Creativa de Historias (CritiCS), que se compone de una etapa de refinamiento del plan (CrPlan) y una etapa de generación de historia (CrText), para integrar un mecanismo de revisión colectiva que promueva esas propiedades en el proceso de generación de historias de formato largo. Específicamente, en cada etapa, un grupo de críticos LLM y un líder colaboran para refinar de manera incremental los borradores del plan y la historia a lo largo de múltiples rondas. Una extensa evaluación humana muestra que el CritiCS puede mejorar significativamente la creatividad de la historia y la participación del lector, al tiempo que mantiene la coherencia narrativa. Además, el diseño del marco de trabajo permite la participación activa de escritores humanos en cualquier rol dentro del proceso de crítica, lo que posibilita la colaboración humana-máquina interactiva en la escritura de historias.
Proponemos TextToon, un método para generar un avatar toonificado conducible. Dada una secuencia corta de video monocular y una instrucción escrita sobre el estilo del avatar, nuestro modelo puede generar un avatar toonificado de alta fidelidad que puede ser conducido en tiempo real por otro video con identidades arbitrarias. Los trabajos relacionados existentes dependen en gran medida de la modelización multi-vista para recuperar la geometría a través de incrustaciones de textura, presentadas de manera estática, lo que conduce a limitaciones de control. La entrada de video multi-vista también dificulta desplegar estos modelos en aplicaciones del mundo real. Para abordar estos problemas, adoptamos un Tri-plano de incrustación condicional para aprender representaciones faciales realistas y estilizadas en un campo de deformación gaussiano. Además, ampliamos las capacidades de estilización de Splatting gaussiano 3D mediante la introducción de una red neuronal de traducción de píxeles adaptativa y aprovechando el aprendizaje contrastivo consciente de parches para lograr imágenes de alta calidad. Para llevar nuestro trabajo a aplicaciones de consumo, desarrollamos un sistema en tiempo real que puede operar a 48 FPS en una máquina con GPU y a 15-18 FPS en una máquina móvil. Experimentos extensos demuestran la eficacia de nuestro enfoque en la generación de avatares textuales en comparación con los métodos existentes en términos de calidad y animación en tiempo real. Consulte nuestra página del proyecto para obtener más detalles: https://songluchuan.github.io/TextToon/.
El aprendizaje en contexto (ICL) es la capacidad de un modelo para aprender una nueva tarea observando unos pocos ejemplos en su contexto. Aunque es común en Procesamiento de Lenguaje Natural (NLP), esta capacidad también se ha observado recientemente en entornos de Aprendizaje por Refuerzo (RL). Sin embargo, los métodos previos de RL en contexto requieren episodios completos en el contexto del agente. Dado que entornos complejos suelen resultar en episodios largos con recompensas escasas, estos métodos están limitados a entornos simples con episodios cortos. Para abordar estos desafíos, presentamos el Transformador de Decisión con Recuperación Aumentada (RA-DT). RA-DT emplea un mecanismo de memoria externa para almacenar experiencias pasadas de las cuales recupera solo subtrayectorias relevantes para la situación actual. El componente de recuperación en RA-DT no requiere entrenamiento y puede ser completamente independiente del dominio. Evaluamos las capacidades de RA-DT en entornos de mundo en cuadrícula, simulaciones de robótica y videojuegos generados proceduralmente. En los mundos en cuadrícula, RA-DT supera a los modelos base, utilizando solo una fracción de su longitud de contexto. Además, iluminamos las limitaciones de los métodos actuales de RL en contexto en entornos complejos y discutimos direcciones futuras. Para facilitar la investigación futura, liberamos conjuntos de datos para cuatro de los entornos considerados.
La investigación construye y evalúa el potencial adversarial para introducir código copiado o recomendaciones de IA alucinadas para código malicioso en repositorios de código populares. Mientras que los modelos de lenguaje grandes (LLMs) fundamentales de OpenAI, Google y Anthropic se protegen contra comportamientos dañinos y cadenas tóxicas, trabajos previos sobre soluciones matemáticas que incrustan indicaciones dañinas demuestran que las barreras de protección pueden variar entre contextos expertos. Estas lagunas podrían aparecer en una mezcla de modelos de expertos cuando cambia el contexto de la pregunta y podrían ofrecer menos ejemplos de entrenamiento maliciosos para filtrar comentarios tóxicos o acciones ofensivas recomendadas. El presente trabajo demuestra que los modelos fundamentales pueden rechazar correctamente proponer acciones destructivas cuando se les solicita abiertamente, pero desafortunadamente podrían bajar la guardia al enfrentarse a un cambio repentino de contexto, como al resolver un desafío de programación informática. Mostramos ejemplos empíricos con repositorios que alojan troyanos como GitHub, NPM, NuGet y redes de distribución de contenido populares (CDN) como jsDelivr, que amplifican la superficie de ataque. En las directivas de los LLM para ser útiles, las recomendaciones de ejemplo proponen puntos finales de interfaz de programación de aplicaciones (API) que un especulador de dominio determinado podría adquirir e instalar una infraestructura móvil de ataque que se activa a partir del código copiado ingenuamente. Comparamos este ataque con trabajos anteriores sobre cambio de contexto y contrastamos la superficie de ataque como una versión novedosa de los ataques "living off the land" en la literatura de malware. En el último caso, los modelos de lenguaje fundamentales pueden aprovechar indicaciones de usuarios aparentemente inocentes para recomendar acciones que violan las políticas de seguridad de sus propietarios cuando se plantean directamente sin la solicitud de soporte de codificación correspondiente.
La interpretación del piano requiere un control ágil, preciso y coordinado de las manos que desafía los límites de la destreza. Los modelos de movimiento de manos con la sofisticación necesaria para recrear con precisión la interpretación del piano tienen una amplia gama de aplicaciones en animación de personajes, IA incorporada, biomecánica y RV/RA. En este documento, construimos un conjunto de datos a gran escala único en su tipo que contiene aproximadamente 10 horas de movimiento de manos en 3D y audio de 15 pianistas de élite interpretando 153 piezas de música clásica. Para capturar interpretaciones naturales, diseñamos una configuración sin marcadores en la que los movimientos se reconstruyen a partir de videos de múltiples vistas utilizando modelos de estimación de postura de última generación. Los datos de movimiento se refinan aún más a través de cinemática inversa utilizando los datos de presión de teclas MIDI de alta resolución obtenidos de sensores en un piano Yamaha Disklavier especializado. Aprovechando el conjunto de datos recopilado, desarrollamos un proceso que puede sintetizar movimientos de manos físicamente plausibles para partituras musicales fuera del conjunto de datos. Nuestro enfoque emplea una combinación de aprendizaje por imitación y aprendizaje por refuerzo para obtener políticas para el control bimanual basado en la física que implica la interacción entre las manos y las teclas del piano. Para resolver el problema de eficiencia de muestreo con el gran conjunto de datos de movimiento, utilizamos un modelo de difusión para generar movimientos de referencia naturales, que proporcionan información de trayectoria y digitación (orden y colocación de los dedos) de alto nivel. Sin embargo, el movimiento de referencia generado por sí solo no proporciona la precisión suficiente para modelar la interpretación del piano. Luego, ampliamos aún más los datos utilizando la similitud musical para recuperar movimientos similares del conjunto de datos capturado y aumentar la precisión de la política de aprendizaje por refuerzo. Con el método propuesto, nuestro modelo genera movimientos naturales y hábiles que se generalizan a la música fuera del conjunto de datos de entrenamiento.
Presentamos MLE-bench, un banco de pruebas para medir el rendimiento de los agentes de IA en ingeniería de aprendizaje automático. Para ello, recopilamos 75 competiciones relacionadas con la ingeniería de ML de Kaggle, creando un conjunto diverso de tareas desafiantes que ponen a prueba habilidades de ingeniería de ML del mundo real como entrenar modelos, preparar conjuntos de datos y ejecutar experimentos. Establecemos líneas base humanas para cada competición utilizando las clasificaciones públicas de Kaggle. Utilizamos andamios de agentes de código abierto para evaluar varios modelos de lenguaje de vanguardia en nuestro banco de pruebas, encontrando que la configuración de mejor rendimiento, OpenAI's o1-preview con andamiaje AIDE, alcanza al menos el nivel de una medalla de bronce de Kaggle en el 16.9% de las competiciones. Además de nuestros resultados principales, investigamos diversas formas de escalado de recursos para agentes de IA y el impacto de la contaminación por pre-entrenamiento. Publicamos el código de nuestro banco de pruebas de código abierto (github.com/openai/mle-bench/) para facilitar investigaciones futuras en la comprensión de las capacidades de ingeniería de ML de los agentes de IA.
En el desarrollo de software del mundo real, un manejo incorrecto o la ausencia de manejo de excepciones pueden impactar severamente la robustez y confiabilidad del código. Los mecanismos de manejo de excepciones requieren que los desarrolladores detecten, capturen y gestionen excepciones según estándares elevados, pero muchos desarrolladores tienen dificultades con estas tareas, lo que resulta en un código frágil. Este problema es particularmente evidente en proyectos de código abierto y afecta la calidad general del ecosistema de software. Para abordar este desafío, exploramos el uso de grandes modelos de lenguaje (LLMs, por sus siglas en inglés) para mejorar el manejo de excepciones en el código. A través de un análisis extenso, identificamos tres problemas clave: Detección Insensible de Código Frágil, Captura Inexacta de Tipos de Excepción y Soluciones de Manejo Distorsionadas. Estos problemas son comunes en repositorios del mundo real, lo que sugiere que las prácticas robustas de manejo de excepciones a menudo son pasadas por alto o mal gestionadas. En respuesta, proponemos Seeker, un marco de trabajo multiagente inspirado en estrategias de desarrolladores expertos para el manejo de excepciones. Seeker utiliza agentes: Escáner, Detector, Depredador, Clasificador y Manejador para ayudar a los LLMs a detectar, capturar y resolver excepciones de manera más efectiva. Nuestro trabajo es el primer estudio sistemático sobre cómo aprovechar los LLMs para mejorar las prácticas de manejo de excepciones, proporcionando ideas valiosas para futuras mejoras en la confiabilidad del código.
La consistencia multi-vista sigue siendo un desafío para los modelos de difusión de imágenes. Incluso dentro del problema Texto-a-Textura, donde las correspondencias geométricas perfectas son conocidas de antemano, muchos métodos no logran producir predicciones alineadas entre vistas, lo que hace necesario emplear métodos de fusión no triviales para incorporar los resultados en la malla original. Exploramos este problema para un flujo de trabajo de Control Colaborativo específicamente en Texto-a-Textura PBR. El Control Colaborativo modela directamente las distribuciones de probabilidad de imágenes PBR, incluyendo mapas de relieve normales; hasta donde sabemos, es el único modelo de difusión que produce directamente pilas completas de PBR. Discutimos las decisiones de diseño involucradas en hacer que este modelo sea consistente multi-vista y demostramos la efectividad de nuestro enfoque en estudios de ablación, así como en aplicaciones prácticas.
Los trastornos de salud mental son una de las enfermedades más graves en el mundo. La mayoría de las personas con este tipo de enfermedad carecen de acceso a cuidados adecuados, lo que resalta la importancia de entrenar modelos para el diagnóstico y tratamiento de trastornos de salud mental. Sin embargo, en el ámbito de la salud mental, las preocupaciones de privacidad limitan la accesibilidad de datos de tratamiento personalizados, lo que dificulta la construcción de modelos potentes. En este documento, presentamos MentalArena, un marco de autoaprendizaje para entrenar modelos de lenguaje mediante la generación de datos personalizados específicos del dominio, donde obtenemos un modelo mejorado capaz de realizar un diagnóstico y tratamiento personalizado (como terapeuta) y proporcionar información (como paciente). Para modelar con precisión pacientes de salud mental con características humanas, diseñamos el Codificador de Síntomas, que simula a un paciente real desde las perspectivas de cognición y comportamiento. Para abordar el sesgo de intención durante las interacciones paciente-terapeuta, proponemos el Decodificador de Síntomas para comparar los síntomas diagnosticados con los síntomas codificados, y gestionar dinámicamente el diálogo entre paciente y terapeuta según las desviaciones identificadas. Evaluamos MentalArena frente a 6 puntos de referencia, incluidas tareas de BiomedicalQA y salud mental, en comparación con 6 modelos avanzados. Nuestros modelos, ajustados finamente tanto en GPT-3.5 como en Llama-3-8b, superan significativamente a sus contrapartes, incluido GPT-4o. Esperamos que nuestro trabajo pueda inspirar futuras investigaciones sobre cuidados personalizados. El código está disponible en https://github.com/Scarelette/MentalArena/tree/main
Este documento presenta TinyEmo, una familia de modelos de lenguaje multimodales pequeños para razonamiento y clasificación emocional. Nuestro enfoque incluye: (1) un conjunto de datos sintéticos de instrucciones emocionales para las etapas de pre-entrenamiento y ajuste fino, (2) un Proyector Métrico que delega la clasificación desde el modelo de lenguaje permitiendo un entrenamiento e inferencia más eficientes, (3) un modelo de lenguaje multimodal grande (MM-LLM) para razonamiento emocional, y (4) un marco semi-automatizado para la detección de sesgos. TinyEmo es capaz de realizar clasificación emocional y razonamiento emocional, todo mientras utiliza sustancialmente menos parámetros que modelos comparables. Esta eficiencia nos permite incorporar libremente conjuntos de datos emocionales más diversos, lo que posibilita un rendimiento sólido en tareas de clasificación, con nuestro modelo más pequeño (700M parámetros) superando a modelos más grandes de vanguardia basados en MM-LLMs de propósito general con más de 7B parámetros. Además, el Proyector Métrico permite la interpretabilidad y la detección indirecta de sesgos en modelos grandes sin entrenamiento adicional, ofreciendo un enfoque para comprender y mejorar los sistemas de IA. Publicamos el código, los modelos y el conjunto de datos en https://github.com/ggcr/TinyEmo
Los recientes avances de los modelos de lenguaje grandes (LLMs) han dado lugar a afirmaciones de que la IA está superando a los humanos en tareas de procesamiento de lenguaje natural (NLP) como comprensión textual y razonamiento. Este trabajo investiga estas afirmaciones al presentar CAIMIRA, un marco novedoso basado en la teoría de respuesta al ítem (IRT) que permite la evaluación cuantitativa y comparativa de las habilidades de resolución de problemas de agentes de pregunta-respuesta (QA): humanos y sistemas de IA. A través del análisis de más de 300,000 respuestas de ~70 sistemas de IA y 155 humanos en miles de preguntas de cuestionarios, CAIMIRA descubre patrones distintivos de competencia en dominios de conocimiento y habilidades de razonamiento. Los humanos superan a los sistemas de IA en razonamiento abductivo fundamentado en el conocimiento y conceptual, mientras que los LLMs de última generación como GPT-4 y LLaMA muestran un rendimiento superior en la recuperación de información específica y razonamiento basado en hechos, especialmente cuando las lagunas de información están bien definidas y pueden abordarse mediante coincidencia de patrones o recuperación de datos. Estos hallazgos resaltan la necesidad de que las futuras tareas de QA se centren en preguntas que desafíen no solo el razonamiento de orden superior y el pensamiento científico, sino que también exijan una interpretación lingüística matizada y la aplicación de conocimientos contextuales cruzados, ayudando a avanzar en el desarrollo de IA que emule o complemente mejor las habilidades cognitivas humanas en la resolución de problemas del mundo real.
Los modelos de incrustación han sido cruciales para permitir diversas tareas posteriores como similitud semántica, recuperación de información y agrupamiento. Recientemente, ha habido un aumento de interés en desarrollar modelos de incrustación de texto universales que puedan generalizarse a través de tareas (por ejemplo, MTEB). Sin embargo, el progreso en el aprendizaje de modelos de incrustación multimodales universales ha sido relativamente lento a pesar de su importancia. En este trabajo, nuestro objetivo es explorar el potencial para construir incrustaciones universales capaces de manejar una amplia gama de tareas posteriores. Nuestras contribuciones son dobles: (1) MMEB (Banco de Pruebas de Incrustación Multimodal Masivo), que abarca 4 meta-tareas (es decir, clasificación, respuesta a preguntas visuales, recuperación multimodal y fundamentación visual) y 36 conjuntos de datos, incluidos 20 conjuntos de entrenamiento y 16 conjuntos de evaluación, y (2) VLM2Vec (Modelo Visión-Lenguaje -> Vector), un marco de entrenamiento contrastivo que convierte cualquier modelo de visión-lenguaje de vanguardia en un modelo de incrustación mediante el entrenamiento en MMEB. A diferencia de modelos anteriores como CLIP y BLIP, VLM2Vec puede procesar cualquier combinación de imágenes y texto para generar un vector de dimensionalidad fija basado en las instrucciones de la tarea. Construimos una serie de modelos VLM2Vec en Phi-3.5-V y los evaluamos en la división de evaluación de MMEB. Nuestros resultados muestran que el modelo logra una mejora promedio absoluta del 10% al 20% sobre los modelos de incrustación multimodales existentes tanto en conjuntos de datos dentro como fuera de distribución en MMEB.
Los benchmarks actuales para evaluar modelos de visión y lenguaje (VLMs) a menudo se centran en sus capacidades de percepción o resolución de problemas y descuidan otros aspectos críticos como la equidad, la multilingüidad o la toxicidad. Además, difieren en sus procedimientos de evaluación y el alcance de la evaluación, lo que dificulta comparar los modelos. Para abordar estos problemas, ampliamos el marco HELM a los VLMs para presentar la Evaluación Holística de Modelos de Visión y Lenguaje (VHELM). VHELM agrega varios conjuntos de datos para cubrir uno o más de los 9 aspectos: percepción visual, conocimiento, razonamiento, sesgo, equidad, multilingüidad, robustez, toxicidad y seguridad. Al hacerlo, obtenemos una vista integral y multidimensional de las capacidades de los VLMs en estos factores importantes. Además, estandarizamos los parámetros de inferencia estándar, los métodos de estímulo y las métricas de evaluación para permitir comparaciones justas entre modelos. Nuestro marco está diseñado para ser ligero y automático, de modo que las ejecuciones de evaluación sean económicas y rápidas. Nuestra ejecución inicial evalúa 22 VLMs en 21 conjuntos de datos existentes para proporcionar una instantánea holística de los modelos. Descubrimos nuevos hallazgos clave, como el hecho de que los modelos centrados en la eficiencia (por ejemplo, Claude 3 Haiku o Gemini 1.5 Flash) tienen un rendimiento significativamente peor que sus modelos completos (por ejemplo, Claude 3 Opus o Gemini 1.5 Pro) en el benchmark de sesgo, pero no cuando se evalúan en los otros aspectos. Para mayor transparencia, publicamos las generaciones de modelos en bruto y los resultados completos en nuestro sitio web (https://crfm.stanford.edu/helm/vhelm/v2.0.1). VHELM tiene como objetivo ser un benchmark en evolución, y esperamos seguir añadiendo nuevos conjuntos de datos y modelos con el tiempo.
Los modelos de lenguaje grandes (LLMs) centrados en el inglés a menudo muestran sólidas capacidades multilingües. Sin embargo, el rendimiento multilingüe de estos modelos sigue siendo incierto y no se evalúa exhaustivamente para muchos idiomas. La mayoría de los puntos de referencia para la multilingüidad se centran en tareas clásicas de PNL, o abarcan un número mínimo de idiomas. Presentamos MEXA, un método para evaluar las capacidades multilingües de LLMs pre-entrenados centrados en el inglés utilizando oraciones paralelas, disponibles para más idiomas que las tareas posteriores existentes. MEXA aprovecha el hecho de que los LLMs centrados en el inglés utilizan el inglés como una especie de idioma pivote en sus capas intermedias. Calcula la alineación entre el inglés y los idiomas no ingleses utilizando oraciones paralelas para evaluar la transferencia de comprensión del lenguaje del inglés a otros idiomas. Esta alineación se puede utilizar para estimar el rendimiento del modelo en otros idiomas. Realizamos estudios utilizando varios conjuntos de datos paralelos (FLORES-200 y la Biblia), modelos (familia Llama, familia Gemma, Mistral y OLMo), y tareas posteriores establecidas (Belebele, m-MMLU y m-ARC). Exploramos diferentes métodos para calcular incrustaciones en modelos de solo decodificador. Nuestros resultados muestran que MEXA, en su configuración predeterminada, logra una correlación de Pearson promedio estadísticamente significativa de 0.90 con tres tareas posteriores establecidas en nueve modelos y dos conjuntos de datos paralelos. Esto sugiere que MEXA es un método confiable para estimar las capacidades multilingües de los LLMs centrados en el inglés, proporcionando una comprensión más clara de su potencial multilingüe y el funcionamiento interno de los LLMs. Tabla de clasificación: https://huggingface.co/spaces/cis-lmu/Mexa, Código: https://github.com/cisnlp/Mexa.
Una ventaja esencial de las redes neuronales recurrentes (RNN) sobre los modelos de lenguaje basados en transformadores es su complejidad computacional lineal con respecto a la longitud de la secuencia, lo que las hace mucho más rápidas para manejar secuencias largas durante la inferencia. Sin embargo, la mayoría de las RNN disponibles públicamente (por ejemplo, Mamba y RWKV) están entrenadas en secuencias con menos de 10K tokens, y su efectividad en contextos más largos sigue siendo en gran medida insatisfactoria hasta ahora. En este artículo, estudiamos la causa de la incapacidad de procesar contextos largos para las RNN y sugerimos mitigaciones críticas. Examinamos dos preocupaciones prácticas al aplicar RNN de última generación a contextos largos: (1) la incapacidad de extrapolar a entradas más largas que la longitud de entrenamiento y (2) el límite superior de la capacidad de memoria. Para abordar la primera preocupación, investigamos primero el *colapso de estado* (SC), un fenómeno que causa una degradación severa del rendimiento en longitudes de secuencia no encontradas durante el entrenamiento. Con experimentos controlados, atribuimos esto al sobreajuste debido a que el estado recurrente está sobreparametrizado para la longitud de entrenamiento. Para la segunda preocupación, entrenamos una serie de modelos Mamba-2 en documentos largos para estimar empíricamente la capacidad del estado recurrente en modelado de lenguaje y recuperación de clave. Luego, se proponen tres métodos de mitigación de SC para mejorar la capacidad de generalización de longitud de Mamba-2, permitiendo que el modelo procese más de 1M tokens sin SC. También encontramos que la capacidad del estado recurrente en la recuperación de clave escala de manera exponencial con el tamaño del estado, y entrenamos empíricamente un Mamba-2 370M con una precisión de recuperación de clave casi perfecta en una longitud de contexto de 256K. Esto sugiere un futuro prometedor para el modelado de contextos largos basado en RNN.
Aún no. Presentamos SPACE, un banco de pruebas que evalúa sistemáticamente la cognición espacial en modelos de vanguardia. Nuestro banco de pruebas se basa en décadas de investigación en ciencias cognitivas. Evalúa habilidades de mapeo a gran escala que se ponen en juego cuando un organismo atraviesa entornos físicos, razonamientos a menor escala sobre formas y disposiciones de objetos, e infraestructuras cognitivas como la atención espacial y la memoria. Para muchas tareas, instanciamos presentaciones paralelas a través de texto e imágenes, lo que nos permite evaluar tanto grandes modelos de lenguaje como grandes modelos multimodales. Los resultados sugieren que los modelos de vanguardia contemporáneos no alcanzan la inteligencia espacial de los animales, teniendo un rendimiento cercano al azar en varias pruebas clásicas de cognición animal.