Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos un nuevo enfoque para mapear sistemáticamente las características descubiertas por un autoencoder disperso a lo largo de capas consecutivas de grandes modelos de lenguaje, ampliando trabajos anteriores que examinaron enlaces de características entre capas. Al utilizar una técnica de similitud coseno sin datos, rastreamos cómo características específicas persisten, se transforman o aparecen por primera vez en cada etapa. Este método produce gráficos detallados del flujo de evolución de características, permitiendo una interpretabilidad detallada y percepciones mecanicistas sobre las computaciones del modelo. Crucialmente, demostramos cómo estos mapas de características entre capas facilitan la dirección directa del comportamiento del modelo al amplificar o suprimir características elegidas, logrando un control temático específico en la generación de texto. En conjunto, nuestros hallazgos resaltan la utilidad de un marco de interpretabilidad causal entre capas que no solo aclara cómo se desarrollan las características a través de pasos hacia adelante, sino que también proporciona nuevos medios para la manipulación transparente de grandes modelos de lenguaje.
Presentamos AlphaGeometry2, una versión significativamente mejorada de AlphaGeometry presentada por Trinh et al. (2024), que ha superado a un medallista de oro promedio en la resolución de problemas de geometría olímpica. Para lograr esto, primero ampliamos el lenguaje original de AlphaGeometry para abordar problemas más difíciles que involucran movimientos de objetos, y problemas que contienen ecuaciones lineales de ángulos, proporciones y distancias. Esto, junto con otras adiciones, ha mejorado notablemente la tasa de cobertura del lenguaje AlphaGeometry en los problemas de geometría de las Olimpiadas Internacionales de Matemáticas (IMO) de 2000 a 2024, pasando del 66% al 88%. El proceso de búsqueda de AlphaGeometry2 también se ha mejorado considerablemente mediante el uso de la arquitectura Gemini para un mejor modelado del lenguaje, y un mecanismo novedoso de intercambio de conocimientos que combina múltiples árboles de búsqueda. Junto con mejoras adicionales en el motor simbólico y la generación de datos sintéticos, hemos aumentado significativamente la tasa general de resolución de AlphaGeometry2 al 84% para todos los problemas de geometría en los últimos 25 años, en comparación con el 54% anteriormente. AlphaGeometry2 también formó parte del sistema que alcanzó el estándar de medalla de plata en la IMO 2024. Por último, informamos sobre el progreso hacia el uso de AlphaGeometry2 como parte de un sistema completamente automatizado que resuelve de manera confiable problemas de geometría directamente a partir de entradas en lenguaje natural.
¿Las representaciones ricas de los transformadores de difusión multimodal (DiTs) exhiben propiedades únicas que mejoran su interpretabilidad? Presentamos ConceptAttention, un método novedoso que aprovecha el poder expresivo de las capas de atención de DiT para generar mapas de prominencia de alta calidad que localizan con precisión conceptos textuales dentro de imágenes. Sin necesidad de entrenamiento adicional, ConceptAttention reutiliza los parámetros de las capas de atención de DiT para producir incrustaciones de conceptos altamente contextualizadas, aportando el importante descubrimiento de que realizar proyecciones lineales en el espacio de salida de las capas de atención de DiT produce mapas de prominencia significativamente más nítidos en comparación con mecanismos de atención cruzada comúnmente utilizados. Notablemente, ConceptAttention incluso logra un rendimiento de vanguardia en bancos de pruebas de segmentación de imágenes de cero disparos, superando a otros 11 métodos de interpretabilidad de cero disparos en el conjunto de datos de Segmentación de ImageNet y en un subconjunto de una sola clase de PascalVOC. Nuestro trabajo aporta la primera evidencia de que las representaciones de modelos multimodales de DiT como Flux son altamente transferibles a tareas de visión como la segmentación, incluso superando a modelos fundamentales multimodales como CLIP.
A medida que avanzan las capacidades del Modelo de Lenguaje (LM), evaluar y supervisarlos a gran escala se vuelve más difícil para los humanos. Existe la esperanza de que otros modelos de lenguaje puedan automatizar ambas tareas, a las que nos referimos como "Supervisión de IA". Estudiamos cómo la similitud entre modelos afecta ambos aspectos de la supervisión de IA al proponer una métrica probabilística para la similitud de LM basada en la superposición de errores del modelo. Utilizando esta métrica, primero demostramos que las puntuaciones de LLM-como-juez favorecen a los modelos similares al juez, generalizando resultados recientes de auto-preferencia. Luego, estudiamos el entrenamiento en anotaciones de LM y encontramos que el conocimiento complementario entre el supervisor débil y el modelo estudiante fuerte desempeña un papel crucial en las ganancias de "generalización de débil a fuerte". A medida que las capacidades del modelo aumentan, se vuelve más difícil encontrar sus errores, y es posible que deleguemos más en la supervisión de IA. Sin embargo, observamos una tendencia preocupante: los errores del modelo se vuelven más similares con capacidades crecientes, lo que señala riesgos de fallos correlacionados. Nuestro trabajo subraya la importancia de informar y corregir la similitud entre modelos, especialmente en el paradigma emergente de la supervisión de IA.
Los avances recientes en modelos de lenguaje grandes, especialmente tras GPT-4o, han generado un creciente interés en desarrollar modelos omni-modales capaces de comprender más modalidades. Aunque han surgido algunas alternativas de código abierto, aún existe un notable rezago en cuanto al rendimiento en comparación con modelos especializados de una sola modalidad. En este artículo, presentamos Ola, un modelo de lenguaje omni-modal que logra un rendimiento competitivo en la comprensión de imágenes, videos y audio en comparación con contrapartes especializadas. El diseño central de Ola radica en su estrategia progresiva de alineación de modalidades que extiende progresivamente la modalidad de soporte del modelo de lenguaje. Nuestro proceso de entrenamiento comienza con las modalidades más distintas: imagen y texto, para luego expandir gradualmente las habilidades del modelo utilizando datos de habla que conectan el conocimiento del lenguaje y el audio, y datos de video que conectan todas las modalidades. El proceso de aprendizaje progresivo también nos permite mantener un tamaño relativamente pequeño de los datos de alineación cruzada de modalidades, facilitando el desarrollo de modelos omni-modales a partir de modelos existentes de visión-lenguaje de manera sencilla y menos costosa. Además, para desbloquear una experiencia interactiva avanzada como GPT-4o, diseñamos una solución de decodificación por oraciones para la generación de habla en tiempo real. Experimentos extensos demuestran que Ola supera a los LLMs omni-modales abiertos existentes en todas las modalidades, logrando un rendimiento altamente competitivo en comparación con modelos especializados de tamaño similar de última generación. Nuestro objetivo es convertir a Ola en una solución de comprensión omni-modal totalmente abierta para avanzar en la investigación futura en este campo emergente. Los pesos del modelo, el código y los datos están disponibles en código abierto en https://github.com/Ola-Omni/Ola.
Presentamos un método para aumentar videos del mundo real con contenido dinámico recién generado. Dado un video de entrada y una instrucción de texto simple proporcionada por el usuario que describe el contenido deseado, nuestro método sintetiza objetos dinámicos o efectos de escena complejos que interactúan de forma natural con la escena existente a lo largo del tiempo. La posición, apariencia y movimiento del nuevo contenido se integran perfectamente en la grabación original teniendo en cuenta el movimiento de la cámara, las oclusiones y las interacciones con otros objetos dinámicos en la escena, lo que resulta en un video de salida cohesivo y realista. Logramos esto a través de un marco de trabajo sin entrenamiento de cero disparos que aprovecha un transformador de difusión texto a video pre-entrenado para sintetizar el nuevo contenido y un Modelo de Visión y Lenguaje pre-entrenado para visualizar la escena aumentada en detalle. Específicamente, presentamos un método novedoso basado en inferencia que manipula características dentro del mecanismo de atención, lo que permite una localización precisa e integración perfecta del nuevo contenido mientras se preserva la integridad de la escena original. Nuestro método es completamente automatizado, requiriendo solo una instrucción simple del usuario. Demostramos su efectividad en una amplia gama de ediciones aplicadas a videos del mundo real, que abarcan objetos diversos y escenarios que involucran tanto el movimiento de la cámara como de objetos.
Los avances recientes en modelos de lenguaje grandes basados en texto (LLMs, por sus siglas en inglés), particularmente en la serie GPT y el modelo o1, han demostrado la efectividad de escalar tanto el cálculo en tiempo de entrenamiento como en tiempo de inferencia. Sin embargo, los sistemas TTS de vanguardia que aprovechan los LLMs son frecuentemente multi-etapa, requiriendo modelos separados (por ejemplo, modelos de difusión después del LLM), lo que complica la decisión de si escalar un modelo en particular durante el entrenamiento o las pruebas. Este trabajo realiza las siguientes contribuciones: En primer lugar, exploramos la escalabilidad del cálculo en tiempo de entrenamiento y en tiempo de inferencia para la síntesis del habla. En segundo lugar, proponemos un marco simple llamado Llasa para la síntesis del habla que emplea un codificador de vector cuantizado (VQ) de una sola capa y una arquitectura de Transformer única para alinearse completamente con los LLMs estándar como Llama. Nuestros experimentos revelan que escalar el cálculo en tiempo de entrenamiento para Llasa mejora consistentemente la naturalidad del habla sintetizada y permite la generación de patrones prosódicos más complejos y precisos. Además, desde la perspectiva de la escalabilidad del cálculo en tiempo de inferencia, empleamos modelos de comprensión del habla como verificadores durante la búsqueda, encontrando que escalar el cálculo en tiempo de inferencia desplaza los modos de muestreo hacia las preferencias de verificadores específicos, mejorando así la expresividad emocional, la consistencia del timbre y la precisión del contenido. Además, hemos publicado públicamente el punto de control y el código de entrenamiento para nuestro modelo TTS (1B, 3B, 8B) y el modelo de codificador.
La capacidad de seguir instrucciones ha convertido a los modernos modelos de lenguaje de gran escala (LLM) en asistentes útiles. Sin embargo, el secreto para controlar a los LLM en instrucciones complejas sigue siendo un misterio, ya que existen brechas enormes entre los modelos entrenados por la comunidad de código abierto y aquellos entrenados por empresas líderes. Para cerrar esta brecha, proponemos un enfoque simple y escalable llamado UltraIF para construir LLM que puedan seguir instrucciones complejas utilizando datos de código abierto. UltraIF descompone primero las solicitudes de usuarios del mundo real en consultas más simples, restricciones y preguntas de evaluación correspondientes para las restricciones. Luego, entrenamos un UltraComposer para componer solicitudes asociadas a restricciones con preguntas de evaluación. Este compositor de solicitudes nos permite sintetizar instrucciones complicadas y filtrar respuestas con preguntas de evaluación. En nuestro experimento, por primera vez, logramos alinear LLaMA-3.1-8B-Base con su versión instructiva en 5 bancos de pruebas de seguimiento de instrucciones sin ninguna información de referencia, utilizando solo el modelo de 8B como generador y evaluador de respuestas. El modelo alineado también obtuvo puntuaciones competitivas en otros bancos de pruebas. Además, demostramos que UltraIF podría mejorar aún más LLaMA-3.1-8B-Instruct a través de la autoalineación, lo que fomenta casos de uso más amplios para el método. Nuestro código estará disponible en https://github.com/kkk-an/UltraIF.
Los modelos de lenguaje grandes (LLMs), como o1 de OpenAI, han demostrado notables capacidades de razonamiento. o1 genera una larga cadena de pensamiento (LongCoT) antes de responder una pregunta. LongCoT permite a los LLMs analizar problemas, idear planes, reflexionar y retroceder de manera efectiva. Estas acciones capacitan a los LLMs para resolver problemas complejos. Tras el lanzamiento de o1, muchos equipos han intentado replicar su LongCoT y capacidades de razonamiento. En cuanto a los métodos, principalmente se basan en destilación de conocimiento con datos de modelos existentes con capacidades LongCoT (por ejemplo, OpenAI-o1, Qwen-QwQ, DeepSeek-R1-Preview), lo que deja incertidumbres significativas sobre el desarrollo sistemático de tales habilidades de razonamiento. En cuanto a los dominios de datos, estos trabajos se centran estrechamente en matemáticas, mientras que algunos incluyen programación, limitando su generalizabilidad. Este artículo presenta un enfoque novedoso para habilitar la capacidad LongCoT de los LLMs sin destilación de modelos similares a o1 o anotaciones humanas costosas, donde bootstrap LongCoT (BOLT) a partir de un modelo instructivo estándar. BOLT involucra tres etapas: 1) arranque de datos LongCoT con aprendizaje en contexto en un modelo instructivo estándar; 2) ajuste fino supervisado de LongCoT; 3) entrenamiento en línea para refinar aún más las capacidades LongCoT. En BOLT, solo se necesitan construir unos pocos ejemplos en contexto durante la etapa de arranque; en nuestros experimentos, creamos 10 ejemplos, demostrando la viabilidad de este enfoque. Utilizamos Llama-3.1-70B-Instruct para arrancar LongCoT y aplicamos nuestro método a diversas escalas de modelos (7B, 8B, 70B). Logramos un rendimiento impresionante en una variedad de pruebas, Arena-Hard, MT-Bench, WildBench, ZebraLogic, MATH500, que evalúan diversas capacidades de resolución de tareas y razonamiento.
El objetivo de los modelos generativos de difusión es alinear la distribución aprendida con la distribución de datos reales a través del emparejamiento de puntuaciones de gradiente. Sin embargo, limitaciones inherentes en la calidad de los datos de entrenamiento, estrategias de modelado y diseño arquitectónico conducen a una brecha inevitable entre las salidas generadas y los datos reales. Para reducir esta brecha, proponemos Difusión de Débil a Fuerte (W2SD), un marco novedoso que utiliza la diferencia estimada entre modelos débiles y fuertes existentes (es decir, diferencia de débil a fuerte) para aproximar la brecha entre un modelo ideal y un modelo fuerte. Al emplear una operación reflexiva que alterna entre el desruido y la inversión con la diferencia de débil a fuerte, comprendemos teóricamente que W2SD dirige variables latentes a lo largo de trayectorias de muestreo hacia regiones de la distribución de datos reales. W2SD es altamente flexible y ampliamente aplicable, permitiendo diversas mejoras a través de la selección estratégica de pares de modelos de débil a fuerte (por ejemplo, DreamShaper vs. SD1.5, buenos expertos vs. malos expertos en MoE). Experimentos extensos demuestran que W2SD mejora significativamente la preferencia humana, la calidad estética y la adherencia a las indicaciones, logrando un rendimiento de vanguardia en diversas modalidades (por ejemplo, imagen, video), arquitecturas (por ejemplo, basadas en UNet, basadas en DiT, MoE) y pruebas comparativas. Por ejemplo, Juggernaut-XL con W2SD puede mejorar la tasa de victorias de HPSv2 hasta un 90% sobre los resultados originales. Además, las mejoras de rendimiento logradas por W2SD superan notablemente su sobrecarga computacional adicional, mientras que las mejoras acumulativas de diferentes diferencias de débil a fuerte refuerzan aún más su utilidad práctica y despliegue.
A pesar de las notables capacidades de los grandes modelos de lenguaje en diversas tareas, su continuo escalado enfrenta un desafío crítico: la escasez de datos de preentrenamiento de alta calidad. Mientras las arquitecturas de los modelos siguen evolucionando, los datos de lenguaje natural luchan por escalar. Para abordar este cuello de botella, proponemos el método de reformulación MAsiva de Género-Audiencia (MAGA), que sintetiza sistemáticamente datos de preentrenamiento diversos y ricos en contexto a partir de un corpus existente. Este trabajo realiza tres contribuciones principales: (1) Proponemos el método de reformulación MAGA, un enfoque ligero y escalable para la expansión de corpus de preentrenamiento, y construimos un corpus MAGA de 770 mil millones de tokens. (2) Evaluamos el corpus MAGA con diferentes estrategias de escalado de presupuesto de datos, demostrando mejoras consistentes en diversos tamaños de modelo (134M-13B), estableciendo la necesidad de modelos de lenguaje de preentrenamiento sintético a gran escala de próxima generación. (3) A través de un análisis exhaustivo, investigamos el impacto del diseño de indicaciones en el colapso del entrenamiento sintético y revelamos limitaciones en las métricas convencionales de detección de colapso utilizando pérdidas de validación. Nuestro trabajo muestra que MAGA puede expandir sustancialmente los conjuntos de datos de entrenamiento manteniendo la calidad, ofreciendo un camino confiable para escalar modelos más allá de las limitaciones de datos.
Investigaciones recientes han aprovechado sistemas multiagente de grandes modelos de lenguaje para resolver problemas complejos, al mismo tiempo que intentan reducir el esfuerzo manual requerido para construirlos, impulsando el desarrollo de métodos de optimización de flujos de trabajo de agentes automatizados. Sin embargo, los métodos existentes siguen siendo inflexibles debido a limitaciones representacionales, falta de adaptabilidad y escasa escalabilidad al depender de técnicas de optimización discreta. Abordamos estos desafíos con ScoreFlow, un marco simple pero de alto rendimiento que aprovecha una optimización eficiente basada en gradientes en un espacio continuo. ScoreFlow incorpora Score-DPO, una nueva variante del método de optimización de preferencias directas que tiene en cuenta la retroalimentación cuantitativa. A lo largo de seis pruebas que abarcan desde respuestas a preguntas, codificación y razonamiento matemático, ScoreFlow logra una mejora del 8.2% sobre los puntos de referencia existentes. Además, permite que modelos más pequeños superen a los más grandes con costos de inferencia más bajos. Proyecto: https://github.com/Gen-Verse/ScoreFlow
Este documento presenta un método que permite a los usuarios diseñar tomas de video cinematográfico en el contexto de la generación de imagen a video. El diseño de tomas, un aspecto crítico de la realización cinematográfica, implica planificar meticulosamente tanto los movimientos de cámara como los movimientos de objetos en una escena. Sin embargo, habilitar un diseño de tomas intuitivo en los sistemas modernos de generación de imagen a video presenta dos desafíos principales: primero, capturar efectivamente las intenciones del usuario sobre el diseño del movimiento, donde tanto los movimientos de cámara como los movimientos de objetos en el espacio de la escena deben especificarse conjuntamente; y segundo, representar información de movimiento que pueda ser utilizada efectivamente por un modelo de difusión de video para sintetizar las animaciones de imagen. Para abordar estos desafíos, presentamos MotionCanvas, un método que integra controles impulsados por el usuario en modelos de generación de imagen a video, permitiendo a los usuarios controlar tanto los movimientos de objetos como de cámara de manera consciente de la escena. Al conectar ideas de gráficos por computadora clásicos y técnicas contemporáneas de generación de video, demostramos la capacidad de lograr un control de movimiento consciente en 3D en la síntesis de imagen a video sin necesidad de datos de entrenamiento costosos relacionados con 3D. MotionCanvas permite a los usuarios representar de manera intuitiva las intenciones de movimiento en el espacio de la escena, y traducirlas en señales de condicionamiento de movimiento espacio-temporal para modelos de difusión de video. Demostramos la efectividad de nuestro método en una amplia gama de contenidos de imagen del mundo real y escenarios de diseño de tomas, resaltando su potencial para mejorar los flujos de trabajo creativos en la creación de contenido digital y adaptarse a diversas aplicaciones de edición de imagen y video.
La generación y edición de movimientos humanos son componentes clave de la gráfica por computadora y la visión. Sin embargo, los enfoques actuales en este campo tienden a ofrecer soluciones aisladas adaptadas a tareas específicas, lo que puede ser ineficiente e impráctico para aplicaciones del mundo real. Aunque algunos esfuerzos han buscado unificar tareas relacionadas con el movimiento, estos métodos simplemente utilizan diferentes modalidades como condiciones para guiar la generación de movimientos. En consecuencia, carecen de capacidades de edición, control detallado y no facilitan el intercambio de conocimientos entre tareas. Para abordar estas limitaciones y proporcionar un marco unificado versátil capaz de manejar tanto la generación como la edición de movimientos humanos, presentamos un nuevo paradigma: Movimiento-Condición-Movimiento, que permite la formulación unificada de diversas tareas con tres conceptos: movimiento fuente, condición y movimiento objetivo. Basándonos en este paradigma, proponemos un marco unificado, MotionLab, que incorpora flujos rectificados para aprender la correspondencia del movimiento fuente al movimiento objetivo, guiado por las condiciones especificadas. En MotionLab, introducimos 1) el Transformador de Flujo de Movimiento para mejorar la generación condicional y la edición sin módulos específicos de tarea; 2) Codificación de Posición Rotacional Alineada para garantizar la sincronización temporal entre el movimiento fuente y el movimiento objetivo; 3) Modulación de Instrucciones Específicas de Tarea; y 4) Aprendizaje Curricular de Movimiento para un aprendizaje multi-tarea efectivo y el intercambio de conocimientos entre tareas. Notablemente, nuestro MotionLab demuestra prometedoras capacidades de generalización y eficiencia de inferencia en múltiples referencias para el movimiento humano. Nuestro código y resultados de video adicionales están disponibles en: https://diouo.github.io/motionlab.github.io/.
Los Modelos de Lenguaje Grandes (LLMs) han demostrado una capacidad significativa en diversas tareas, con su efectividad en el mundo real a menudo impulsada por el diseño de la indicación. Mientras que la investigación reciente se ha centrado en optimizar el contenido de la indicación, el papel del formato de la indicación, una dimensión crítica pero a menudo pasada por alto, ha recibido una investigación sistemática limitada. En este documento, presentamos la Optimización Integrada de Contenido-Formato de la Indicación (CFPO), una metodología innovadora que optimiza conjuntamente tanto el contenido como el formato de la indicación a través de un proceso de refinamiento iterativo. CFPO aprovecha las mutaciones del lenguaje natural para explorar variaciones de contenido y emplea una estrategia dinámica de exploración de formato que evalúa sistemáticamente diversas opciones de formato. Nuestras extensas evaluaciones en diversas tareas y LLMs de código abierto demuestran que CFPO muestra mejoras de rendimiento medibles en comparación con los métodos de optimización solo de contenido. Esto resalta la importancia de la optimización integrada de contenido-formato y ofrece un enfoque práctico y agnóstico del modelo para mejorar el rendimiento de los LLMs. El código estará disponible en https://github.com/HenryLau7/CFPO.
A medida que los modelos de lenguaje grandes impulsan cada vez más aplicaciones del mundo real, alinearlos con los valores humanos se vuelve fundamental. El Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF) ha surgido como una técnica clave, traduciendo datos de preferencia en modelos de recompensa cuando los valores humanos oráculo permanecen inaccesibles. En la práctica, el RLHF se basa principalmente en modelos de recompensa aproximados, los cuales pueden no guiar consistentemente la política hacia la maximización de los valores humanos subyacentes. Proponemos Aprendizaje Interpolado de Políticas para Retroalimentación Alineada (PILAF), una novedosa estrategia de muestreo de respuestas para etiquetado de preferencias que alinea explícitamente el aprendizaje de preferencias con la maximización de la recompensa oráculo subyacente. PILAF está fundamentado teóricamente, demostrando optimalidad desde una perspectiva tanto de optimización como estadística. El método es sencillo de implementar y muestra un rendimiento sólido en entornos iterativos y en línea de RLHF donde la curación de la retroalimentación es crítica.
Presentamos un nuevo marco de generación de videos que integra geometría tridimensional y conciencia dinámica. Para lograr esto, aumentamos videos 2D con trayectorias de puntos 3D y las alineamos en el espacio de píxeles. El conjunto de datos de video 3D consciente resultante, PointVid, se utiliza luego para ajustar finamente un modelo de difusión latente, permitiéndole rastrear objetos 2D con coordenadas cartesianas 3D. Basándonos en esto, regularizamos la forma y el movimiento de objetos en el video para eliminar artefactos no deseados, como deformaciones no físicas. En consecuencia, mejoramos la calidad de los videos RGB generados y aliviamos problemas comunes como la morfología de objetos, que son frecuentes en los modelos de video actuales debido a la falta de conciencia de forma. Con nuestra ampliación y regularización 3D, nuestro modelo es capaz de manejar escenarios ricos en contacto, como videos orientados a tareas. Estos videos involucran interacciones complejas de sólidos, donde la información 3D es esencial para percibir la deformación y el contacto. Además, nuestro modelo mejora la calidad general de la generación de video al promover la consistencia 3D de objetos en movimiento y reducir cambios abruptos en forma y movimiento.
Los Modelos de Lenguaje Grandes (LLMs) pueden realizar tareas de pregunta-respuesta en gráficos, pero a menudo generan respuestas alucinadas no verificadas. Los métodos de atribución de respuestas existentes tienen dificultades para fundamentar las respuestas en los gráficos fuente debido al contexto visual-semántico limitado, los requisitos complejos de alineación visual-texto y las dificultades en la predicción de cuadros delimitadores en disposiciones complejas. Presentamos ChartCitor, un marco multiagente que proporciona citas de cuadros delimitadores detalladas al identificar evidencia de respaldo dentro de imágenes de gráficos. El sistema coordina agentes LLM para realizar extracción de gráfico a tabla, reformulación de respuestas, ampliación de tablas, recuperación de evidencia mediante prefiltrado y reordenamiento, y mapeo de tabla a gráfico. ChartCitor supera a las líneas de base existentes en diferentes tipos de gráficos. Estudios cualitativos de usuarios muestran que ChartCitor ayuda a aumentar la confianza del usuario en la IA Generativa al proporcionar una explicabilidad mejorada para la pregunta-respuesta asistida por LLM en gráficos y permite que los profesionales sean más productivos.
Proponemos Autoregresión Enmascarada Heterogénea (HMA, por sus siglas en inglés) para modelar la dinámica de videos de acción con el fin de generar datos de alta calidad y evaluar el escalado del aprendizaje de robots. Construir modelos interactivos del mundo de video y políticas para robótica es difícil debido al desafío de manejar entornos diversos manteniendo la eficiencia computacional para funcionar en tiempo real. HMA utiliza pre-entrenamiento heterogéneo a partir de observaciones y secuencias de acción a través de diferentes encarnaciones robóticas, dominios y tareas. HMA emplea autoregresión enmascarada para generar tokens cuantificados o suaves para predicciones de video. HMA logra una mejor fidelidad visual y controlabilidad que los modelos anteriores de generación de video robótico con una velocidad 15 veces más rápida en el mundo real. Después del post-entrenamiento, este modelo puede ser utilizado como un simulador de video a partir de entradas de acción de bajo nivel para evaluar políticas y generar datos sintéticos. Consulte este enlace https://liruiw.github.io/hma para más información.
La visualización científica de datos es fundamental para transformar datos en bruto en representaciones visuales comprensibles, permitiendo el reconocimiento de patrones, pronósticos y la presentación de ideas basadas en datos. Sin embargo, los usuarios novatos a menudo enfrentan dificultades debido a la complejidad de seleccionar herramientas apropiadas y dominar técnicas de visualización. Los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) han demostrado recientemente potencial en asistir en la generación de código, aunque luchan con la precisión y requieren depuración iterativa. En este documento, proponemos PlotGen, un nuevo marco multiagente destinado a automatizar la creación de visualizaciones científicas precisas. PlotGen orquesta múltiples agentes basados en LLM, incluyendo un Agente de Planificación de Consultas que descompone solicitudes de usuario complejas en pasos ejecutables, un Agente de Generación de Código que convierte pseudocódigo en código Python ejecutable, y tres agentes de retroalimentación de recuperación: un Agente de Retroalimentación Numérica, un Agente de Retroalimentación Léxica y un Agente de Retroalimentación Visual, que aprovechan LLM multimodales para refinar de manera iterativa la precisión de los datos, las etiquetas textuales y la corrección visual de los gráficos generados a través de la autorreflexión. Experimentos extensos muestran que PlotGen supera a líneas de base sólidas, logrando una mejora del 4-6 por ciento en el conjunto de datos MatPlotBench, lo que conduce a una mayor confianza del usuario en las visualizaciones generadas por LLM y a una mayor productividad de los novatos debido a una reducción en el tiempo de depuración necesario para errores en los gráficos.
La llegada de los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) ha avanzado significativamente el campo de la generación automatizada de código. Los LLMs dependen de conjuntos de datos extensos y diversos para aprender la sintaxis, semántica y patrones de uso de los lenguajes de programación. Para los lenguajes con recursos limitados (es decir, lenguajes de programación de nicho caracterizados por la escasez de datos de entrenamiento), la disponibilidad limitada de dichos datos dificulta la capacidad de generalización de los modelos, lo que resulta en un rendimiento de generación de código inferior en comparación con los lenguajes de alto recurso. Por esta razón, existe una búsqueda de técnicas capaces de cerrar esta brecha de rendimiento. Presentamos un estudio empírico que investiga la efectividad de varios enfoques para mejorar el rendimiento de los LLMs en lenguajes con recursos limitados, a saber: (i) un ajuste fino clásico, que sin embargo está limitado en tamaño por la escasez de datos de entrenamiento; (ii) tres variantes de aprendizaje en contexto, con indicaciones diseñadas para proporcionar al LLM información adicional sobre el lenguaje con recursos limitados (por ejemplo, ejemplos de pocos disparos que muestran características del lenguaje objetivo); y (iii) un objetivo de pre-entrenamiento que enseña al modelo a traducir entre lenguajes de alto y bajo recurso. El contexto de nuestro estudio son dos lenguajes con recursos limitados (R y Racket) y seis LLMs con arquitecturas y tamaños diferentes. Nuestros hallazgos revelan que un ajuste fino suele ser la mejor opción para LLMs más pequeños, posiblemente debido a que incluso un conjunto de datos pequeño es suficiente para entrenar su número limitado de parámetros. Con el aumento en el tamaño de los modelos, el aprendizaje en contexto se vuelve cada vez más efectivo, representando una apuesta segura y económica (es decir, siempre ayuda, pero con magnitudes diferentes). Por otro lado, los LLMs muy grandes pueden deteriorar su rendimiento en lenguajes con recursos limitados cuando se realiza un ajuste fino, posiblemente debido a la falta de suficientes datos necesarios para actualizar efectivamente sus pesos.
A pesar de los extensos esfuerzos de alineación de seguridad, los modelos de lenguaje grandes (LLMs) siguen siendo vulnerables a ataques de jailbreak que provocan un comportamiento perjudicial. Si bien los estudios existentes se centran predominantemente en métodos de ataque que requieren experiencia técnica, dos preguntas críticas permanecen poco exploradas: (1) ¿Son realmente útiles las respuestas de jailbreak para permitir a los usuarios promedio llevar a cabo acciones perjudiciales? (2) ¿Existen vulnerabilidades de seguridad en interacciones humanas-LLM más comunes y simples? En este documento, demostramos que las respuestas de LLM facilitan de manera más efectiva acciones perjudiciales cuando son tanto ejecutables como informativas, dos atributos fácilmente provocados en interacciones multilingües y de múltiples pasos. Utilizando esta perspicacia, proponemos HarmScore, una métrica de jailbreak que mide qué tan efectivamente una respuesta de LLM permite acciones perjudiciales, y Speak Easy, un marco de ataque multilingüe y de múltiples pasos simple. Notablemente, al incorporar Speak Easy en baselines de solicitud directa y jailbreak, observamos un aumento absoluto promedio de 0.319 en la Tasa de Éxito del Ataque y de 0.426 en HarmScore en LLMs de código abierto y propietarios en cuatro benchmarks de seguridad. Nuestro trabajo revela una vulnerabilidad crítica pero a menudo pasada por alto: los usuarios malintencionados pueden explotar fácilmente patrones de interacción comunes con intenciones perjudiciales.