Artículos de investigación en IA seleccionados diariamente con traducciones
La generación de texto a 3D, que tiene como objetivo sintetizar objetos 3D vívidos a partir de indicaciones de texto, ha atraído mucha atención de la comunidad de visión por computadora. Aunque varios trabajos existentes han logrado resultados impresionantes en esta tarea, principalmente dependen de un paradigma de optimización que consume mucho tiempo. Específicamente, estos métodos optimizan un campo neuronal desde cero para cada indicación de texto, tomando aproximadamente una hora o más para generar un objeto. Este costo de entrenamiento pesado y repetitivo dificulta su implementación práctica. En este artículo, proponemos un marco novedoso para la generación rápida de texto a 3D, denominado Instant3D. Una vez entrenado, Instant3D es capaz de crear un objeto 3D para una indicación de texto no vista en menos de un segundo con una sola ejecución de una red de avance. Logramos esta velocidad notable al diseñar una nueva red que construye directamente un triplano 3D a partir de una indicación de texto. La innovación central de nuestro Instant3D radica en nuestra exploración de estrategias para inyectar efectivamente condiciones de texto en la red. Además, proponemos una función de activación simple pero efectiva, la sigmoide escalada, para reemplazar la función sigmoide original, lo que acelera la convergencia del entrenamiento más de diez veces. Finalmente, para abordar el problema de Janus (multi-cabeza) en la generación 3D, proponemos un algoritmo Perp-Neg adaptativo que puede ajustar dinámicamente sus escalas de negación de concepto según la gravedad del problema de Janus durante el entrenamiento, reduciendo efectivamente el efecto multi-cabeza. Experimentos extensos en una amplia variedad de conjuntos de datos de referencia demuestran que el algoritmo propuesto se desempeña favorablemente en comparación con los métodos más avanzados tanto cualitativa como cuantitativamente, mientras logra una eficiencia significativamente mejor. La página del proyecto está en https://ming1993li.github.io/Instant3DProj.
Los recientes avances en la generación de objetos 3D en mundos abiertos han sido notables, con los métodos de imagen-a-3D ofreciendo un control fino superior en comparación con sus contrapartes de texto-a-3D. Sin embargo, la mayoría de los modelos existentes no logran proporcionar simultáneamente velocidades de generación rápidas y una alta fidelidad a las imágenes de entrada, dos características esenciales para aplicaciones prácticas. En este artículo, presentamos One-2-3-45++, un método innovador que transforma una sola imagen en una malla 3D texturizada y detallada en aproximadamente un minuto. Nuestro enfoque busca aprovechar al máximo el conocimiento extenso incorporado en los modelos de difusión 2D y los conocimientos previos de datos 3D valiosos pero limitados. Esto se logra ajustando inicialmente un modelo de difusión 2D para la generación consistente de imágenes multi-vista, seguido de la elevación de estas imágenes a 3D con la ayuda de modelos de difusión 3D nativos condicionados por múltiples vistas. Evaluaciones experimentales exhaustivas demuestran que nuestro método puede producir activos 3D de alta calidad y diversidad que reflejan de cerca la imagen de entrada original. Nuestra página web del proyecto: https://sudo-ai-3d.github.io/One2345plus_page.
La fluidez y creatividad de los grandes modelos de lenguaje preentrenados (LLMs, por sus siglas en inglés) han llevado a su uso generalizado, a veces incluso como reemplazo de los motores de búsqueda tradicionales. Sin embargo, los modelos de lenguaje tienden a hacer afirmaciones convincentes pero factualmente inexactas, a menudo denominadas 'alucinaciones'. Estos errores pueden propagar involuntariamente desinformación o perpetuar nociones erróneas de manera perjudicial. Además, la verificación manual de las respuestas del modelo es un proceso que consume mucho tiempo, lo que hace que las etiquetas de veracidad humana sean costosas de obtener. En este trabajo, ajustamos los modelos de lenguaje para que sean más precisos, sin necesidad de etiquetado humano y enfocándonos en entornos de generación más abiertos que en trabajos anteriores. Para ello, aprovechamos dos innovaciones recientes clave en el procesamiento del lenguaje natural (NLP). En primer lugar, varios trabajos recientes han propuesto métodos para juzgar la veracidad de textos abiertos midiendo su consistencia con una base de conocimiento externa o simplemente utilizando las puntuaciones de confianza de un modelo grande. En segundo lugar, el algoritmo de optimización de preferencias directas permite ajustar fácilmente los modelos de lenguaje en objetivos distintos a la imitación supervisada, utilizando una clasificación de preferencias sobre las posibles respuestas del modelo. Demostramos que aprender a partir de clasificaciones de preferencias de veracidad generadas automáticamente, ya sea mediante sistemas de recuperación existentes o nuestro novedoso enfoque sin recuperación, mejora significativamente la precisión (porcentaje de afirmaciones generadas que son correctas) de Llama-2 en temas no vistos, en comparación con RLHF o estrategias de decodificación enfocadas en la veracidad. A escala de 7B, en comparación con Llama-2-chat, observamos una reducción del 58% y 40% en la tasa de errores factuales al generar biografías y responder preguntas médicas, respectivamente.
En este trabajo revisamos sistemáticamente los avances recientes en el procesamiento de código con modelos de lenguaje, abarcando más de 50 modelos, más de 30 tareas de evaluación y 500 trabajos relacionados. Clasificamos los modelos de procesamiento de código en modelos de lenguaje general representados por la familia GPT y modelos especializados que están específicamente preentrenados en código, a menudo con objetivos adaptados. Discutimos las relaciones y diferencias entre estos modelos, y destacamos la transición histórica del modelado de código desde modelos estadísticos y RNNs hacia Transformers preentrenados y LLMs, un camino idéntico al que ha seguido el procesamiento del lenguaje natural (NLP). También analizamos características específicas del código, como AST, CFG y pruebas unitarias, junto con su aplicación en el entrenamiento de modelos de lenguaje para código, e identificamos los principales desafíos y posibles direcciones futuras en este dominio. Mantenemos esta revisión abierta y actualizada en el repositorio de GitHub en https://github.com/codefuse-ai/Awesome-Code-LLM.
Una capacidad fundamental de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) es seguir instrucciones en lenguaje natural. Sin embargo, la evaluación de dichas habilidades no está estandarizada: las evaluaciones humanas son costosas, lentas y no son objetivamente reproducibles, mientras que la autoevaluación basada en LLMs puede estar sesgada o limitada por la capacidad del LLM evaluador. Para superar estos problemas, presentamos Instruction-Following Eval (IFEval) para modelos de lenguaje de gran escala. IFEval es un punto de referencia de evaluación sencillo y fácil de reproducir. Se centra en un conjunto de "instrucciones verificables", como "escribe en más de 400 palabras" y "menciona la palabra clave de IA al menos 3 veces". Identificamos 25 tipos de estas instrucciones verificables y construimos alrededor de 500 prompts, donde cada prompt contiene una o más instrucciones verificables. Mostramos los resultados de evaluación de dos LLMs ampliamente disponibles en el mercado. Nuestro código y datos se pueden encontrar en https://github.com/google-research/google-research/tree/master/instruction_following_eval.
Demostramos una situación en la que los Modelos de Lenguaje de Gran Escala (LLM), entrenados para ser útiles, inofensivos y honestos, pueden exhibir comportamientos desalineados y engañar estratégicamente a sus usuarios sobre dicho comportamiento sin haber recibido instrucciones para hacerlo. Concretamente, implementamos GPT-4 como un agente en un entorno simulado realista, donde asume el rol de un agente autónomo de comercio de acciones. Dentro de este entorno, el modelo obtiene información privilegiada sobre una operación bursátil lucrativa y actúa en consecuencia, a pesar de saber que el uso de información privilegiada es desaprobado por la gerencia de la empresa. Al reportar a su gerente, el modelo oculta consistentemente las razones genuinas detrás de su decisión de comercio. Realizamos una breve investigación sobre cómo este comportamiento varía bajo cambios en el entorno, como eliminar el acceso del modelo a un bloc de notas para razonamiento, intentar prevenir el comportamiento desalineado modificando las instrucciones del sistema, cambiar el nivel de presión al que está sometido el modelo, variar el riesgo percibido de ser descubierto y realizar otros ajustes simples en el entorno. Hasta donde sabemos, esta es la primera demostración de Modelos de Lenguaje de Gran Escala, entrenados para ser útiles, inofensivos y honestos, que engañan estratégicamente a sus usuarios en una situación realista sin instrucciones directas o entrenamiento para el engaño.
En este trabajo, proponemos FastCoT, un marco independiente del modelo basado en decodificación paralela sin necesidad de entrenamiento adicional de un modelo auxiliar o modificación del propio LLM. FastCoT utiliza una ventana de contexto de tamaño variable que cambia según la posición para realizar simultáneamente decodificación paralela y decodificación autorregresiva, aprovechando así al máximo los recursos de cálculo de la GPU. En FastCoT, la parte de decodificación paralela proporciona al LLM una visión rápida del futuro compuesta por tokens aproximados, lo que podría generar respuestas más rápidas en comparación con la decodificación autorregresiva habitual utilizada por los transformadores causales. También ofrecemos una implementación de la decodificación paralela dentro del LLM, que admite la generación de caché KV y el procesamiento por lotes. A través de experimentos exhaustivos, demostramos que FastCoT reduce el tiempo de inferencia en casi un 20% con una caída de rendimiento insignificante en comparación con el enfoque regular. Además, mostramos que el tamaño de la ventana de contexto presenta una robustez considerable para diferentes tareas.
Los modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) se han convertido en un componente crítico en muchas aplicaciones del aprendizaje automático. Sin embargo, los enfoques estándar para entrenar LLM requieren un gran número de aceleradores estrechamente interconectados, con dispositivos que intercambian gradientes y otros estados intermedios en cada paso de optimización. Si bien es difícil construir y mantener un único clúster de computación que albergue muchos aceleradores, podría ser más fácil encontrar varios clústeres de computación, cada uno con un número menor de dispositivos. En este trabajo, proponemos un algoritmo de optimización distribuida, Distributed Low-Communication (DiLoCo), que permite el entrenamiento de modelos de lenguaje en islas de dispositivos con conexiones deficientes. Este enfoque es una variante del promedio federado, donde el número de pasos internos es grande, el optimizador interno es AdamW y el optimizador externo es el momento de Nesterov. En el ampliamente utilizado conjunto de datos C4, demostramos que DiLoCo con 8 trabajadores tiene un rendimiento comparable al de la optimización completamente sincrónica, mientras comunica 500 veces menos. DiLoCo muestra una gran robustez frente a la distribución de datos de cada trabajador. También es robusto frente a la indisponibilidad de recursos con el tiempo y, viceversa, puede aprovechar sin problemas los recursos que se vuelven disponibles durante el entrenamiento.
En los últimos años, los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) han demostrado capacidades generativas notables, pero ¿pueden juzgar la calidad de sus propias generaciones? Un concepto popular, conocido como autorrefinamiento, postula que los LLMs pueden detectar y corregir los errores en sus generaciones cuando se les solicita. Sin embargo, evidencia empírica reciente apunta en la dirección opuesta, sugiriendo que los LLMs a menudo tienen dificultades para identificar errores con precisión cuando se requiere razonamiento. Para abordar esto, proponemos un objetivo de razonamiento con refinamiento llamado ART: Preguntar, Refinar y Confiar, que formula preguntas necesarias para decidir cuándo un LLM debe refinar su salida, y afirma o retiene la confianza en su refinamiento al clasificar tanto el refinamiento como la predicción inicial. En dos tareas de razonamiento de múltiples pasos: problemas de palabras matemáticas (GSM8K) y respuesta a preguntas (StrategyQA), ART logra una mejora de rendimiento de +5 puntos sobre los baselines de autorrefinamiento, mientras utiliza un modelo mucho más pequeño como tomador de decisiones. También demostramos el beneficio de usar modelos más pequeños para tomar decisiones de refinamiento como una alternativa rentable al ajuste fino de un modelo más grande.
Recientemente, los modelos de audio-lenguaje que siguen instrucciones han recibido una amplia atención por su interacción auditiva con humanos. Sin embargo, la ausencia de modelos de audio preentrenados capaces de manejar diversos tipos de audio y tareas ha obstaculizado el progreso en este campo. En consecuencia, la mayoría de los trabajos existentes solo han podido ofrecer un rango limitado de capacidades de interacción. En este artículo, desarrollamos el modelo Qwen-Audio y abordamos esta limitación escalando el preentrenamiento de audio-lenguaje para cubrir más de 30 tareas y diversos tipos de audio, como el habla humana, sonidos naturales, música y canciones, con el fin de facilitar habilidades universales de comprensión auditiva. Sin embargo, el entrenamiento conjunto directo de todas las tareas y conjuntos de datos puede generar problemas de interferencia, ya que las etiquetas textuales asociadas con diferentes conjuntos de datos presentan variaciones considerables debido a diferencias en el enfoque de la tarea, el idioma, la granularidad de la anotación y la estructura del texto. Para superar la interferencia de uno a muchos, diseñamos cuidadosamente un marco de entrenamiento multitarea condicionando una secuencia de etiquetas jerárquicas al decodificador, fomentando el intercambio de conocimientos y evitando la interferencia mediante etiquetas compartidas y específicas, respectivamente. Notablemente, Qwen-Audio logra un rendimiento impresionante en diversas tareas de referencia sin requerir ajustes específicos para cada tarea, superando a sus contrapartes. Basándonos en las capacidades de Qwen-Audio, desarrollamos además Qwen-Audio-Chat, que permite la entrada de diversos audios y textos, habilitando diálogos de múltiples turnos y apoyando diversos escenarios centrados en audio.
El red-teaming es una práctica común para mitigar comportamientos inseguros en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés), que implica evaluar exhaustivamente los LLMs para identificar posibles fallos y abordarlos con respuestas responsables y precisas. Aunque es efectivo, el red-teaming manual es costoso, y el red-teaming automático existente suele descubrir riesgos de seguridad sin resolverlos. En este artículo, proponemos un método de Red-Teaming Automático Multironda (MART, por sus siglas en inglés), que incorpora tanto la escritura automática de indicaciones adversarias como la generación de respuestas seguras, aumentando significativamente la escalabilidad del red-teaming y la seguridad del LLM objetivo. Específicamente, un LLM adversario y un LLM objetivo interactúan entre sí de manera iterativa, donde el LLM adversario tiene como objetivo generar indicaciones desafiantes que provoquen respuestas inseguras del LLM objetivo, mientras que el LLM objetivo se ajusta con datos alineados con la seguridad en estas indicaciones adversarias. En cada ronda, el LLM adversario elabora mejores ataques sobre el LLM objetivo actualizado, mientras que el LLM objetivo también mejora a través del ajuste de seguridad. En los puntos de referencia de indicaciones adversarias, la tasa de violación de un LLM con alineación de seguridad limitada se reduce hasta un 84.7% después de 4 rondas de MART, alcanzando un rendimiento comparable al de los LLMs con una amplia escritura de indicaciones adversarias. Cabe destacar que la utilidad del modelo en indicaciones no adversarias se mantiene estable a lo largo de las iteraciones, lo que indica que el LLM objetivo mantiene un fuerte rendimiento en el seguimiento de instrucciones.