Artículos de investigación en IA seleccionados diariamente con traducciones
Hoy en día, los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) aprenden a utilizar nuevas herramientas mediante la provisión de algunas demostraciones de su uso. Desafortunadamente, las demostraciones son difíciles de obtener y pueden resultar en un uso sesgado e indeseable si se elige la demostración incorrecta. Incluso en el raro escenario en que las demostraciones están fácilmente disponibles, no existe un protocolo de selección fundamentado para determinar cuántas y cuáles proporcionar. A medida que las tareas se vuelven más complejas, la búsqueda de selección crece de manera combinatoria y se vuelve invariablemente intratable. Nuestro trabajo ofrece una alternativa a las demostraciones: la documentación de herramientas. Abogamos por el uso de documentación de herramientas, descripciones para el uso individual de la herramienta, en lugar de demostraciones. Sustentamos nuestra afirmación a través de tres hallazgos empíricos principales en 6 tareas que abarcan tanto modalidades visuales como de lenguaje. Primero, en puntos de referencia existentes, los prompts de cero disparos con solo documentación de herramientas son suficientes para elicitar un uso adecuado de la herramienta, logrando un rendimiento comparable a los prompts de pocos disparos. Segundo, en un nuevo conjunto de datos realistas de uso de herramientas con cientos de APIs disponibles, mostramos que la documentación de herramientas es significativamente más valiosa que las demostraciones, con la documentación de cero disparos superando significativamente a los pocos disparos sin documentación. Tercero, destacamos los beneficios de la documentación de herramientas al abordar la generación de imágenes y el seguimiento de videos utilizando modelos de última generación recién lanzados como herramientas. Finalmente, destacamos la posibilidad de utilizar la documentación de herramientas para habilitar automáticamente nuevas aplicaciones: utilizando nada más que la documentación de GroundingDino, Stable Diffusion, XMem y SAM, los LLMs pueden reinventar las funcionalidades de los modelos recién lanzados Grounded-SAM y Track Anything.
Los recientes avances en los modelos de lenguaje de gran escala (LLMs), especialmente la invención del prompting de cadena de pensamientos (CoT), han hecho posible resolver problemas de razonamiento. Sin embargo, incluso los LLMs más potentes aún tienen dificultades con problemas más complejos que requieren pensamiento no lineal y razonamiento de múltiples pasos. En este trabajo, exploramos si los LLMs tienen la capacidad de reconocer sus propios errores, sin recurrir a recursos externos. En particular, investigamos si pueden utilizarse para identificar errores individuales dentro de un razonamiento paso a paso. Para ello, proponemos un esquema de verificación zero-shot para reconocer dichos errores. Luego, utilizamos este esquema de verificación para mejorar el rendimiento en tareas de preguntas y respuestas, empleándolo para realizar votación ponderada entre diferentes respuestas generadas. Probamos el método en tres conjuntos de datos matemáticos—GSM8K, MathQA y MATH—y encontramos que reconoce errores con éxito y, a su vez, aumenta el rendimiento predictivo final.
Consideramos el problema de elicitar capacidades de generalización composicional en modelos de lenguaje de gran escala (LLMs) mediante una estrategia novedosa de prompting. La generalización composicional permite a los LLMs resolver problemas más difíciles que aquellos que han visto (es decir, generalización de fácil a difícil), una capacidad de razonamiento crítica para la inteligencia similar a la humana. Sin embargo, incluso los LLMs más avanzados actualmente aún tienen dificultades con esta forma de razonamiento. Para cerrar esta brecha, proponemos el prompting de habilidades en contexto (SKiC), que instruye a los LLMs sobre cómo componer habilidades básicas para resolver problemas más complejos. Encontramos que es crucial demostrar tanto las habilidades como los ejemplos composicionales dentro del mismo contexto de prompting. Con tan solo dos ejemplos, nuestro prompting SKiC inicia fuertes sinergias entre las habilidades y sus capacidades de composición. Notablemente, permite a los LLMs resolver problemas no vistos que requieren composiciones innovadoras de habilidades, logrando una generalización casi perfecta en una amplia gama de tareas desafiantes de composicionalidad. Curiosamente, el prompting SKiC desbloquea el potencial latente de los LLMs, permitiéndoles aprovechar habilidades internas preexistentes adquiridas durante etapas previas de preentrenamiento, incluso cuando estas habilidades no se presentan explícitamente en el contexto de prompting. Esto resulta en la capacidad de los LLMs para resolver problemas complejos no vistos mediante la activación y composición de competencias internas. Con estas características destacadas, el prompting SKiC logra un rendimiento de vanguardia en benchmarks desafiantes de razonamiento matemático (por ejemplo, MATH).
El aprendizaje autosupervisado es un paradigma prometedor en el aprendizaje profundo que permite aprender a partir de datos no etiquetados mediante la construcción de tareas pretexto que requieren aprender representaciones útiles. En el procesamiento del lenguaje natural, la tarea pretexto dominante ha sido el modelado de lenguaje enmascarado (MLM), mientras que en visión por computadora existe un equivalente llamado Modelado de Imágenes Enmascaradas (MIM). Sin embargo, MIM es un desafío porque requiere predecir contenido semántico en ubicaciones precisas. Por ejemplo, dada una imagen incompleta de un perro, podemos adivinar que hay una cola, pero no podemos determinar su ubicación exacta. En este trabajo, proponemos FlexPredict, un modelo estocástico que aborda este desafío incorporando la incertidumbre de ubicación en el modelo. Específicamente, condicionamos el modelo en posiciones estocásticas de tokens enmascarados para guiar al modelo hacia el aprendizaje de características más robustas frente a incertidumbres de ubicación. Nuestro enfoque mejora el rendimiento en tareas posteriores; por ejemplo, en comparación con los baselines de MIM, FlexPredict aumenta la prueba lineal de ImageNet en un 1.6% con ViT-B y en un 2.5% para la segmentación de video semi-supervisada utilizando ViT-L.
La tarea de discernir entre textos generados y naturales se está volviendo cada vez más desafiante. En este contexto, la marca de agua surge como una técnica prometedora para atribuir textos generados a un modelo específico. Esta técnica altera el proceso de generación de muestras para dejar una huella invisible en el texto generado, facilitando su detección posterior. Esta investigación consolida las marcas de agua para modelos de lenguaje grandes basándose en tres consideraciones teóricas y empíricas. Primero, introducimos nuevas pruebas estadísticas que ofrecen garantías teóricas robustas, las cuales siguen siendo válidas incluso con tasas de falsos positivos muy bajas (menores a 10^{-6}). Segundo, comparamos la efectividad de las marcas de agua utilizando puntos de referencia clásicos en el campo del procesamiento del lenguaje natural, obteniendo información sobre su aplicabilidad en el mundo real. Tercero, desarrollamos esquemas avanzados de detección para escenarios en los que se tiene acceso al modelo de lenguaje grande, así como marcas de agua de múltiples bits.