Artículos de investigación en IA seleccionados diariamente con traducciones
Una mejor comprensión de las capacidades de análisis legal de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) puede contribuir a mejorar la eficiencia de los servicios jurídicos, gobernar la inteligencia artificial y aprovechar los LLMs para identificar inconsistencias en la ley. Este artículo explora las capacidades de los LLMs en la aplicación del derecho tributario. Elegimos esta área del derecho porque tiene una estructura que nos permite configurar pipelines de validación automatizados en miles de ejemplos, requiere razonamiento lógico y habilidades matemáticas, y nos permite probar las capacidades de los LLMs de una manera relevante para la vida económica real de ciudadanos y empresas. Nuestros experimentos demuestran capacidades emergentes de comprensión legal, con un rendimiento mejorado en cada nueva versión de los modelos de OpenAI. Experimentamos con la recuperación y utilización de la autoridad legal relevante para evaluar el impacto de proporcionar contexto legal adicional a los LLMs. También encontramos que el prompting de pocos ejemplos, presentando pares de preguntas y respuestas, mejora significativamente el rendimiento del modelo más avanzado, GPT-4. Los hallazgos indican que los LLMs, particularmente cuando se combinan con mejoras en el prompting y los textos legales correctos, pueden alcanzar altos niveles de precisión, aunque aún no a niveles de expertos en derecho tributario. A medida que los LLMs continúan avanzando, su capacidad para razonar sobre la ley de manera autónoma podría tener implicaciones significativas para la profesión legal y la gobernanza de la inteligencia artificial.
Los modelos de difusión han demostrado un excelente potencial para generar imágenes diversas. Sin embargo, su rendimiento a menudo se ve afectado por una generación lenta debido al proceso iterativo de eliminación de ruido. Recientemente, se ha propuesto la destilación de conocimiento como una solución que puede reducir el número de pasos de inferencia a uno o unos pocos sin una degradación significativa de la calidad. No obstante, los métodos de destilación existentes requieren una cantidad considerable de cómputo fuera de línea para generar datos de entrenamiento sintéticos a partir del modelo maestro o necesitan realizar un aprendizaje en línea costoso con la ayuda de datos reales. En este trabajo, presentamos una técnica novedosa llamada BOOT, que supera estas limitaciones con un algoritmo de destilación eficiente y sin necesidad de datos. La idea central es aprender un modelo condicionado por el tiempo que predice la salida de un modelo de difusión preentrenado (maestro) dado cualquier paso de tiempo. Dicho modelo puede entrenarse de manera eficiente basándose en un proceso de bootstrapping a partir de dos pasos muestreados consecutivos. Además, nuestro método puede adaptarse fácilmente a modelos de difusión a gran escala de texto a imagen, que representan un desafío para los métodos convencionales dado que los conjuntos de entrenamiento suelen ser grandes y difíciles de acceder. Demostramos la efectividad de nuestro enfoque en varios conjuntos de datos de referencia en el entorno DDIM, logrando una calidad de generación comparable mientras es órdenes de magnitud más rápido que el modelo de difusión maestro. Los resultados de texto a imagen muestran que el enfoque propuesto es capaz de manejar distribuciones altamente complejas, arrojando luz sobre un modelado generativo más eficiente.
¿Qué constituye la "atmósfera" de una escena particular? ¿Qué debería encontrarse en "una calle urbana concurrida y sucia", "un campo idílico" o "una escena del crimen en una sala abandonada"? La traducción de descripciones abstractas de escenas a elementos estilizados de escenas no puede realizarse con generalidad por los sistemas existentes entrenados en conjuntos de datos interiores rígidos y limitados. En este artículo, proponemos aprovechar el conocimiento capturado por modelos fundacionales para lograr esta traducción. Presentamos un sistema que puede servir como herramienta para generar recursos estilizados para escenas 3D descritas por una frase breve, sin necesidad de enumerar los objetos que deben encontrarse en la escena ni dar instrucciones sobre su apariencia. Además, es robusto frente a conceptos de mundo abierto de una manera que los métodos tradicionales entrenados con datos limitados no lo son, ofreciendo mayor libertad creativa al artista 3D. Nuestro sistema demuestra esto utilizando un "equipo" de modelos fundacionales compuesto por un modelo de lenguaje grande, un modelo de visión-lenguaje y varios modelos de difusión de imágenes, que se comunican mediante una representación intermedia interpretable y editable por el usuario, permitiendo así una generación de recursos estilizados más versátil y controlable para artistas 3D. Introducimos métricas novedosas para esta tarea y, mediante evaluaciones humanas, mostramos que en el 91% de los casos, las salidas de nuestro sistema se consideran más fieles a la semántica de la descripción de la escena de entrada que las del método base, destacando así el potencial de este enfoque para acelerar radicalmente el proceso de creación de contenido 3D para artistas 3D.
Los sistemas de IA generativa en múltiples modalidades, que abarcan texto, imagen, audio y video, tienen amplios impactos sociales, pero no existe un estándar oficial para evaluar dichos impactos ni para determinar cuáles deberían ser evaluados. Avanzamos hacia un enfoque estándar para evaluar un sistema de IA generativa en cualquier modalidad, en dos categorías principales: lo que puede evaluarse en un sistema base sin una aplicación predeterminada y lo que puede evaluarse en la sociedad. Describimos categorías específicas de impacto social y cómo abordar y realizar evaluaciones en el sistema técnico base, y luego en las personas y la sociedad. Nuestro marco para un sistema base define siete categorías de impacto social: sesgos, estereotipos y daños representacionales; valores culturales y contenido sensible; desempeño desigual; privacidad y protección de datos; costos financieros; costos ambientales; y costos laborales de moderación de datos y contenido. Los métodos sugeridos para la evaluación se aplican a todas las modalidades, y los análisis de las limitaciones de las evaluaciones existentes sirven como punto de partida para la inversión necesaria en evaluaciones futuras. Ofrecemos cinco categorías principales para lo que puede evaluarse en la sociedad, cada una con sus propias subcategorías: confiabilidad y autonomía; desigualdad, marginación y violencia; concentración de autoridad; trabajo y creatividad; y ecosistema y medio ambiente. Cada subcategoría incluye recomendaciones para mitigar daños. Simultáneamente, estamos creando un repositorio de evaluación para que la comunidad de investigación en IA contribuya con evaluaciones existentes en las categorías dadas. Esta versión se actualizará tras una sesión CRAFT en ACM FAccT 2023.
El objetivo de este artículo es la detección de objetos de vocabulario abierto (OVOD, por sus siglas en inglés), es decir, construir un modelo que pueda detectar objetos más allá del conjunto de categorías vistas durante el entrenamiento, permitiendo así al usuario especificar categorías de interés durante la inferencia sin necesidad de reentrenar el modelo. Adoptamos una arquitectura estándar de detector de objetos en dos etapas y exploramos tres formas de especificar categorías novedosas: mediante descripciones lingüísticas, mediante ejemplares de imágenes o mediante una combinación de ambas. Realizamos tres contribuciones: primero, utilizamos un modelo de lenguaje grande (LLM) para generar descripciones lingüísticas informativas de clases de objetos y construimos clasificadores basados en texto potentes; segundo, empleamos un agregador visual en ejemplares de imágenes que puede procesar cualquier número de imágenes como entrada, formando clasificadores basados en visión; y tercero, proporcionamos un método simple para fusionar información de descripciones lingüísticas y ejemplares de imágenes, obteniendo un clasificador multimodal. Al evaluar en el desafiante benchmark de vocabulario abierto LVIS, demostramos que: (i) nuestros clasificadores basados en texto superan a todos los trabajos previos de OVOD; (ii) nuestros clasificadores basados en visión tienen un rendimiento comparable al de los clasificadores basados en texto en trabajos anteriores; (iii) el uso de clasificadores multimodales supera el rendimiento de cualquiera de las modalidades por separado; y finalmente, (iv) nuestros clasificadores basados en texto y multimodales obtienen un mejor rendimiento que un detector completamente supervisado.
Las operaciones de edición comunes realizadas por fotógrafos profesionales incluyen las tareas de limpieza: desenfocar elementos distractores y resaltar los sujetos principales. Estas ediciones son desafiantes, ya que requieren un equilibrio delicado entre manipular la atención del espectador y mantener el realismo fotográfico. Si bien los enfoques recientes pueden presumir de ejemplos exitosos de atenuación o amplificación de la atención, la mayoría también sufre de ediciones poco realistas con frecuencia. Proponemos una función de pérdida de realismo para la mejora de imágenes guiada por saliencia, con el fin de mantener un alto nivel de realismo en diversos tipos de imágenes, mientras se atenúan los distractores y se amplifican los objetos de interés. Las evaluaciones realizadas con fotógrafos profesionales confirman que logramos el doble objetivo de realismo y efectividad, superando a los enfoques recientes en sus propios conjuntos de datos, además de requerir una menor huella de memoria y tiempo de ejecución. Así, ofrecemos una solución viable para automatizar las operaciones de mejora de imágenes y limpieza fotográfica.
Los Campos de Radiancia Neural (NeRF) han mostrado resultados impresionantes en la síntesis de nuevas vistas; sin embargo, incluso grabaciones exhaustivas presentan imperfecciones en las reconstrucciones, por ejemplo, debido a áreas mal observadas o cambios menores en la iluminación. Nuestro objetivo es mitigar estas imperfecciones provenientes de diversas fuentes con una solución conjunta: aprovechamos la capacidad de las redes generativas adversarias (GANs) para producir imágenes realistas y las utilizamos para mejorar el realismo en la reconstrucción de escenas 3D con NeRFs. Para ello, aprendemos la distribución de parches de una escena utilizando un discriminador adversario, el cual proporciona retroalimentación a la reconstrucción del campo de radiancia, mejorando así el realismo de manera consistente en 3D. De esta forma, los artefactos de renderizado se corrigen directamente en la representación 3D subyacente mediante la imposición de restricciones de renderizado de trayectorias multi-vista. Además, condicionamos un generador con renderizados de NeRF de múltiples resoluciones, el cual es entrenado de manera adversaria para mejorar aún más la calidad del renderizado. Demostramos que nuestro enfoque mejora significativamente la calidad del renderizado, por ejemplo, reduciendo casi a la mitad las puntuaciones LPIPS en comparación con Nerfacto, al mismo tiempo que mejora el PSNR en 1.4 dB en las escenas interiores avanzadas de Tanks and Temples.