Artículos de investigación en IA seleccionados diariamente con traducciones
Uno de los grandes desafíos de la inteligencia artificial general es desarrollar agentes capaces de llevar a cabo investigaciones científicas y descubrir nuevos conocimientos. Si bien los modelos de vanguardia ya se han utilizado como ayudas para los científicos humanos, por ejemplo, para generar ideas, escribir código o realizar tareas de predicción, aún realizan solo una pequeña parte del proceso científico. Este artículo presenta el primer marco integral para el descubrimiento científico totalmente automático, que permite a los modelos de lenguaje de gran tamaño de vanguardia realizar investigaciones de manera independiente y comunicar sus hallazgos. Presentamos El Científico de IA, que genera ideas de investigación novedosas, escribe código, realiza experimentos, visualiza resultados, describe sus hallazgos escribiendo un artículo científico completo y luego ejecuta un proceso de revisión simulado para evaluación. En principio, este proceso puede repetirse para desarrollar ideas de manera iterativa de forma abierta, actuando como la comunidad científica humana. Demostramos su versatilidad aplicándolo a tres subcampos distintos del aprendizaje automático: modelado de difusión, modelado de lenguaje basado en transformadores y dinámica de aprendizaje. Cada idea se implementa y se desarrolla en un artículo completo con un costo de menos de $15 por artículo. Para evaluar los artículos generados, diseñamos y validamos un revisor automatizado, que mostramos logra un rendimiento casi humano en la evaluación de las puntuaciones de los artículos. El Científico de IA puede producir artículos que superan el umbral de aceptación en una conferencia destacada de aprendizaje automático según lo juzgado por nuestro revisor automatizado. Este enfoque marca el comienzo de una nueva era en el descubrimiento científico en el aprendizaje automático: llevando los beneficios transformadores de los agentes de IA a todo el proceso de investigación de la IA misma, y acercándonos a un mundo donde la creatividad y la innovación infinitamente asequibles pueden ser liberadas en los problemas más desafiantes del mundo. Nuestro código está disponible de forma abierta en https://github.com/SakanaAI/AI-Scientist
Este documento presenta rStar, un enfoque de razonamiento mutuo de autojuego que mejora significativamente las capacidades de razonamiento de modelos de lenguaje pequeños (SLMs) sin ajuste fino o modelos superiores. rStar desacopla el razonamiento en un proceso de generación-discriminación mutua de autojuego. Primero, un SLM objetivo aumenta la Búsqueda del Árbol de Monte Carlo (MCTS) con un conjunto amplio de acciones de razonamiento similares a las humanas para construir trayectorias de razonamiento de mayor calidad. Luego, otro SLM, con capacidades similares al SLM objetivo, actúa como un discriminador para verificar cada trayectoria generada por el SLM objetivo. Las trayectorias de razonamiento mutuamente acordadas se consideran mutuamente consistentes, por lo tanto, es más probable que sean correctas. Experimentos extensos en cinco SLMs demuestran que rStar puede resolver efectivamente diversos problemas de razonamiento, incluidos GSM8K, GSM-Hard, MATH, SVAMP y StrategyQA. Notablemente, rStar aumenta la precisión de GSM8K del 12.51% al 63.91% para LLaMA2-7B, del 36.46% al 81.88% para Mistral-7B, y del 74.53% al 91.13% para LLaMA3-8B-Instruct. El código estará disponible en https://github.com/zhentingqi/rStar.
Los modelos de difusión han demostrado habilidades notables y robustas tanto en la generación de imágenes como de videos. Para lograr un mayor control sobre los resultados generados, los investigadores introducen arquitecturas adicionales, como ControlNet, Adaptadores y ReferenceNet, para integrar controles condicionales. Sin embargo, los métodos actuales de generación controlable a menudo requieren recursos computacionales adicionales sustanciales, especialmente para la generación de videos, y enfrentan desafíos en el entrenamiento o muestran un control débil. En este documento, proponemos ControlNeXt: un método potente y eficiente para la generación controlable de imágenes y videos. Primero diseñamos una arquitectura más sencilla y eficiente, reemplazando ramas adicionales pesadas con un costo adicional mínimo en comparación con el modelo base. Esta estructura concisa también permite que nuestro método se integre sin problemas con otros pesos LoRA, lo que permite la alteración de estilos sin necesidad de entrenamiento adicional. En cuanto al entrenamiento, reducimos hasta un 90% de los parámetros aprendibles en comparación con las alternativas. Además, proponemos otro método llamado Normalización Cruzada (CN) como reemplazo de 'Zero-Convolution' para lograr una convergencia de entrenamiento rápida y estable. Hemos realizado varios experimentos con diferentes modelos base en imágenes y videos, demostrando la robustez de nuestro método.
Med42-v2 presenta una serie de modelos de lenguaje grandes clínicos (LLMs) diseñados para abordar las limitaciones de los modelos genéricos en entornos de atención médica. Estos modelos se basan en la arquitectura Llama3 y se ajustan finamente utilizando datos clínicos especializados. Se sometieron a un alineamiento de preferencias en múltiples etapas para responder de manera efectiva a las indicaciones naturales. Mientras que los modelos genéricos suelen alinearse con preferencias para evitar responder a consultas clínicas como medida de precaución, Med42-v2 está específicamente entrenado para superar esta limitación, lo que permite su uso en entornos clínicos. Los modelos Med42-v2 muestran un rendimiento superior en comparación con los modelos Llama3 originales en configuraciones de parámetros de 8B y 70B, y GPT-4 en diversos puntos de referencia médicos. Estos LLMs se desarrollaron para comprender consultas clínicas, realizar tareas de razonamiento y proporcionar asistencia valiosa en entornos clínicos. Los modelos ahora están disponibles públicamente en https://huggingface.co/m42-health.
Presentamos CogVideoX, un modelo de transformador de difusión a gran escala diseñado para generar videos basados en indicaciones de texto. Para modelar eficientemente datos de video, proponemos utilizar un Autoencoder Variacional 3D (VAE) para comprimir videos a lo largo de dimensiones espaciales y temporales. Para mejorar la alineación texto-video, proponemos un transformador experto con LayerNorm adaptativo experto para facilitar la fusión profunda entre las dos modalidades. Al emplear una técnica de entrenamiento progresivo, CogVideoX es capaz de producir videos coherentes de larga duración caracterizados por movimientos significativos. Además, desarrollamos un eficaz proceso de procesamiento de datos texto-video que incluye diversas estrategias de preprocesamiento de datos y un método de subtitulado de video. Esto ayuda significativamente a mejorar el rendimiento de CogVideoX, mejorando tanto la calidad de generación como la alineación semántica. Los resultados muestran que CogVideoX demuestra un rendimiento de vanguardia en múltiples métricas de máquina y evaluaciones humanas. Los pesos del modelo tanto del VAE Causal 3D como de CogVideoX están disponibles públicamente en https://github.com/THUDM/CogVideo.
Presentamos FruitNeRF, un novedoso marco unificado para contar frutas que aprovecha métodos de síntesis de vista de última generación para contar cualquier tipo de fruta directamente en 3D. Nuestro marco toma un conjunto desordenado de imágenes posicionadas capturadas por una cámara monocular y segmenta las frutas en cada imagen. Para hacer que nuestro sistema sea independiente del tipo de fruta, empleamos un modelo base que genera máscaras de segmentación binaria para cualquier fruta. Utilizando ambas modalidades, RGB y semántica, entrenamos un campo de radiance neural semántico. A través del muestreo uniforme de volumen del Campo de Frutas implícito, obtenemos nubes de puntos solo de frutas. Al aplicar un agrupamiento en cascada en la nube de puntos extraída, nuestro enfoque logra un recuento preciso de frutas. El uso de campos de radiance neurales proporciona ventajas significativas sobre métodos convencionales como el seguimiento de objetos o el flujo óptico, ya que el conteo mismo se eleva a 3D. Nuestro método evita contar dos veces la misma fruta y evita contar frutas irrelevantes. Evaluamos nuestra metodología utilizando conjuntos de datos tanto del mundo real como sintéticos. El conjunto de datos del mundo real consta de tres árboles de manzanas con verdades de referencia contadas manualmente, un conjunto de datos de referencia de manzanas con una fila y la ubicación de frutas de referencia, mientras que el conjunto de datos sintéticos comprende varios tipos de frutas, incluyendo manzana, ciruela, limón, pera, durazno y mango. Además, evaluamos el rendimiento del conteo de frutas utilizando el modelo base en comparación con un U-Net.
Los Modelos Multimodales Grandes (LMMs, por sus siglas en inglés) han inaugurado una nueva era en la inteligencia artificial, fusionando capacidades tanto en lenguaje como en visión para formar Agentes de Fundamento Visual altamente capaces. Se postula que estos agentes destacarán en una multitud de tareas, potencialmente acercándose a la inteligencia artificial general. Sin embargo, los benchmarks existentes no logran desafiar o mostrar suficientemente el potencial completo de los LMMs en entornos complejos y del mundo real. Para abordar esta brecha, presentamos VisualAgentBench (VAB), un benchmark exhaustivo y pionero diseñado específicamente para entrenar y evaluar LMMs como agentes de fundamento visual en diversos escenarios, incluyendo Encarnados, Interfaz Gráfica de Usuario y Diseño Visual, con tareas formuladas para explorar la profundidad de la comprensión y capacidades de interacción de los LMMs. A través de pruebas rigurosas en nueve APIs de LMM propietarias y ocho modelos abiertos, demostramos las considerables capacidades de los agentes de estos modelos, aunque aún en desarrollo. Además, VAB construye un conjunto de entrenamiento de trayectorias elaborado mediante métodos híbridos que incluyen Solucionadores basados en Programas, Inicialización de Agentes LMM y Demostraciones Humanas, promoviendo mejoras sustanciales en el rendimiento de los LMMs a través de la clonación de comportamiento. Nuestro trabajo no solo tiene como objetivo comparar los modelos existentes, sino que también sienta una base sólida para el desarrollo futuro de agentes de fundamento visual. El código, los datos de entrenamiento y prueba, y parte de los LMMs abiertos ajustados están disponibles en https://github.com/THUDM/VisualAgentBench.
En este documento, presentamos un enfoque novedoso para la creación de avatares tridimensionales de cabeza capaz de generalizar a partir de datos en la naturaleza con pocos ejemplos y alta fidelidad, así como una robustez animable. Dada la naturaleza poco restringida de este problema, es esencial incorporar conocimientos previos. Por lo tanto, proponemos un marco que consta de fases de aprendizaje previo y creación de avatares. La fase de aprendizaje previo aprovecha conocimientos previos de cabezas en 3D derivados de un conjunto de datos dinámicos de múltiples vistas a gran escala, y la fase de creación de avatares aplica estos conocimientos previos para la personalización con pocos ejemplos. Nuestro enfoque captura eficazmente estos conocimientos previos mediante el uso de una red auto-decodificadora basada en Splatting Gaussiano con modelado dinámico basado en partes. Nuestro método emplea codificación compartida de identidad con códigos latentes personalizados para identidades individuales para aprender los atributos de primitivas Gaussianas. Durante la fase de creación de avatares, logramos una rápida personalización de avatares de cabeza aprovechando estrategias de inversión y ajuste fino. Experimentos extensos demuestran que nuestro modelo aprovecha eficazmente los conocimientos previos de cabezas y los generaliza con éxito para la personalización con pocos ejemplos, logrando calidad de renderizado fotorrealista, consistencia de múltiples vistas y animación estable.
Este documento presenta UniPortrait, un innovador marco de personalización de imágenes humanas que unifica la personalización de identificaciones única y múltiple con alta fidelidad facial, amplia capacidad de edición facial, descripción de entrada de forma libre y generación de diseños diversos. UniPortrait consta de solo dos módulos plug-and-play: un módulo de incrustación de ID y un módulo de enrutamiento de ID. El módulo de incrustación de ID extrae características faciales editables versátiles con una estrategia de desacoplamiento para cada ID y las incrusta en el espacio de contexto de los modelos de difusión. El módulo de enrutamiento de ID luego combina y distribuye estas incrustaciones de manera adaptativa a sus respectivas regiones dentro de la imagen sintetizada, logrando la personalización de identificaciones única y múltiple. Con un esquema de entrenamiento de dos etapas cuidadosamente diseñado, UniPortrait logra un rendimiento superior tanto en la personalización de identificaciones única como múltiple. Experimentos cuantitativos y cualitativos demuestran las ventajas de nuestro método sobre enfoques existentes, así como su buena escalabilidad, por ejemplo, la compatibilidad universal con herramientas de control generativo existentes. La página del proyecto se encuentra en https://aigcdesigngroup.github.io/UniPortrait-Page/.
En los últimos años, la arquitectura transformer se ha convertido en el estándar de facto para los algoritmos de aprendizaje automático aplicados al procesamiento del lenguaje natural y la visión por computadora. A pesar de la evidencia notable de la implementación exitosa de esta arquitectura en el contexto del aprendizaje de robots, sostenemos que los transformers básicos no explotan completamente la estructura del problema de aprendizaje de robots. Por lo tanto, proponemos el Body Transformer (BoT), una arquitectura que aprovecha la encarnación del robot al proporcionar un sesgo inductivo que guía el proceso de aprendizaje. Representamos el cuerpo del robot como un grafo de sensores y actuadores, y confiamos en la atención enmascarada para reunir información en toda la arquitectura. La arquitectura resultante supera al transformer básico, así como a la perceptrón multicapa clásico, en cuanto a la finalización de tareas, propiedades de escalado y eficiencia computacional al representar políticas de aprendizaje por imitación o refuerzo. Material adicional, incluido el código de código abierto, está disponible en https://sferrazza.cc/bot_site.
A pesar de sus recientes éxitos, los modelos de lenguaje grandes basados en Transformadores muestran modos de falla sorprendentes. Un ejemplo conocido de tales modos de falla es su incapacidad para generalizar la longitud: resolver instancias de problemas en tiempo de inferencia que son más largas que las vistas durante el entrenamiento. En este trabajo, exploramos más a fondo la causa raíz de esta falla realizando un análisis detallado de los comportamientos del modelo en la tarea simple de paridad. Nuestro análisis sugiere que las fallas en la generalización de la longitud están intrínsecamente relacionadas con la incapacidad de un modelo para realizar accesos aleatorios a la memoria dentro de su ventana de contexto. Presentamos evidencia de apoyo para esta hipótesis demostrando la efectividad de metodologías que evitan la necesidad de indexación o que permiten el acceso aleatorio a tokens de forma indirecta, a través de direccionamiento basado en contenido. Además, mostramos dónde y cómo la falla en realizar accesos aleatorios a la memoria se manifiesta a través de visualizaciones de mapas de atención.