Artículos de investigación en IA seleccionados diariamente con traducciones
La personalización de modelos de texto a imagen tiene como objetivo introducir un concepto proporcionado por el usuario en el modelo, permitiendo su síntesis en diversos contextos. Sin embargo, los métodos actuales se centran principalmente en el caso de aprender un único concepto a partir de múltiples imágenes con variaciones en fondos y poses, y tienen dificultades cuando se adaptan a un escenario diferente. En este trabajo, introducimos la tarea de descomposición textual de escenas: dada una única imagen de una escena que puede contener varios conceptos, nuestro objetivo es extraer un token de texto distinto para cada concepto, permitiendo un control detallado sobre las escenas generadas. Para ello, proponemos aumentar la imagen de entrada con máscaras que indican la presencia de conceptos objetivo. Estas máscaras pueden ser proporcionadas por el usuario o generadas automáticamente por un modelo de segmentación preentrenado. Luego, presentamos un novedoso proceso de personalización en dos fases que optimiza un conjunto de incrustaciones textuales dedicadas (manejadores), así como los pesos del modelo, logrando un equilibrio delicado entre capturar con precisión los conceptos y evitar el sobreajuste. Empleamos una pérdida de difusión enmascarada para permitir que los manejadores generen sus conceptos asignados, complementada con una nueva pérdida en mapas de atención cruzada para prevenir el entrelazamiento. También introducimos union-sampling, una estrategia de entrenamiento destinada a mejorar la capacidad de combinar múltiples conceptos en imágenes generadas. Utilizamos varias métricas automáticas para comparar cuantitativamente nuestro método con varias líneas base, y confirmamos los resultados mediante un estudio de usuarios. Finalmente, mostramos varias aplicaciones de nuestro método. La página del proyecto está disponible en: https://omriavrahami.com/break-a-scene/
La arquitectura Transformer ha demostrado un rendimiento impresionante en múltiples dominios de investigación y se ha convertido en la base de muchos modelos de redes neuronales. Sin embargo, existe una comprensión limitada sobre cómo funciona. En particular, con una simple pérdida predictiva, cómo emerge la representación a partir de la dinámica de entrenamiento por gradiente sigue siendo un misterio. En este artículo, para un Transformer de una capa con una capa de autoatención más una capa decodificadora, analizamos su dinámica de entrenamiento con SGD para la tarea de predicción del siguiente token de manera matemáticamente rigurosa. Abrimos la caja negra del proceso dinámico de cómo la capa de autoatención combina los tokens de entrada y revelamos la naturaleza del sesgo inductivo subyacente. Más específicamente, bajo los supuestos de (a) sin codificación posicional, (b) secuencia de entrada larga y (c) que la capa decodificadora aprende más rápido que la capa de autoatención, demostramos que la autoatención actúa como un algoritmo de escaneo discriminativo: partiendo de una atención uniforme, gradualmente presta más atención a tokens clave distintos para un siguiente token específico que se va a predecir, y presta menos atención a tokens clave comunes que aparecen en diferentes tokens siguientes. Entre los tokens distintos, reduce progresivamente los pesos de atención, siguiendo el orden de baja a alta co-ocurrencia entre el token clave y el token de consulta en el conjunto de entrenamiento. Curiosamente, este procedimiento no conduce a un comportamiento de "el ganador se lo lleva todo", sino que se desacelera debido a una transición de fase que es controlable por las tasas de aprendizaje de las dos capas, dejando una combinación de tokens (casi) fija. Verificamos esta dinámica de \emph{escaneo y ajuste} en datos sintéticos y del mundo real (WikiText).
Investigaciones recientes muestran el potencial de mejorar la capacidad de resolución de problemas de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) mediante el uso de herramientas externas. Sin embargo, trabajos previos en esta línea dependen de la disponibilidad de herramientas existentes. En este trabajo, damos un primer paso hacia la eliminación de esta dependencia al proponer un marco de trabajo de ciclo cerrado, denominado LLMs As Tool Makers (LATM), donde los LLMs crean sus propias herramientas reutilizables para la resolución de problemas. Nuestro enfoque consta de dos fases clave: 1) creación de herramientas: un LLM actúa como el creador de herramientas que diseña herramientas para tareas específicas, donde una herramienta se implementa como una función utilitaria en Python. 2) uso de herramientas: un LLM actúa como el usuario de herramientas, que aplica la herramienta construida por el creador para resolver problemas. El usuario de la herramienta puede ser el mismo LLM o uno diferente al creador. La creación de herramientas permite que un LLM genere continuamente herramientas que pueden aplicarse a diferentes solicitudes, de modo que futuras solicitudes puedan invocar las APIs correspondientes cuando sea beneficioso para resolver las tareas. Además, la división del trabajo entre los LLMs en las fases de creación y uso de herramientas introduce la oportunidad de lograr eficiencia en costos sin degradar la calidad de las herramientas generadas ni las soluciones a los problemas. Por ejemplo, al reconocer que la creación de herramientas requiere capacidades más sofisticadas que su uso, podemos aplicar un modelo potente pero intensivo en recursos como el creador de herramientas, y un modelo ligero y rentable como el usuario de herramientas. Validamos la efectividad de nuestro enfoque en una variedad de tareas complejas de razonamiento, incluyendo tareas de Big-Bench. Con GPT-4 como creador de herramientas y GPT-3.5 como usuario de herramientas, LATM puede lograr un rendimiento comparable al uso de GPT-4 tanto para la creación como para el uso de herramientas, mientras que el costo de inferencia se reduce significativamente.
En este artículo, presentamos ControlVideo, un método novedoso para la edición de videos basada en texto. Aprovechando las capacidades de los modelos de difusión de texto a imagen y ControlNet, ControlVideo tiene como objetivo mejorar la fidelidad y la consistencia temporal de los videos que se alinean con un texto dado, preservando al mismo tiempo la estructura del video original. Esto se logra mediante la incorporación de condiciones adicionales, como mapas de bordes, y el ajuste fino de la atención en fotogramas clave y temporal en el par video-texto de origen con estrategias cuidadosamente diseñadas. Se realiza una exploración en profundidad del diseño de ControlVideo para informar futuras investigaciones sobre la sintonización de modelos de difusión de video en una sola toma. Cuantitativamente, ControlVideo supera a una variedad de líneas base competitivas en términos de fidelidad y consistencia, manteniendo la alineación con la indicación textual. Además, produce videos con un alto realismo visual y fidelidad respecto al contenido original, demostrando flexibilidad en el uso de controles que contienen distintos grados de información del video fuente, así como el potencial para múltiples combinaciones de controles. La página del proyecto está disponible en https://ml.cs.tsinghua.edu.cn/controlvideo/{https://ml.cs.tsinghua.edu.cn/controlvideo/}.
Tanto la "sociedad de la mente" de Minsky como el "aprender a pensar" de Schmidhuber inspiran sociedades diversas de grandes redes neuronales multimodales (NN) que resuelven problemas entrevistándose mutuamente en una "tormenta mental". Las implementaciones recientes de sociedades de mentes basadas en NN consisten en grandes modelos de lenguaje (LLM) y otros expertos basados en NN que se comunican a través de una interfaz de lenguaje natural. Al hacerlo, superan las limitaciones de los LLM individuales, mejorando el razonamiento multimodal de cero disparos. En estas sociedades de mentes basadas en lenguaje natural (NLSOM), nuevos agentes —todos comunicándose a través del mismo lenguaje simbólico universal— se añaden fácilmente de manera modular. Para demostrar el poder de las NLSOM, ensamblamos y experimentamos con varias de ellas (con hasta 129 miembros), aprovechando las tormentas mentales en ellas para resolver algunas tareas prácticas de IA: respuesta a preguntas visuales, generación de subtítulos de imágenes, síntesis de texto a imagen, generación 3D, recuperación egocéntrica, IA encarnada y resolución general de tareas basadas en lenguaje. Vemos esto como un punto de partida hacia NLSOM mucho más grandes con miles de millones de agentes, algunos de los cuales podrían ser humanos. Y con este surgimiento de grandes sociedades de mentes heterogéneas, muchas nuevas preguntas de investigación se han vuelto de repente fundamentales para el futuro de la inteligencia artificial. ¿Cuál debería ser la estructura social de una NLSOM? ¿Cuáles serían las (des)ventajas de tener una estructura monárquica en lugar de una democrática? ¿Cómo pueden usarse los principios de las economías de NN para maximizar la recompensa total de una NLSOM de aprendizaje por refuerzo? En este trabajo, identificamos, discutimos y tratamos de responder algunas de estas preguntas.
La alineación social en los sistemas de IA tiene como objetivo garantizar que estos modelos se comporten de acuerdo con los valores sociales establecidos. Sin embargo, a diferencia de los humanos, quienes alcanzan consenso sobre juicios de valor a través de la interacción social, los modelos de lenguaje (LMs) actuales están entrenados para replicar rígidamente su corpus de entrenamiento de forma aislada, lo que resulta en una generalización deficiente en escenarios desconocidos y vulnerabilidad a ataques adversarios. Este trabajo presenta un paradigma de entrenamiento novedoso que permite a los LMs aprender a partir de interacciones sociales simuladas. En comparación con las metodologías existentes, nuestro enfoque es considerablemente más escalable y eficiente, demostrando un rendimiento superior en benchmarks de alineación y evaluaciones humanas. Este cambio de paradigma en el entrenamiento de LMs nos acerca un paso más al desarrollo de sistemas de IA que puedan reflejar de manera robusta y precisa las normas y valores sociales.
Aprender a partir de la retroalimentación humana ha demostrado mejorar los modelos de texto a imagen. Estas técnicas primero aprenden una función de recompensa que captura lo que los humanos valoran en la tarea y luego mejoran los modelos basándose en la función de recompensa aprendida. Aunque se han investigado enfoques relativamente simples (por ejemplo, muestreo por rechazo basado en puntajes de recompensa), el ajuste fino de los modelos de texto a imagen con la función de recompensa sigue siendo un desafío. En este trabajo, proponemos utilizar el aprendizaje por refuerzo (RL) en línea para ajustar finamente los modelos de texto a imagen. Nos enfocamos en los modelos de difusión, definiendo la tarea de ajuste fino como un problema de RL y actualizando los modelos preentrenados de texto a imagen utilizando el gradiente de política para maximizar la recompensa entrenada con retroalimentación. Nuestro enfoque, denominado DPOK, integra la optimización de políticas con la regularización KL. Realizamos un análisis de la regularización KL tanto para el ajuste fino con RL como para el ajuste fino supervisado. En nuestros experimentos, demostramos que DPOK es generalmente superior al ajuste fino supervisado en cuanto a la alineación texto-imagen y la calidad de la imagen.
A medida que los agentes de diálogo se vuelven cada vez más parecidos a los humanos en su desempeño, es imperativo que desarrollemos formas efectivas de describir su comportamiento en términos de alto nivel sin caer en la trampa del antropomorfismo. En este artículo, destacamos el concepto de juego de roles. Enmarcar el comportamiento de los agentes de diálogo en términos de juego de roles nos permite recurrir a términos psicológicos populares familiares, sin atribuir características humanas a los modelos de lenguaje que, de hecho, carecen de ellas. Dos casos importantes del comportamiento de los agentes de diálogo se abordan de esta manera: la (aparente) decepción y la (aparente) autoconciencia.
Presentamos PandaGPT, un enfoque para dotar a los grandes modelos de lenguaje con capacidades de seguimiento de instrucciones visuales y auditivas. Nuestros experimentos piloto muestran que PandaGPT puede realizar tareas complejas, como la generación de descripciones detalladas de imágenes, la escritura de historias inspiradas en videos y la respuesta a preguntas sobre audios. Más interesante aún, PandaGPT puede recibir entradas multimodales simultáneamente y componer sus semánticas de manera natural. Por ejemplo, PandaGPT puede conectar cómo se ven los objetos en una imagen/video y cómo suenan en un audio. Para lograrlo, PandaGPT combina los codificadores multimodales de ImageBind y los grandes modelos de lenguaje de Vicuna. Cabe destacar que solo se requieren pares de imagen-texto alineados para el entrenamiento de PandaGPT. Gracias a la fuerte capacidad de ImageBind para incrustar datos de diferentes modalidades en el mismo espacio, PandaGPT exhibe comportamientos emergentes, es decir, de cero-shot, para datos que no son imagen y texto (por ejemplo, video, audio, profundidad, térmico e IMU). Esperamos que PandaGPT sirva como un primer paso hacia la construcción de una AGI que pueda percibir y comprender entradas en diferentes modalidades de manera holística, como lo hacemos los humanos. Nuestra página del proyecto se encuentra en https://panda-gpt.github.io/.
Los agentes de toma de decisiones basados en modelos de lenguaje de gran escala (LLM) han demostrado la capacidad de generalizar en múltiples tareas. Sin embargo, su rendimiento depende de grandes cantidades de datos y recursos computacionales. Argumentamos que esta ineficiencia surge del fenómeno de olvido, en el cual un modelo memoriza sus comportamientos en los parámetros durante el entrenamiento. Como resultado, entrenar en una nueva tarea puede deteriorar el rendimiento del modelo en tareas anteriores. En contraste con el mecanismo de memoria implícita de los LLM, el cerebro humano utiliza un almacenamiento de memoria distribuido, que ayuda a gestionar y organizar múltiples habilidades de manera eficiente, mitigando el fenómeno de olvido. Inspirados por esto, proponemos un módulo de memoria de trabajo interno para almacenar, combinar y recuperar información para diferentes tareas posteriores. Los resultados de evaluación muestran que el método propuesto mejora la eficiencia del entrenamiento y la generalización tanto en juegos de Atari como en tareas de manipulación de objetos en meta-mundo. Además, demostramos que el ajuste fino de la memoria mejora aún más la adaptabilidad de la arquitectura propuesta.
Presentamos Three Towers (3T), un método flexible para mejorar el aprendizaje contrastivo de modelos de visión y lenguaje mediante la incorporación de clasificadores de imágenes preentrenados. Aunque los modelos contrastivos suelen entrenarse desde cero, LiT (Zhai et al., 2022) ha demostrado recientemente mejoras en el rendimiento al utilizar embeddings de clasificadores preentrenados. Sin embargo, LiT reemplaza directamente la torre de imágenes con los embeddings congelados, excluyendo cualquier beneficio potencial del entrenamiento contrastivo de la torre de imágenes. Con 3T, proponemos una estrategia más flexible que permite que la torre de imágenes se beneficie tanto de los embeddings preentrenados como del entrenamiento contrastivo. Para lograrlo, introducimos una tercera torre que contiene los embeddings preentrenados congelados, y fomentamos la alineación entre esta tercera torre y las torres principales de imagen y texto. Empíricamente, 3T mejora consistentemente sobre LiT y la línea base de estilo CLIP entrenada desde cero en tareas de recuperación. Para clasificación, 3T mejora de manera confiable sobre la línea base entrenada desde cero, y aunque tiene un rendimiento inferior en comparación con LiT para modelos preentrenados con JFT, supera a LiT en preentrenamientos con ImageNet-21k y Places365.
Los modelos de lenguaje autoregresivos se entrenan minimizando la entropía cruzada de la distribución del modelo Q con respecto a la distribución de datos P, es decir, minimizando la entropía cruzada directa, lo que equivale a la estimación de máxima verosimilitud (MLE). Hemos observado que los modelos entrenados de esta manera pueden "sobre-generalizar", en el sentido de que producen texto que no parece humano. Además, creemos que la entropía cruzada inversa, es decir, la entropía cruzada de P con respecto a Q, refleja mejor cómo un humano evaluaría el texto generado por un modelo. Por lo tanto, proponemos el aprendizaje con MixCE, un objetivo que combina las entropías cruzadas directa e inversa. Evaluamos modelos entrenados con este objetivo en configuraciones de datos sintéticos (donde P es conocida) y datos reales, y demostramos que los modelos resultantes generan mejor texto sin necesidad de estrategias de decodificación complejas. Nuestro código y modelos están disponibles públicamente en https://github.com/bloomberg/mixce-acl2023.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) están transformando la sociedad y permeando en diversas aplicaciones. Como resultado, los LLMs interactuarán frecuentemente con nosotros y con otros agentes. Por lo tanto, es de gran valor social comprender cómo se comportan los LLMs en entornos sociales interactivos. Aquí, proponemos utilizar la teoría de juegos conductual para estudiar el comportamiento de cooperación y coordinación de los LLMs. Para ello, hacemos que diferentes LLMs (GPT-3, GPT-3.5 y GPT-4) jueguen partidas repetidas finitas entre sí y con otras estrategias similares a las humanas. Nuestros resultados muestran que los LLMs generalmente se desempeñan bien en estas tareas y también revelan firmas conductuales persistentes. En un amplio conjunto de juegos de dos jugadores y dos estrategias, encontramos que los LLMs son particularmente buenos en juegos donde valorar su propio interés personal es beneficioso, como la familia del Dilema del Prisionero iterado. Sin embargo, se comportan de manera subóptima en juegos que requieren coordinación. Por lo tanto, nos enfocamos en dos juegos de estas familias distintas. En el canónico Dilema del Prisionero iterado, encontramos que GPT-4 actúa de manera particularmente implacable, siempre traicionando después de que otro agente haya traicionado solo una vez. En la Batalla de los Sexos, encontramos que GPT-4 no puede igualar el comportamiento de la simple convención de alternar entre opciones. Verificamos que estas firmas conductuales son estables en controles de robustez. Finalmente, mostramos cómo el comportamiento de GPT-4 puede modificarse proporcionando más información sobre el otro jugador, así como pidiéndole que prediga las acciones del otro jugador antes de tomar una decisión. Estos resultados enriquecen nuestra comprensión del comportamiento social de los LLMs y allanan el camino para una teoría de juegos conductual para máquinas.
Los Transformers tienen capacidades impresionantes de generalización en tareas con una longitud de contexto fija. Sin embargo, no logran generalizar a secuencias de longitud arbitraria, incluso para tareas aparentemente simples como duplicar una cadena. Además, simplemente entrenar con secuencias más largas es ineficiente debido a la complejidad computacional cuadrática del mecanismo de atención global. En este trabajo, demostramos que este modo de fallo está relacionado con que las codificaciones posicionales estén fuera de distribución para secuencias más largas (incluso para codificaciones relativas) e introducimos una nueva familia de codificaciones posicionales que puede superar este problema. Concretamente, nuestro esquema de codificación posicional aleatorizada simula las posiciones de secuencias más largas y selecciona aleatoriamente un subconjunto ordenado para ajustarse a la longitud de la secuencia. Nuestra evaluación empírica a gran escala de 6000 modelos en 15 tareas de razonamiento algorítmico muestra que nuestro método permite a los Transformers generalizar a secuencias de longitud no vista (aumentando la precisión en las pruebas en un 12.0% en promedio).
Los embeddings de tokens, que mapean símbolos léxicos discretos a vectores continuos, son el núcleo de cualquier modelo de lenguaje (LM). Sin embargo, los significados de los símbolos léxicos también pueden determinarse e incluso redefinirse por su rol estructural en un contexto extenso. En este artículo, nos preguntamos: ¿es posible que un modelo de lenguaje sea eficaz sin embeddings de tokens fijos? Tal modelo de lenguaje tendría que depender completamente de la co-ocurrencia y repetición de tokens en el contexto, en lugar de la identidad a priori de cualquier token. Para responder esto, estudiamos modelos de lenguaje lexinvariantes, que son invariantes a los símbolos léxicos y, por lo tanto, no necesitan embeddings de tokens fijos en la práctica. Primero, demostramos que podemos construir un LM lexinvariante que converja al modelo de lenguaje verdadero a una tasa uniforme que es polinómica en términos de la longitud del contexto, con un factor constante que es sublineal en el tamaño del vocabulario. Segundo, para construir un LM lexinvariante, simplemente codificamos los tokens usando vectores gaussianos aleatorios, de modo que cada token se mapee a la misma representación dentro de cada secuencia pero a representaciones diferentes entre secuencias. Empíricamente, demostramos que, efectivamente, puede alcanzar una perplejidad comparable a la de un modelo de lenguaje estándar, dado un contexto suficientemente largo. Además, exploramos dos propiedades de los modelos de lenguaje lexinvariantes: Primero, dado un texto generado a partir de un cifrado por sustitución del inglés, implementa implícitamente un descifrado bayesiano en contexto e infiere el mapeo a los tokens subyacentes con alta precisión. Segundo, tiene en promedio una precisión 4 veces mejor en tareas de razonamiento sintético en contexto. Finalmente, discutimos la regularización de modelos de lenguaje estándar hacia la lexinvarianza y sus posibles aplicaciones prácticas.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés), como GPT-3, han surgido como modelos de lenguaje de propósito general capaces de abordar numerosas tareas de generación o comprensión del lenguaje natural. En la tarea de Traducción Automática (MT, por sus siglas en inglés), múltiples trabajos han explorado mecanismos de indicación de pocos ejemplos (few-shot prompting) para obtener mejores traducciones de los LLMs. Sin embargo, se ha investigado relativamente poco sobre cómo estas traducciones difieren cualitativamente de las generadas por los modelos estándar de Traducción Automática Neuronal (NMT, por sus siglas en inglés). En este trabajo, investigamos estas diferencias en términos de la literalidad de las traducciones producidas por ambos sistemas. Utilizando medidas de literalidad que involucran alineación de palabras y monotonicidad, encontramos que las traducciones del inglés a otros idiomas (E-X) generadas por los GPT tienden a ser menos literales, mientras que muestran puntuaciones similares o mejores en métricas de calidad de MT. Demostramos que este hallazgo también se confirma en evaluaciones humanas. Luego, mostramos que estas diferencias son especialmente pronunciadas al traducir oraciones que contienen expresiones idiomáticas.
Presentamos Backpacks: una nueva arquitectura neuronal que combina un fuerte rendimiento en modelado con una interfaz para interpretabilidad y control. Los Backpacks aprenden múltiples vectores de sentido no contextuales para cada palabra en un vocabulario, y representan una palabra en una secuencia como una combinación lineal no negativa y dependiente del contexto de estos vectores de sentido. Descubrimos que, después del entrenamiento, los vectores de sentido se especializan, cada uno codificando un aspecto diferente de una palabra. Podemos interpretar un vector de sentido inspeccionando su proyección (no contextual y lineal) en el espacio de salida, e intervenir en estos ganchos interpretables para cambiar el comportamiento del modelo de manera predecible. Entrenamos un modelo de lenguaje Backpack de 170M parámetros en OpenWebText, igualando la pérdida de un Transformer GPT-2 pequeño (124M parámetros). En evaluaciones de similitud léxica, encontramos que los vectores de sentido de Backpack superan incluso a los embeddings de palabras de un Transformer LM de 6B parámetros. Finalmente, presentamos algoritmos simples que intervienen en los vectores de sentido para realizar generación de texto controlable y eliminación de sesgos. Por ejemplo, podemos editar el vocabulario de sentido para inclinarse más hacia un tema, o localizar una fuente de sesgo de género en un vector de sentido y suprimir globalmente ese sentido.
El aprendizaje en contexto, una capacidad que permite a un modelo aprender de ejemplos de entrada sobre la marcha sin necesidad de actualizar los pesos, es una característica distintiva de los modelos de lenguaje a gran escala. En este trabajo, seguimos el marco propuesto en (Garg et al., 2022) para comprender mejor la generalidad y las limitaciones del aprendizaje en contexto desde la perspectiva de la tarea simple pero fundamental de la regresión lineal. La pregunta clave que buscamos responder es: ¿Son los transformadores más hábiles que algunas arquitecturas naturales y más simples para realizar aprendizaje en contexto bajo cambios de distribución variables? Para comparar los transformadores, proponemos utilizar una arquitectura simple basada en perceptrones multicapa (MLP) basados en conjuntos. Encontramos que tanto los transformadores como los MLP basados en conjuntos exhiben aprendizaje en contexto en evaluaciones dentro de la distribución, pero los transformadores se acercan más al rendimiento de los mínimos cuadrados ordinarios (OLS). Los transformadores también muestran una mayor resistencia a cambios leves en la distribución, donde los MLP basados en conjuntos fallan. Sin embargo, bajo cambios severos en la distribución, las habilidades de aprendizaje en contexto de ambos modelos disminuyen.
Es comúnmente percibido que los modelos de lenguaje (LMs) más potentes dependen de una combinación de escala masiva, datos de instrucción y retroalimentación humana para realizar tareas especializadas, como la resumen y la paráfrasis, sin supervisión. En este artículo, proponemos que los modelos de lenguaje pueden aprender a resumir y parafrasear oraciones sin ninguno de estos tres factores. Presentamos Impossible Distillation, un marco que destila un conjunto de datos específico para una tarea directamente de un LM estándar, incluso cuando es imposible que el LM mismo resuelva la tarea de manera confiable. Al entrenar un modelo estudiante en el conjunto de datos generado y amplificar su capacidad mediante la auto-distilación, nuestro método produce un modelo y un conjunto de datos de alta calidad a partir de un modelo maestro de baja calidad, sin necesidad de escala o supervisión. Utilizando Impossible Distillation, logramos destilar un modelo un orden de magnitud más pequeño (con solo 770M parámetros) que supera al GPT-3 de 175B parámetros, tanto en calidad como en controlabilidad, según lo confirman evaluaciones automáticas y humanas. Además, como un subproducto útil de nuestro enfoque, obtenemos DIMSUM+, un conjunto de datos de alta calidad con 3.4M resúmenes y paráfrasis de oraciones. Nuestros análisis muestran que este conjunto de datos, como un corpus generado puramente por LM, es más diverso y más efectivo para la generalización a dominios no vistos que todos los conjuntos de datos creados por humanos, incluido Gigaword con 4M muestras.
Los recientes avances en la generación de texto a imagen han permitido un progreso significativo en la generación de formas 3D en modo zero-shot. Esto se logra mediante la destilación de puntuaciones, una metodología que utiliza modelos de difusión preentrenados de texto a imagen para optimizar los parámetros de una representación neural 3D, como el campo de radiancia neural (NeRF). Aunque muestran resultados prometedores, los métodos existentes a menudo no logran preservar la geometría de formas complejas, como los cuerpos humanos. Para abordar este desafío, presentamos ZeroAvatar, un método que introduce un previo explícito del cuerpo humano 3D en el proceso de optimización. Específicamente, primero estimamos y refinamos los parámetros de un cuerpo humano paramétrico a partir de una sola imagen. Luego, durante la optimización, utilizamos el cuerpo paramétrico posado como una restricción geométrica adicional para regularizar tanto el modelo de difusión como el campo de densidad subyacente. Por último, proponemos un término de regularización de textura guiada por UV para guiar aún más la finalización de la textura en partes invisibles del cuerpo. Demostramos que ZeroAvatar mejora significativamente la robustez y la consistencia 3D de la generación de avatares 3D basada en optimización a partir de imágenes, superando a los métodos existentes de imagen a 3D en modo zero-shot.
En la mayoría de las investigaciones actuales, los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) son capaces de realizar tareas de razonamiento generando cadenas de pensamiento mediante la guía de indicaciones específicas. Sin embargo, aún existe una discrepancia significativa entre su capacidad para resolver problemas de razonamiento complejos y la de los seres humanos. En la actualidad, la mayoría de los enfoques se centran en las cadenas de pensamiento (COT, por sus siglas en inglés) y el uso de herramientas, sin considerar la adopción y aplicación de marcos cognitivos humanos. Es bien sabido que, al enfrentarse a desafíos de razonamiento complejos, los humanos suelen emplear diversas habilidades cognitivas y necesitan interactuar con todos los aspectos de las herramientas, el conocimiento y la información del entorno externo para realizar tareas intrincadas. Este artículo introduce un novedoso marco inteligente, denominado OlaGPT. OlaGPT estudió detenidamente un marco de arquitectura cognitiva y propone simular ciertos aspectos de la cognición humana. El marco implica la aproximación de diferentes módulos cognitivos, incluyendo la atención, la memoria, el razonamiento, el aprendizaje y los mecanismos correspondientes de planificación y toma de decisiones. Inspirado por el mecanismo de aprendizaje activo de los seres humanos, propone una unidad de aprendizaje para registrar errores previos y opiniones de expertos, y consultarlos dinámicamente para fortalecer su capacidad de resolver problemas similares. El artículo también describe marcos de razonamiento efectivos comunes para la resolución de problemas humanos y diseña plantillas de Cadenas de Pensamiento (COT) en consecuencia. Además, se propone un mecanismo integral de toma de decisiones para maximizar la precisión del modelo. La eficacia de OlaGPT ha sido evaluada rigurosamente en múltiples conjuntos de datos de razonamiento, y los resultados experimentales revelan que OlaGPT supera los puntos de referencia más avanzados, demostrando su rendimiento superior. Nuestra implementación de OlaGPT está disponible en GitHub: https://github.com/oladata-team/OlaGPT.