Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos de lenguaje de contexto largo (LLMs) actuales pueden procesar entradas de hasta 100,000 tokens, pero tienen dificultades para generar salidas que superen incluso una longitud modesta de 2,000 palabras. A través de experimentos controlados, descubrimos que la longitud efectiva de generación del modelo está inherentemente limitada por la muestra que ha visto durante el ajuste fino supervisado (SFT). En otras palabras, su limitación de salida se debe a la escasez de ejemplos de salida largos en los conjuntos de datos existentes de SFT. Para abordar esto, presentamos AgentWrite, un pipeline basado en agentes que descompone tareas de generación ultra largas en subtareas, lo que permite a los LLMs listos para usar generar salidas coherentes que superan las 20,000 palabras. Aprovechando AgentWrite, creamos LongWriter-6k, un conjunto de datos que contiene 6,000 datos de SFT con longitudes de salida que van desde 2k hasta 32k palabras. Al incorporar este conjunto de datos en el entrenamiento del modelo, logramos escalar con éxito la longitud de salida de los modelos existentes a más de 10,000 palabras manteniendo la calidad de la salida. También desarrollamos LongBench-Write, un benchmark integral para evaluar las capacidades de generación ultra largas. Nuestro modelo de 9B parámetros, mejorado aún más a través de DPO, logra un rendimiento de vanguardia en este benchmark, superando incluso a modelos propietarios mucho más grandes. En general, nuestro trabajo demuestra que los LLMs de contexto largo existentes ya poseen el potencial para una ventana de salida más grande, todo lo que se necesita es datos con salida extendida durante el alineamiento del modelo para desbloquear esta capacidad. Nuestro código y modelos están en: https://github.com/THUDM/LongWriter.
Presentamos Imagen 3, un modelo de difusión latente que genera imágenes de alta calidad a partir de indicaciones de texto. Describimos nuestras evaluaciones de calidad y responsabilidad. Imagen 3 es preferido sobre otros modelos de última generación en el momento de la evaluación. Además, discutimos cuestiones relacionadas con la seguridad y la representación, así como los métodos que utilizamos para minimizar el posible daño de nuestros modelos.
Los agentes de modelos de lenguaje grande (LLM) han demostrado un gran potencial en la resolución de problemas de ingeniería de software (SWE) del mundo real. El agente de SWE de código abierto más avanzado puede resolver más del 27% de problemas reales de GitHub en SWE-Bench Lite. Sin embargo, estos sofisticados marcos de agentes exhiben fortalezas variables, destacando en ciertas tareas mientras tienen un rendimiento inferior en otras. Para aprovechar al máximo la diversidad de estos agentes, proponemos DEI (Inteligencia Potenciada por la Diversidad), un marco que aprovecha su experiencia única. DEI funciona como un meta-módulo encima de los marcos de agentes de SWE existentes, gestionando colectivos de agentes para una resolución de problemas mejorada. Los resultados experimentales muestran que un comité de agentes guiado por DEI puede superar el rendimiento del mejor agente individual por un amplio margen. Por ejemplo, un grupo de agentes de SWE de código abierto, con una tasa máxima de resolución individual del 27.3% en SWE-Bench Lite, puede lograr una tasa de resolución del 34.3% con DEI, obteniendo una mejora del 25% y superando la mayoría de las soluciones de código cerrado. Nuestro grupo de mejor rendimiento destaca con una tasa de resolución del 55%, asegurando el puesto más alto en SWE-Bench Lite. Nuestros hallazgos contribuyen al creciente cuerpo de investigación sobre sistemas de IA colaborativos y su potencial para resolver desafíos complejos de ingeniería de software.
El rápido crecimiento de la literatura científica impone desafíos significativos para los investigadores que se esfuerzan por mantenerse actualizados con los últimos avances en sus campos y adentrarse en nuevas áreas. Presentamos OpenResearcher, una plataforma innovadora que aprovecha técnicas de Inteligencia Artificial (IA) para acelerar el proceso de investigación al responder diversas preguntas de los investigadores. OpenResearcher se basa en Retrieval-Augmented Generation (RAG) para integrar Modelos de Lenguaje Grandes (LLMs) con conocimiento actualizado y específico del dominio. Además, desarrollamos varias herramientas para que OpenResearcher comprenda las consultas de los investigadores, busque en la literatura científica, filtre la información recuperada, proporcione respuestas precisas y completas, y se auto-perfeccione. OpenResearcher puede utilizar de manera flexible estas herramientas para equilibrar la eficiencia y la efectividad. Como resultado, OpenResearcher permite a los investigadores ahorrar tiempo y aumentar su potencial para descubrir nuevas ideas y propiciar avances científicos. Una demostración, video y código están disponibles en: https://github.com/GAIR-NLP/OpenResearcher.
La escalabilidad de los modelos de lenguaje grandes (LLMs) ha revolucionado sus capacidades en diversas tareas, sin embargo, este crecimiento debe ir de la mano de estrategias computacionales eficientes. La arquitectura de Mezcla de Expertos (MoE) destaca por su capacidad de escalar el tamaño del modelo sin aumentar significativamente los costos de entrenamiento. A pesar de sus ventajas, los modelos MoE actuales a menudo muestran ineficiencia en los parámetros. Por ejemplo, un LLM basado en MoE pre-entrenado con 52 mil millones de parámetros podría tener un rendimiento comparable a un modelo estándar con 6.7 mil millones de parámetros. Siendo una parte crucial de MoE, los enrutadores actuales en diferentes capas asignan tokens de forma independiente sin aprovechar la información de enrutamiento histórica, lo que podría llevar a combinaciones subóptimas de tokens-experto y al problema de ineficiencia de parámetros. Para aliviar este problema, presentamos el Enrutador Recurrente por Capas para Mezcla de Expertos (RMoE). RMoE aprovecha una Unidad Recurrente con Compuertas (GRU) para establecer dependencias entre decisiones de enrutamiento a lo largo de capas consecutivas. Esta recurrencia por capas puede calcularse eficientemente en paralelo para tokens de entrada e introduce costos negociables. Nuestras extensas evaluaciones empíricas demuestran que los modelos de lenguaje basados en RMoE superan consistentemente a una variedad de modelos de referencia. Además, RMoE integra una etapa de cálculo novedosa, ortogonal a los métodos existentes, lo que permite una compatibilidad perfecta con otras arquitecturas de MoE. Nuestros análisis atribuyen las mejoras de RMoE a su efectivo intercambio de información entre capas, lo que también mejora la selección y diversidad de expertos. Nuestro código está disponible en https://github.com/qiuzh20/RMoE
The development of large language models leads to the formation of a pre-train-then-align paradigm, in which the model is typically pre-trained on a large text corpus and undergoes a tuning stage to align the model with human preference or downstream tasks. In this work, we investigate the relationship between pre-training and fine-tuning by fine-tuning multiple intermediate pre-trained model checkpoints. Our results on 18 datasets suggest that i) continual pre-training improves the model in a latent way that unveils after fine-tuning; ii) with extra fine-tuning, the datasets that the model does not demonstrate capability gain much more than those that the model performs well during the pre-training stage; iii) although model benefits significantly through supervised fine-tuning, it may forget previously known domain knowledge and the tasks that are not seen during fine-tuning; iv) the model resembles high sensitivity to evaluation prompts after supervised fine-tuning, but this sensitivity can be alleviated by more pre-training.
La capacidad de destilar abstracciones centradas en objetos de escenas visuales intrincadas sustenta la generalización a nivel humano. A pesar del progreso significativo en los métodos de aprendizaje centrados en objetos, aprender representaciones centradas en objetos en el mundo físico en 3D sigue siendo un desafío crucial. En este trabajo, proponemos SlotLifter, un novedoso modelo de radiación centrado en objetos que aborda la reconstrucción y descomposición de escenas de manera conjunta a través de un levantamiento de características guiado por ranuras. Este diseño une representaciones de aprendizaje centradas en objetos y métodos de renderizado basados en imágenes, ofreciendo un rendimiento de vanguardia en la descomposición de escenas y la síntesis de nuevas vistas en cuatro desafiantes conjuntos de datos sintéticos y cuatro complejos conjuntos de datos del mundo real, superando de manera significativa a los métodos existentes de aprendizaje centrado en objetos en 3D. A través de exhaustivos estudios ablativos, demostramos la eficacia de los diseños en SlotLifter, revelando ideas clave para posibles direcciones futuras.
Inspirado por el énfasis de Geoffrey Hinton en la modelización generativa, "Para reconocer formas, primero aprende a generarlas", exploramos el uso de modelos de difusión en 3D para la clasificación de objetos. Aprovechando las estimaciones de densidad de estos modelos, nuestro enfoque, el Clasificador de Difusión para Objetos en 3D (DC3DO), permite la clasificación de formas en 3D sin entrenamiento adicional. En promedio, nuestro método logra una mejora del 12.5 por ciento en comparación con sus contrapartes de múltiples vistas, demostrando un razonamiento multimodal superior sobre enfoques discriminativos. DC3DO emplea un modelo de difusión condicional a la clase entrenado en ShapeNet, y realizamos inferencias en nubes de puntos de sillas y coches. Este trabajo destaca el potencial de los modelos generativos en la clasificación de objetos en 3D.
UniT es un enfoque novedoso para el aprendizaje de representaciones táctiles, utilizando VQVAE para aprender un espacio latente compacto y servir como la representación táctil. Utiliza imágenes táctiles obtenidas de un único objeto simple para entrenar la representación con transferibilidad y generalizabilidad. Esta representación táctil puede transferirse de manera "zero-shot" a varias tareas posteriores, incluyendo tareas de percepción y aprendizaje de políticas de manipulación. Nuestro análisis comparativo en una tarea de estimación de postura 3D en la mano muestra que UniT supera a los métodos existentes de aprendizaje de representaciones visuales y táctiles. Además, la efectividad de UniT en el aprendizaje de políticas se demuestra en tres tareas del mundo real que involucran objetos manipulados diversos e interacciones complejas entre robots, objetos y el entorno. A través de experimentación extensiva, se muestra que UniT es un método simple de entrenar, listo para usar, pero ampliamente efectivo para el aprendizaje de representaciones táctiles. Para más detalles, por favor consulte nuestro repositorio de código abierto en https://github.com/ZhengtongXu/UniT y el sitio web del proyecto en https://zhengtongxu.github.io/unifiedtactile.github.io/.
Los modelos de lenguaje grandes (LLMs) han demostrado habilidades en una amplia gama de tareas. Sin embargo, muchos LLMs muestran discrepancias significativas de rendimiento entre idiomas de alto y bajo recurso. Para mitigar este desafío, presentamos FuxiTranyu, un LLM multilingüe de código abierto, diseñado para satisfacer la necesidad de la comunidad investigadora de capacidades multilingües equilibradas y de alto rendimiento. FuxiTranyu-8B, el modelo base con 8 mil millones de parámetros, se entrena desde cero en un repositorio de datos multilingüe meticulosamente equilibrado que contiene 600 mil millones de tokens que abarcan 43 idiomas naturales y 16 lenguajes de programación. Además del modelo base, también desarrollamos dos modelos ajustados a instrucciones: FuxiTranyu-8B-SFT, que se ajusta finamente en un conjunto de datos de instrucciones multilingüe diverso, y FuxiTranyu-8B-DPO, que se perfecciona aún más con DPO en un conjunto de datos de preferencias para una capacidad de alineación mejorada. Experimentos extensos en una amplia gama de pruebas multilingües demuestran el rendimiento competitivo de FuxiTranyu frente a LLMs multilingües existentes, como BLOOM-7B, PolyLM-13B, Llama-2-Chat-7B y Mistral-7B-Instruct. Los análisis de interpretabilidad a nivel de neurona y representación sugieren que FuxiTranyu es capaz de aprender representaciones multilingües consistentes en diferentes idiomas. Para promover una mayor investigación en LLMs multilingües y sus mecanismos de funcionamiento, lanzamos tanto los modelos base como los ajustados a instrucciones de FuxiTranyu junto con 58 puntos de control de preentrenamiento en HuggingFace y Github.
La síntesis de guiones de películas es un desafío, ya que requiere comprender contextos de entrada extensos y varios elementos únicos de las películas. Los grandes modelos de lenguaje han demostrado avances significativos en la síntesis de documentos, pero a menudo tienen dificultades para procesar contextos de entrada largos. Además, mientras que las transcripciones de televisión han recibido atención en estudios recientes, la síntesis de guiones de películas sigue siendo poco explorada. Para estimular la investigación en esta área, presentamos un nuevo conjunto de datos, MovieSum, para la síntesis abtractiva de guiones de películas. Este conjunto de datos consta de 2200 guiones de películas acompañados de sus resúmenes de trama de Wikipedia. Formateamos manualmente los guiones de películas para representar sus elementos estructurales. En comparación con los conjuntos de datos existentes, MovieSum posee varias características distintivas: (1) Incluye guiones de películas, que son más largos que los guiones de episodios de televisión. (2) Es el doble de tamaño que los conjuntos de datos anteriores de guiones de películas. (3) Proporciona metadatos con identificadores de IMDb para facilitar el acceso a conocimientos externos adicionales. También mostramos los resultados de los grandes modelos de lenguaje recientemente lanzados aplicados a la síntesis en nuestro conjunto de datos para proporcionar una línea base detallada.
Los LLM pre-entrenados han demostrado capacidades sustanciales en una variedad de tareas convencionales de procesamiento del lenguaje natural (NLP), como resumen y reconocimiento de entidades. En este artículo, exploramos la aplicación de LLM en la generación de secuencias de proteínas de alta calidad. Específicamente, adoptamos un conjunto de LLM pre-entrenados, incluyendo Mistral-7B1, Llama-2-7B2, Llama-3-8B3 y gemma-7B4, para producir secuencias de proteínas válidas. Todos estos modelos están disponibles públicamente. A diferencia de trabajos anteriores en este campo, nuestro enfoque utiliza un conjunto de datos relativamente pequeño que consta de 42,000 secuencias de proteínas humanas distintas. Retraining estos modelos para procesar datos relacionados con proteínas, garantizando la generación de estructuras de proteínas biológicamente factibles. Nuestros hallazgos demuestran que incluso con datos limitados, los modelos adaptados muestran una eficiencia comparable a modelos establecidos centrados en proteínas como las variedades de ProGen, ProtGPT2 y ProLLaMA, que fueron entrenados en millones de secuencias de proteínas. Para validar y cuantificar el rendimiento de nuestros modelos, realizamos análisis comparativos utilizando métricas estándar como pLDDT, RMSD, TM-score y REU. Además, nos comprometemos a hacer públicamente disponibles las versiones entrenadas de los cuatro modelos, fomentando una mayor transparencia y colaboración en el campo de la biología computacional.
Tanto para humanos como para robots, el sentido del tacto, conocido como percepción táctil, es fundamental para realizar tareas de manipulación ricas en contacto. Tres desafíos clave en la percepción táctil robótica son 1) interpretar las señales del sensor, 2) generar señales del sensor en escenarios novedosos, y 3) aprender políticas basadas en el sensor. Para los sensores visuotáctiles, la interpretación ha sido facilitada por su estrecha relación con los sensores visuales (por ejemplo, cámaras RGB). Sin embargo, la generación sigue siendo difícil, ya que los sensores visuotáctiles suelen implicar contacto, deformación, iluminación e imágenes, todos los cuales son costosos de simular; a su vez, el aprendizaje de políticas ha sido desafiante, ya que la simulación no se puede aprovechar para la recopilación de datos a gran escala. Presentamos TacSL (taxel), una biblioteca para la simulación y aprendizaje de sensores visuotáctiles basada en GPU. TacSL se puede utilizar para simular imágenes visuotáctiles y extraer distribuciones de fuerza de contacto más de 200 veces más rápido que el estado del arte anterior, todo dentro del simulador Isaac Gym ampliamente utilizado. Además, TacSL proporciona un conjunto de herramientas de aprendizaje que contiene múltiples modelos de sensores, entornos de entrenamiento intensivos en contacto y algoritmos en línea/fuera de línea que pueden facilitar el aprendizaje de políticas para aplicaciones de simulación a la realidad. En el lado algorítmico, presentamos un nuevo algoritmo de aprendizaje por refuerzo en línea llamado destilación asimétrica actor-critic (\sysName), diseñado para aprender políticas basadas en el tacto de manera efectiva y eficiente en simulación que puedan transferirse al mundo real. Finalmente, demostramos la utilidad de nuestra biblioteca y algoritmos evaluando los beneficios de la destilación y la percepción multimodal para tareas de manipulación ricas en contacto, y lo más crítico, realizando la transferencia de simulación a realidad. Se pueden encontrar videos y resultados complementarios en https://iakinola23.github.io/tacsl/.
Los modelos de generación de texto a imagen basados en difusión han avanzado significativamente en el campo de la síntesis de contenido artístico. Sin embargo, los métodos actuales de estilización de retratos generalmente requieren o bien un ajuste fino del modelo basado en ejemplos o el empleo de la Inversión DDIM para revertir las imágenes al espacio de ruido, ambos procesos que ralentizan sustancialmente la generación de imágenes. Para superar estas limitaciones, este artículo presenta un marco de estilización de retratos sin inversión basado en modelos de difusión que logra la fusión de rasgos de contenido y estilo en tan solo cuatro pasos de muestreo. Observamos que los Modelos de Consistencia Latente que emplean destilación de consistencia pueden extraer de manera efectiva Rasgos de Consistencia representativos de imágenes ruidosas. Para combinar los Rasgos de Consistencia extraídos de imágenes de contenido y estilo, introducimos una técnica de Control de Atención de Mejora de Estilo que fusiona meticulosamente los rasgos de contenido y estilo dentro del espacio de atención de la imagen objetivo. Además, proponemos una estrategia de fusión de rasgos para amalgamar rasgos redundantes en los Rasgos de Consistencia, reduciendo así la carga computacional del control de atención. Experimentos extensos han validado la efectividad de nuestro marco propuesto en mejorar la eficiencia y fidelidad de la estilización. El código está disponible en https://github.com/liujin112/ZePo.
Un sistema general de anonimización de locutores basado en el desentrelazado típicamente separa el habla en características de contenido, locutor y prosodia utilizando codificadores individuales. Este documento explora cómo adaptar dicho sistema cuando se necesita preservar en mayor medida un nuevo atributo del habla, por ejemplo, la emoción. Si bien los sistemas existentes son buenos para anonimizar las incrustaciones de locutores, no están diseñados para preservar la emoción. Se examinan dos estrategias para esto. En primer lugar, mostramos que integrar incrustaciones de emoción de un codificador de emoción preentrenado puede ayudar a preservar las señales emocionales, aunque este enfoque compromete ligeramente la protección de la privacidad. Como alternativa, proponemos una estrategia de compensación emocional como un paso de postprocesamiento aplicado a las incrustaciones de locutores anonimizados. Esto oculta la identidad del locutor original y reintroduce los rasgos emocionales perdidos durante la anonimización de las incrustaciones de locutores. Específicamente, modelamos el atributo de emoción utilizando máquinas de vectores de soporte para aprender límites separados para cada emoción. Durante la inferencia, la incrustación de locutor original se procesa de dos maneras: uno, mediante un indicador de emoción para predecir la emoción y seleccionar con precisión la SVM coincidente con la emoción; y dos, mediante un anonimizador de locutores para ocultar las características del locutor. La incrustación de locutor anonimizado se modifica luego a lo largo del límite SVM correspondiente hacia una dirección emocional mejorada para preservar las señales emocionales. Se espera que las estrategias propuestas también sean útiles para adaptar un sistema general de anonimización de locutores basado en el desentrelazado para preservar otros atributos paralingüísticos objetivo, con potencial para una variedad de tareas posteriores.