ChatPaper.aiChatPaper.ai
Inicio

arXiv

HuggingFace

PreciosCuentaEspacio de trabajo

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: [email protected]

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Modelo Aya: Un Modelo de Lenguaje Multilingüe de Acceso Abierto Ajustado mediante Instrucciones
Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model

Feb 12, 2024
Ahmet Üstün, Viraat Aryabumi, Zheng-Xin Yong, Wei-Yin Ko, Daniel D'souza, Gbemileke Onilude, Neel Bhandari, Shivalika Singh, Hui-Lee Ooi, Amr Kayid, Freddie Vargus, Phil Blunsom, Shayne Longpre, Niklas Muennighoff, Marzieh Fadaee, Julia Kreutzer, Sara Hooker
492

Los avances recientes en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se han centrado en un puñado de idiomas con abundancia de datos. ¿Qué se necesita para ampliar el acceso a estos avances más allá de los idiomas considerados de primera clase? Nuestro trabajo presenta Aya, un modelo generativo de lenguaje masivamente multilingüe que sigue instrucciones en 101 idiomas, de los cuales más del 50% se consideran de recursos limitados. Aya supera a mT0 y BLOOMZ en la mayoría de las tareas, mientras cubre el doble de idiomas. Introdujimos extensas nuevas suites de evaluación que amplían el estado del arte para la evaluación multilingüe en 99 idiomas, incluyendo tareas discriminativas y generativas, evaluación humana y tasas de éxito simuladas que cubren tanto tareas no vistas como el rendimiento dentro de la distribución. Además, realizamos investigaciones detalladas sobre la composición óptima de la mezcla de ajuste fino, la poda de datos, así como la toxicidad, el sesgo y la seguridad de nuestros modelos. Hemos liberado nuestros conjuntos de datos de instrucciones y nuestro modelo en https://hf.co/CohereForAI/aya-101.

OS-Copilot: Hacia agentes informáticos generalistas con capacidad de auto-mejora
OS-Copilot: Towards Generalist Computer Agents with Self-Improvement

Feb 12, 2024
Zhiyong Wu, Chengcheng Han, Zichen Ding, Zhenmin Weng, Zhoumianze Liu, Shunyu Yao, Tao Yu, Lingpeng Kong
464

La interacción autónoma con la computadora ha sido un desafío de larga data con un gran potencial, y la reciente proliferación de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) ha acelerado notablemente el progreso en la construcción de agentes digitales. Sin embargo, la mayoría de estos agentes están diseñados para interactuar con un dominio específico, como un software o sitio web en particular. Este enfoque limitado restringe su aplicabilidad para tareas generales en la computadora. Con este fin, presentamos OS-Copilot, un marco para construir agentes generalistas capaces de interactuar con elementos integrales de un sistema operativo (OS), incluyendo la web, terminales de código, archivos, multimedia y diversas aplicaciones de terceros. Utilizamos OS-Copilot para crear FRIDAY, un agente encarnado que se auto-mejora para automatizar tareas generales en la computadora. En GAIA, un punto de referencia para asistentes de IA generales, FRIDAY supera a los métodos anteriores en un 35%, demostrando una fuerte generalización a aplicaciones no vistas mediante la acumulación de habilidades de tareas previas. También presentamos evidencia numérica y cuantitativa de que FRIDAY aprende a controlar y auto-mejorarse en Excel y Powerpoint con una supervisión mínima. Nuestro marco OS-Copilot y los hallazgos empíricos proporcionan infraestructura y conocimientos para futuras investigaciones hacia agentes computacionales más capaces y de propósito general.

ChemLLM: Un Modelo de Lenguaje de Gran Escala para Química
ChemLLM: A Chemical Large Language Model

Feb 10, 2024
Di Zhang, Wei Liu, Qian Tan, Jingdan Chen, Hang Yan, Yuliang Yan, Jiatong Li, Weiran Huang, Xiangyu Yue, Dongzhan Zhou, Shufei Zhang, Mao Su, Hansen Zhong, Yuqiang Li, Wanli Ouyang
317

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han logrado avances impresionantes en aplicaciones de química, incluyendo la predicción de propiedades moleculares, la generación de moléculas, el diseño de protocolos experimentales, entre otros. Sin embargo, la comunidad carece de un modelo basado en diálogo específicamente diseñado para la química. El desafío surge del hecho de que la mayoría de los datos químicos y el conocimiento científico se almacenan principalmente en bases de datos estructuradas, y el uso directo de estos datos estructurados compromete la capacidad del modelo para mantener un diálogo coherente. Para abordar este problema, desarrollamos un novedoso método de construcción de instrucciones basado en plantillas que transforma el conocimiento estructurado en diálogos en texto plano, haciéndolo adecuado para el entrenamiento de modelos de lenguaje. Al aprovechar este enfoque, desarrollamos ChemLLM, el primer modelo de lenguaje de gran escala dedicado a la química, capaz de realizar diversas tareas en disciplinas químicas con una interacción fluida en diálogo. ChemLLM supera a GPT-3.5 en las tres tareas principales de química, es decir, conversión de nombres, descripción molecular y predicción de reacciones, y supera a GPT-4 en dos de ellas. Notablemente, ChemLLM también muestra una adaptabilidad excepcional a tareas relacionadas con matemáticas y física, a pesar de haber sido entrenado principalmente con corpus centrados en química. Además, ChemLLM demuestra competencia en tareas especializadas de procesamiento de lenguaje natural (NLP) dentro de la química, como la traducción de literatura y la programación quimioinformática. ChemLLM abre una nueva vía de exploración dentro de los estudios químicos, mientras que nuestro método de integrar conocimiento químico estructurado en sistemas de diálogo establece una nueva frontera para el desarrollo de LLMs en diversos campos científicos. Los códigos, conjuntos de datos y pesos del modelo están disponibles públicamente en hf.co/AI4Chem/ChemLLM-7B-Chat.

Fiddler: Orquestación CPU-GPU para Inferencia Rápida en Modelos de Mezcla de Expertos
Fiddler: CPU-GPU Orchestration for Fast Inference of Mixture-of-Experts Models

Feb 10, 2024
Keisuke Kamahori, Yile Gu, Kan Zhu, Baris Kasikci
171

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) basados en la arquitectura de Mezcla de Expertos (MoE, por sus siglas en inglés) están demostrando un rendimiento prometedor en diversas tareas. Sin embargo, ejecutarlos en entornos con recursos limitados, donde la memoria de GPU no es abundante, es un desafío debido al enorme tamaño de los modelos. Los sistemas existentes que descargan los pesos del modelo a la memoria de la CPU sufren de una sobrecarga significativa al mover datos con frecuencia entre la CPU y la GPU. En este artículo, proponemos Fiddler, un motor de inferencia eficiente en recursos con orquestación CPU-GPU para modelos MoE. La idea clave de Fiddler es utilizar la capacidad de cálculo de la CPU para minimizar el movimiento de datos entre la CPU y la GPU. Nuestra evaluación muestra que Fiddler puede ejecutar el modelo Mixtral-8x7B sin comprimir, que supera los 90 GB en parámetros, para generar más de 3 tokens por segundo en una sola GPU con 24 GB de memoria, mostrando una mejora de un orden de magnitud sobre los métodos existentes. El código de Fiddler está disponible públicamente en https://github.com/efeslab/fiddler.

PIVOT: El aviso visual iterativo obtiene conocimiento accionable para los modelos de lenguaje visual
PIVOT: Iterative Visual Prompting Elicits Actionable Knowledge for VLMs

Feb 12, 2024
Soroush Nasiriany, Fei Xia, Wenhao Yu, Ted Xiao, Jacky Liang, Ishita Dasgupta, Annie Xie, Danny Driess, Ayzaan Wahid, Zhuo Xu, Quan Vuong, Tingnan Zhang, Tsang-Wei Edward Lee, Kuang-Huei Lee, Peng Xu, Sean Kirmani, Yuke Zhu, Andy Zeng, Karol Hausman, Nicolas Heess, Chelsea Finn, Sergey Levine, Brian Ichter
162

Los modelos de lenguaje visual (VLMs, por sus siglas en inglés) han demostrado capacidades impresionantes en una variedad de tareas, desde el razonamiento lógico hasta la comprensión visual. Esto abre la puerta a una interacción más rica con el mundo, como, por ejemplo, el control robótico. Sin embargo, los VLMs solo producen salidas textuales, mientras que el control robótico y otras tareas espaciales requieren generar coordenadas continuas, acciones o trayectorias. ¿Cómo podemos permitir que los VLMs manejen este tipo de escenarios sin necesidad de ajustes específicos con datos de la tarea? En este artículo, proponemos un novedoso enfoque de indicación visual para VLMs que denominamos *Prompting with Iterative Visual Optimization* (PIVOT), el cual plantea las tareas como un proceso iterativo de preguntas y respuestas visuales. En cada iteración, la imagen se anota con una representación visual de propuestas a las que el VLM puede referirse (por ejemplo, acciones robóticas candidatas, localizaciones o trayectorias). Luego, el VLM selecciona las mejores para la tarea. Estas propuestas se refinan de manera iterativa, permitiendo que el VLM converja eventualmente hacia la mejor respuesta disponible. Investigamos PIVOT en tareas de navegación robótica en el mundo real, manipulación basada en imágenes, seguimiento de instrucciones en simulación y tareas adicionales de inferencia espacial, como la localización. Encontramos, quizás sorprendentemente, que nuestro enfoque permite el control *zero-shot* de sistemas robóticos sin necesidad de datos de entrenamiento específicos, la navegación en diversos entornos y otras capacidades. Aunque el rendimiento actual está lejos de ser perfecto, nuestro trabajo destaca los potenciales y limitaciones de este nuevo régimen y muestra un enfoque prometedor para los VLMs a escala de Internet en dominios de razonamiento robótico y espacial. Sitio web: pivot-prompt.github.io y HuggingFace: https://huggingface.co/spaces/pivot-prompt/pivot-prompt-demo.

Haciendo que los sistemas de conversión de texto a voz basados en Flow Matching se rían como tú quieras en modo cero-shot
Making Flow-Matching-Based Zero-Shot Text-to-Speech Laugh as You Like

Feb 12, 2024
Naoyuki Kanda, Xiaofei Wang, Sefik Emre Eskimez, Manthan Thakker, Hemin Yang, Zirun Zhu, Min Tang, Canrun Li, Steven Tsai, Zhen Xiao, Yufei Xia, Jinzhu Li, Yanqing Liu, Sheng Zhao, Michael Zeng
161

La risa es uno de los aspectos más expresivos y naturales del habla humana, transmitiendo emociones, señales sociales y humor. Sin embargo, la mayoría de los sistemas de conversión de texto a voz (TTS, por sus siglas en inglés) carecen de la capacidad de producir sonidos de risa realistas y apropiados, lo que limita sus aplicaciones y la experiencia del usuario. Aunque ha habido trabajos previos para generar risas naturales, estos no lograron controlar adecuadamente el momento y la variedad de la risa generada. En este trabajo, proponemos ELaTE, un TTS de cero-shot que puede generar habla risueña natural de cualquier hablante basándose en un breve audio de referencia, con un control preciso del momento y la expresión de la risa. Específicamente, ELaTE utiliza el audio de referencia para imitar las características de la voz, el texto de referencia para indicar el contenido del habla generada, y la entrada para controlar la expresión de la risa, que puede ser el tiempo de inicio y fin de la risa o un audio adicional que contenga la risa a imitar. Desarrollamos nuestro modelo basándonos en la base de un TTS de cero-shot basado en flujo condicional, y lo ajustamos con representaciones a nivel de fotograma de un detector de risa como condicionamiento adicional. Con un esquema simple para mezclar datos a pequeña escala condicionados por la risa con datos de pre-entrenamiento a gran escala, demostramos que un modelo TTS de cero-shot pre-entrenado puede ajustarse fácilmente para generar risas naturales con una controlabilidad precisa, sin perder la calidad del modelo TTS de cero-shot pre-entrenado. A través de las evaluaciones, mostramos que ELaTE puede generar habla risueña con una calidad y controlabilidad significativamente mayores en comparación con los modelos convencionales. Consulte https://aka.ms/elate/ para ver muestras de demostración.

Un relato sobre las colas: El colapso del modelo como un cambio en las leyes de escalamiento
A Tale of Tails: Model Collapse as a Change of Scaling Laws

Feb 10, 2024
Elvis Dohmatob, Yunzhen Feng, Pu Yang, Francois Charton, Julia Kempe
161

A medida que aumenta el tamaño de los modelos de IA, las leyes de escalamiento neuronal se han convertido en una herramienta crucial para predecir las mejoras de los modelos grandes al incrementar su capacidad y el tamaño de los datos de entrenamiento originales (humanos o naturales). Sin embargo, el uso generalizado de modelos populares implica que el ecosistema de datos y texto en línea coevolucionará para contener progresivamente mayores cantidades de datos sintetizados. En este artículo nos preguntamos: ¿Cómo cambiarán las leyes de escalamiento en el régimen inevitable donde los datos sintéticos se incorporan al corpus de entrenamiento? ¿Seguirán mejorando los modelos futuros o estarán condenados a degenerarse hasta alcanzar un colapso total (del modelo)? Desarrollamos un marco teórico del colapso del modelo a través de la lente de las leyes de escalamiento. Descubrimos una amplia gama de fenómenos de deterioro, analizando la pérdida de escalamiento, el escalamiento desplazado con el número de generaciones, el "desaprendizaje" de habilidades y el fenómeno de "grokking" al mezclar datos humanos y sintetizados. Nuestra teoría se valida mediante experimentos a gran escala con un transformador en una tarea aritmética y en la generación de texto utilizando el modelo de lenguaje grande Llama2.

Prismatic VLMs: Explorando el Espacio de Diseño de Modelos de Lenguaje Condicionados Visualmente
Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models

Feb 12, 2024
Siddharth Karamcheti, Suraj Nair, Ashwin Balakrishna, Percy Liang, Thomas Kollar, Dorsa Sadigh
152

Los modelos de lenguaje condicionados visualmente (VLMs, por sus siglas en inglés) han experimentado una creciente adopción en aplicaciones como diálogo visual, comprensión de escenas y planificación de tareas robóticas; una adopción que ha impulsado una gran cantidad de nuevos modelos como LLaVa, InstructBLIP y PaLI-3. A pesar del volumen de nuevos lanzamientos, las decisiones clave de diseño en torno al preprocesamiento de imágenes, la arquitectura y la optimización están poco exploradas, lo que dificulta entender qué factores contribuyen al rendimiento del modelo, un desafío que se complica aún más por la falta de evaluaciones objetivas y consistentes. Para abordar estas brechas, primero compilamos un conjunto de evaluaciones estandarizadas que abarcan la respuesta a preguntas visuales, la localización de objetos a partir del lenguaje y conjuntos de desafíos específicos que exploran propiedades como la alucinación; evaluaciones que proporcionan una visión calibrada y detallada de las capacidades de un VLM. En segundo lugar, investigamos rigurosamente los VLMs a lo largo de ejes clave de diseño, incluyendo representaciones visuales preentrenadas y la cuantificación de las compensaciones entre el uso de modelos de lenguaje base frente a aquellos ajustados mediante instrucciones, entre otros. Complementamos nuestro análisis con tres contribuciones de recursos: (1) un marco unificado para evaluar VLMs, (2) código optimizado y flexible para el entrenamiento de VLMs, y (3) puntos de control para todos los modelos, incluyendo una familia de VLMs en la escala de 7-13B que superan estrictamente a InstructBLIP y LLaVa v1.5, el estado del arte en VLMs de código abierto.

AutoMathText: Selección Autónoma de Datos con Modelos de Lenguaje para Textos Matemáticos
AutoMathText: Autonomous Data Selection with Language Models for Mathematical Texts

Feb 12, 2024
Yifan Zhang, Yifan Luo, Yang Yuan, Andrew Chi-Chih Yao
152

Para mejorar la competencia de los modelos de lenguaje en razonamiento matemático mediante entrenamiento previo continuo, presentamos una estrategia novedosa que aprovecha modelos de lenguaje base para la selección autónoma de datos. A diferencia de los enfoques convencionales de ajuste fino supervisado o clasificadores entrenados con datos anotados manualmente, nuestro método utiliza modelos de lenguaje con meta-prompting como verificadores de cero disparos para evaluar y seleccionar de manera autónoma contenido matemático de alta calidad, y publicamos el conjunto de datos de código abierto AutoMathText, que abarca más de 200 GB de datos. Para demostrar la eficacia de nuestro método, realizamos un entrenamiento previo continuo de un modelo de lenguaje Mistral de 7 mil millones de parámetros en el conjunto de datos AutoMathText, logrando mejoras significativas en el rendimiento posterior en el conjunto de datos MATH, con una cantidad de tokens reducida en órdenes de magnitud en comparación con trabajos previos de entrenamiento previo continuo. Nuestro método muestra un aumento de 2 veces en la eficiencia de tokens durante el entrenamiento previo en comparación con los métodos de referencia, destacando el potencial de nuestro enfoque para mejorar las capacidades de razonamiento matemático de los modelos. El conjunto de datos AutoMathText está disponible en https://huggingface.co/datasets/math-ai/AutoMathText. El código está disponible en https://github.com/yifanzhang-pro/AutoMathText.

Leyes de Escalado para Mezclas de Expertos de Granularidad Fina
Scaling Laws for Fine-Grained Mixture of Experts

Feb 12, 2024
Jakub Krajewski, Jan Ludziejewski, Kamil Adamczewski, Maciej Pióro, Michał Krutul, Szymon Antoniak, Kamil Ciebiera, Krystian Król, Tomasz Odrzygóźdź, Piotr Sankowski, Marek Cygan, Sebastian Jaszczur
141

Los modelos de Mezcla de Expertos (MoE, por sus siglas en inglés) han surgido como una solución principal para reducir el costo computacional de los Modelos de Lenguaje a Gran Escala. En este trabajo, analizamos sus propiedades de escalabilidad, incorporando un rango ampliado de variables. Específicamente, introducimos un nuevo hiperparámetro, la granularidad, cuyo ajuste permite un control preciso sobre el tamaño de los expertos. Basándonos en esto, establecemos leyes de escalabilidad para MoE de grano fino, teniendo en cuenta el número de tokens de entrenamiento, el tamaño del modelo y la granularidad. Aprovechando estas leyes, derivamos la configuración óptima de entrenamiento para un presupuesto computacional dado. Nuestros hallazgos no solo muestran que los modelos MoE superan consistentemente a los Transformers densos, sino que también destacan que la brecha de eficiencia entre los modelos densos y los MoE se amplía a medida que escalamos el tamaño del modelo y el presupuesto de entrenamiento. Además, demostramos que la práctica común de establecer el tamaño de los expertos en MoE para que refleje la capa de avance no es óptima en casi ningún presupuesto computacional.

ODIN: La recompensa desenredada mitiga el hacking en RLHF
ODIN: Disentangled Reward Mitigates Hacking in RLHF

Feb 11, 2024
Lichang Chen, Chen Zhu, Davit Soselia, Jiuhai Chen, Tianyi Zhou, Tom Goldstein, Heng Huang, Mohammad Shoeybi, Bryan Catanzaro
141

En este trabajo, estudiamos el problema del "reward hacking" en la longitud de las respuestas, un desafío que surge en el Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF) aplicado a modelos de lenguaje grandes (LLMs). Una respuesta bien formateada, extensa pero menos útil de los LLMs puede a menudo engañar tanto a los propios LLMs como a los evaluadores humanos para obtener puntuaciones altas. Este mismo problema también se presenta en algunos modelos de recompensa en RL. Para abordar los desafíos tanto en el entrenamiento como en la evaluación, establecemos un protocolo de evaluación más confiable para comparar diferentes configuraciones de entrenamiento, el cual examina la relación entre la puntuación de evaluación del LLM y la longitud de la respuesta obtenida al variar los hiperparámetros de entrenamiento. Basándonos en esta evaluación, realizamos estudios a gran escala, cuyos resultados arrojan luz sobre la eficacia de los hiperparámetros y técnicas utilizadas en RL para mitigar el sesgo de longitud. Además, proponemos mejorar el modelo de recompensa entrenando conjuntamente dos cabezales lineales sobre representaciones de características compartidas para predecir las recompensas: uno entrenado para correlacionarse con la longitud y otro entrenado para descorrelacionarse con la longitud y, por lo tanto, enfocarse más en el contenido real. Luego, descartamos el cabezal de longitud en RL para evitar el "reward hacking" relacionado con la longitud. Los experimentos demuestran que nuestro enfoque casi elimina la correlación de la recompensa con la longitud y mejora significativamente la política obtenida.

LiRank: Modelos de Clasificación a Gran Escala Industrial en LinkedIn
LiRank: Industrial Large Scale Ranking Models at LinkedIn

Feb 10, 2024
Fedor Borisyuk, Mingzhou Zhou, Qingquan Song, Siyu Zhu, Birjodh Tiwana, Ganesh Parameswaran, Siddharth Dangi, Lars Hertel, Qiang Xiao, Xiaochen Hou, Yunbo Ouyang, Aman Gupta, Sheallika Singh, Dan Liu, Hailing Cheng, Lei Le, Jonathan Hung, Sathiya Keerthi, Ruoyan Wang, Fengyu Zhang, Mohit Kothari, Chen Zhu, Daqi Sun, Yun Dai, Xun Luan, Sirou Zhu, Zhiwei Wang, Neil Daftary, Qianqi Shen, Chengming Jiang, Haichao Wei, Maneesh Varshney, Amol Ghoting, Souvik Ghosh
131

Presentamos LiRank, un marco de clasificación a gran escala en LinkedIn que lleva a producción arquitecturas de modelado y métodos de optimización de vanguardia. Revelamos varias mejoras en el modelado, incluyendo Residual DCN, que añade conexiones de atención y residuales a la famosa arquitectura DCNv2. Compartimos ideas sobre cómo combinar y ajustar arquitecturas SOTA para crear un modelo unificado, incluyendo Dense Gating, Transformers y Residual DCN. También proponemos técnicas novedosas para la calibración y describimos cómo llevamos a producción métodos de exploración/explotación basados en aprendizaje profundo. Para permitir un servicio efectivo y de nivel productivo para modelos de clasificación grandes, detallamos cómo entrenar y comprimir modelos usando cuantización y compresión de vocabulario. Proporcionamos detalles sobre la configuración de despliegue para casos de uso a gran escala en la clasificación del Feed, recomendaciones de empleo y predicción de la tasa de clics (CTR) en anuncios. Resumimos nuestros aprendizajes de varias pruebas A/B al elucidar los enfoques técnicos más efectivos. Estas ideas han contribuido a mejoras relativas en las métricas en LinkedIn: +0.5% en sesiones de miembros en el Feed, +1.76% en solicitudes de empleo calificadas para búsqueda y recomendaciones de empleo, y +4.3% en CTR de anuncios. Esperamos que este trabajo pueda proporcionar ideas prácticas y soluciones para profesionales interesados en aprovechar sistemas de clasificación profunda a gran escala.

GALA3D: Hacia la generación de escenas complejas de texto a 3D mediante Gaussian Splatting generativo guiado por diseño
GALA3D: Towards Text-to-3D Complex Scene Generation via Layout-guided Generative Gaussian Splatting

Feb 11, 2024
Xiaoyu Zhou, Xingjian Ran, Yajiao Xiong, Jinlin He, Zhiwei Lin, Yongtao Wang, Deqing Sun, Ming-Hsuan Yang
111

Presentamos GALA3D, Gaussianas 3D generativas con control guiado por diseño (LAyout-guided), para una generación efectiva de texto a 3D de naturaleza composicional. Primero, utilizamos modelos de lenguaje de gran escala (LLMs) para generar el diseño inicial e introducimos una representación de Gaussianas 3D guiada por diseño para la generación de contenido 3D con restricciones geométricas adaptativas. Luego, proponemos un mecanismo de optimización composicional objeto-escena con difusión condicionada para generar colaborativamente escenas 3D realistas con geometría, textura, escala e interacciones precisas entre múltiples objetos, mientras ajustamos simultáneamente los diseños preliminares extraídos de los LLMs para alinearlos con la escena generada. Los experimentos muestran que GALA3D es un marco de trabajo integral y fácil de usar para la generación de contenido 3D a nivel de escena de última generación y edición controlable, garantizando la alta fidelidad de las entidades a nivel de objeto dentro de la escena. Los códigos fuente y modelos estarán disponibles en https://gala3d.github.io/.

Afinamiento Paso a Paso: Escalando la Autoalineación de Modelos de Lenguaje mediante Bootstrapping
Step-On-Feet Tuning: Scaling Self-Alignment of LLMs via Bootstrapping

Feb 12, 2024
Haoyu Wang, Guozheng Ma, Ziqiao Meng, Zeyu Qin, Li Shen, Zhong Zhang, Bingzhe Wu, Liu Liu, Yatao Bian, Tingyang Xu, Xueqian Wang, Peilin Zhao
101

La autoalineación es una forma efectiva de reducir el costo de la anotación humana mientras se garantiza una capacidad prometedora del modelo. Sin embargo, la mayoría de los métodos actuales completan los pasos de recopilación de datos y entrenamiento en una sola ronda, lo que puede pasar por alto la capacidad en constante mejora de los modelos autoalineados. Esto plantea una pregunta clave: ¿Qué sucede si realizamos una autoalineación con arranque múltiple? ¿Esta estrategia mejora el rendimiento del modelo o conduce a una degradación rápida? En este artículo, nuestra exploración pionera profundiza en el impacto de la autoalineación con arranque en modelos de lenguaje grandes. Nuestros hallazgos revelan que la autoalineación con arranque supera notablemente el enfoque de una sola ronda, al garantizar la diversidad de datos mediante el aprendizaje en contexto. Para explotar aún más las capacidades del arranque, investigamos y ajustamos el orden de entrenamiento de los datos, lo que resulta en un mejor rendimiento del modelo. Basándonos en estos hallazgos, proponemos Step-On-Feet Tuning (SOFT), que aprovecha la capacidad de pocos ejemplos en constante mejora del modelo para impulsar el rendimiento en cero o un solo ejemplo. Basándonos en una receta de entrenamiento de fácil a difícil, proponemos SOFT+, que mejora aún más el rendimiento de la autoalineación. Nuestros experimentos demuestran la eficiencia de SOFT (SOFT+) en diversas tareas de clasificación y generación, destacando el potencial de la autoalineación con arranque para mejorar continuamente el rendimiento de alineación del modelo.

Mejora de políticas mediante modelos de retroalimentación basados en lenguaje
Policy Improvement using Language Feedback Models

Feb 12, 2024
Victor Zhong, Dipendra Misra, Xingdi Yuan, Marc-Alexandre Côté
91

Presentamos los Modelos de Retroalimentación de Lenguaje (LFMs, por sus siglas en inglés) que identifican comportamientos deseables —acciones que ayudan a cumplir las tareas especificadas en la instrucción— para el aprendizaje por imitación en el seguimiento de instrucciones. Para entrenar los LFMs, obtenemos retroalimentación de Modelos de Lenguaje de Gran Escala (LLMs) sobre trayectorias visuales verbalizadas en descripciones lingüísticas. Primero, al utilizar LFMs para identificar comportamientos deseables que imitar, mejoramos la tasa de finalización de tareas en comparación con líneas base sólidas de clonación conductual en tres entornos distintos de fundamentación lingüística (Touchdown, ScienceWorld y ALFWorld). Segundo, los LFMs superan el uso de LLMs como expertos para predecir acciones directamente, al controlar el número de tokens de salida de los LLMs. Tercero, los LFMs generalizan a entornos no vistos, mejorando la tasa de finalización de tareas en un 3.5-12.0% mediante una ronda de adaptación. Finalmente, el LFM puede modificarse para proporcionar retroalimentación interpretable por humanos sin pérdida de rendimiento, permitiendo la verificación humana de comportamientos deseables para el aprendizaje por imitación.

Feb 12
Feb 13
Feb 14