Artículos de investigación en IA seleccionados diariamente con traducciones
Exploramos una estrategia de búsqueda evolutiva para escalar el tiempo de inferencia computacional en Modelos de Lenguaje Grandes. El enfoque propuesto, Evolución Mental, utiliza un modelo de lenguaje para generar, recombinar y refinar respuestas candidatas. El enfoque propuesto evita la necesidad de formalizar el problema de inferencia subyacente siempre que se disponga de un evaluador de soluciones. Controlando el costo de inferencia, encontramos que la Evolución Mental supera significativamente a otras estrategias de inferencia como Mejor-de-N y Revisión Secuencial en tareas de planificación de lenguaje natural. En los benchmarks de Planificador de Viajes y Planificación Natural, la Evolución Mental resuelve más del 98% de las instancias del problema utilizando Gemini 1.5 Pro sin necesidad de un solucionador formal.
Presentamos PaSa, un avanzado agente de Búsqueda de Artículos impulsado por grandes modelos de lenguaje. PaSa puede tomar decisiones de forma autónoma, como invocar herramientas de búsqueda, leer artículos y seleccionar referencias relevantes, para finalmente obtener resultados completos y precisos para consultas académicas complejas. Optimizamos PaSa utilizando aprendizaje por refuerzo con un conjunto de datos sintético, AutoScholarQuery, que incluye 35k consultas académicas detalladas y los artículos correspondientes obtenidos de publicaciones de conferencias de IA de primer nivel. Además, desarrollamos RealScholarQuery, un conjunto de datos de referencia que recopila consultas académicas del mundo real para evaluar el rendimiento de PaSa en escenarios más realistas. A pesar de estar entrenado con datos sintéticos, PaSa supera significativamente a los baselines existentes en RealScholarQuery, incluidos Google, Google Scholar, Google con GPT-4 para consultas parafraseadas, chatGPT (GPT-4o habilitado para búsqueda), GPT-o1 y PaSa-GPT-4o (PaSa implementado mediante GPT-4o como prompt). Destacadamente, PaSa-7B supera al mejor baseline basado en Google, Google con GPT-4o, en un 37.78% en recall@20 y un 39.90% en recall@50. También supera a PaSa-GPT-4o en un 30.36% en recall y un 4.25% en precisión. El modelo, los conjuntos de datos y el código están disponibles en https://github.com/bytedance/pasa.
Uno de los métodos más ampliamente utilizados para evaluar los Modelos de Lenguaje con Grandes Dimensiones (LLMs) son las pruebas de Preguntas de Opción Múltiple (MCQ). Los puntos de referencia de MCQ permiten probar el conocimiento de LLM sobre casi cualquier tema a gran escala, ya que los resultados pueden procesarse automáticamente. Para ayudar al LLM a responder, se pueden incluir en la indicación unos pocos ejemplos llamados pocos ejemplos. Además, se puede pedir al LLM que responda directamente con la opción seleccionada o que primero proporcione el razonamiento y luego la respuesta seleccionada, lo que se conoce como cadena de pensamiento. Además de verificar si la respuesta seleccionada es correcta, la evaluación puede analizar la probabilidad estimada por el LLM de su respuesta como indicación de la confianza del LLM en la respuesta. En este documento, estudiamos cómo la confianza del LLM en su respuesta depende de si se le ha pedido al modelo que responda directamente o que proporcione el razonamiento antes de responder. Los resultados de la evaluación de preguntas sobre una amplia gama de temas en siete modelos diferentes muestran que los LLMs tienen más confianza en sus respuestas cuando proporcionan el razonamiento antes de la respuesta. Esto ocurre independientemente de si la respuesta seleccionada es correcta. Nuestra hipótesis es que este comportamiento se debe al razonamiento que modifica la probabilidad de la respuesta seleccionada, ya que el LLM predice la respuesta basándose en la pregunta de entrada y el razonamiento que respalda la selección realizada. Por lo tanto, las probabilidades estimadas por el LLM parecen tener limitaciones intrínsecas que deben entenderse para utilizarlas en procedimientos de evaluación. Curiosamente, se ha observado el mismo comportamiento en los humanos, para quienes explicar una respuesta aumenta la confianza en su corrección.
El estilo de dibujo animado en 2D es una forma de arte prominente en la creación de personajes digitales, especialmente popular entre audiencias más jóvenes. Si bien los avances en tecnología digital humana han impulsado una extensa investigación en humanos digitales fotorrealistas y personajes en 3D, los personajes interactivos de dibujos animados en 2D han recibido considerablemente menos atención. A diferencia de sus contrapartes en 3D, que requieren una construcción sofisticada y un renderizado intensivo en recursos, Live2D, un formato ampliamente utilizado para personajes de dibujos animados en 2D, ofrece una alternativa más eficiente, que permite animar personajes en 2D de una manera que simula movimientos en 3D sin la necesidad de construir un modelo completo en 3D. Además, Live2D emplea un renderizado ligero en HTML5 (H5), mejorando tanto la accesibilidad como la eficiencia. En este informe técnico, presentamos Textoon, un método innovador para generar diversos personajes de dibujos animados en 2D en el formato Live2D basado en descripciones de texto. Textoon aprovecha modelos de lenguaje y visión de vanguardia para comprender las intenciones textuales y generar apariencias en 2D, capaz de crear una amplia variedad de personajes en 2D sorprendentes e interactivos en un minuto. La página principal del proyecto es https://human3daigc.github.io/Textoon_webpage/.
Mejorar los modelos de lenguaje grandes (LLMs) con APIs en tiempo real puede ayudar a generar respuestas más precisas y actualizadas. Sin embargo, la evaluación de las capacidades de llamada a funciones de los LLMs en escenarios del mundo real sigue siendo poco explorada debido a la complejidad de la recopilación y evaluación de datos. En este trabajo, presentamos ComplexFuncBench, un banco de pruebas para la llamada a funciones complejas en cinco escenarios del mundo real. En comparación con los bancos de pruebas existentes, ComplexFuncBench abarca la llamada a funciones con múltiples pasos y restricciones, lo que requiere un llenado de parámetros largo, razonamiento de valores de parámetros y un contexto largo de 128k. Además, proponemos un marco automático, ComplexEval, para evaluar cuantitativamente tareas de llamada a funciones complejas. A través de experimentos exhaustivos, demostramos las deficiencias de los LLMs de última generación en la llamada a funciones y sugerimos futuras direcciones para optimizar estas capacidades. Los datos y el código están disponibles en https://github.com/THUDM/ComplexFuncBench.
Presentamos X-Dyna, un novedoso pipeline de difusión de cero disparos para animar una única imagen humana utilizando expresiones faciales y movimientos corporales derivados de un video de referencia, que genera dinámicas realistas y contextualmente conscientes tanto para el sujeto como para el entorno circundante. Basándose en enfoques anteriores centrados en el control de postura humana, X-Dyna aborda las deficiencias clave que causan la pérdida de detalles dinámicos, mejorando las cualidades realistas de las animaciones de video humanas. En el núcleo de nuestro enfoque se encuentra el Adaptador de Dinámicas, un módulo ligero que integra eficazmente el contexto de apariencia de referencia en las atenciones espaciales de la columna vertebral de difusión mientras preserva la capacidad de los módulos de movimiento para sintetizar detalles dinámicos fluidos e intrincados. Más allá del control de postura corporal, conectamos un módulo de control local con nuestro modelo para capturar expresiones faciales desenredadas de la identidad, facilitando la transferencia precisa de expresiones para mejorar el realismo en escenas animadas. Juntos, estos componentes forman un marco unificado capaz de aprender el movimiento físico humano y las dinámicas naturales de escenas a partir de una variedad diversa de videos humanos y de escenas. Evaluaciones cualitativas y cuantitativas exhaustivas demuestran que X-Dyna supera a los métodos de vanguardia, creando animaciones altamente realistas y expresivas. El código está disponible en https://github.com/bytedance/X-Dyna.
Este documento investiga los desafíos de desarrollar grandes modelos de lenguaje (LLMs) competentes tanto en comprensión multilingüe como en conocimiento médico. Demostramos que simplemente traducir datos médicos no garantiza un rendimiento sólido en tareas clínicas en el idioma objetivo. Nuestros experimentos revelan que la combinación óptima de idiomas en los datos de entrenamiento varía significativamente entre diferentes tareas médicas. Descubrimos que modelos más grandes con proporciones de idiomas cuidadosamente calibradas logran un rendimiento superior en tareas clínicas en el idioma nativo. Además, nuestros resultados sugieren que depender únicamente de la puesta a punto fina puede no ser el enfoque más efectivo para incorporar nuevos conocimientos lingüísticos en los LLMs. En su lugar, métodos de preentrenamiento intensivos en datos y computacionalmente pueden seguir siendo necesarios para lograr un rendimiento óptimo en entornos médicos multilingües. Estos hallazgos ofrecen orientación valiosa para construir sistemas de IA médica efectivos e inclusivos para diversas comunidades lingüísticas.
La aplicación de redes generativas adversarias (GANs) ha avanzado recientemente en la superresolución del habla basada en representaciones intermedias como los mel-espectrogramas. Sin embargo, los métodos de superresolución existentes que suelen depender de redes entrenadas de forma independiente y concatenadas pueden llevar a representaciones inconsistentes y a una baja calidad del habla, especialmente en escenarios fuera del dominio. En este trabajo, proponemos HiFi-SR, una red unificada que aprovecha el entrenamiento adversarial de extremo a extremo para lograr una superresolución del habla de alta fidelidad. Nuestro modelo cuenta con un generador unificado transformer-convolucional diseñado para manejar de manera fluida tanto la predicción de representaciones latentes como su conversión en formas de onda de dominio temporal. La red transformer actúa como un potente codificador, convirtiendo mel-espectrogramas de baja resolución en representaciones en el espacio latente, mientras que la red convolucional amplía estas representaciones en formas de onda de alta resolución. Para mejorar la fidelidad de alta frecuencia, incorporamos un discriminador multi-banda y multi-escala de tiempo-frecuencia, junto con una pérdida de reconstrucción mel multi-escala en el proceso de entrenamiento adversarial. HiFi-SR es versátil, capaz de aumentar la tasa de muestreo de cualquier señal de habla de entrada entre 4 kHz y 32 kHz a 48 kHz. Los resultados experimentales demuestran que HiFi-SR supera significativamente a los métodos existentes de superresolución del habla en métricas objetivas y pruebas de preferencia ABX, tanto en escenarios dentro como fuera del dominio (https://github.com/modelscope/ClearerVoice-Studio).
Presentamos GaussianAvatar-Editor, un marco innovador para la edición basada en texto de avatares de cabezas Gaussianas animables que pueden ser completamente controlados en expresión, pose y punto de vista. A diferencia de la edición 3D Gaussiana estática, la edición de avatares Gaussianos animables en 4D presenta desafíos relacionados con la oclusión de movimiento y la inconsistencia espacio-temporal. Para abordar estos problemas, proponemos la Ecuación de Mezcla Ponderada Alfa (WABE). Esta función mejora el peso de mezcla de los Gaussiana visibles mientras suprime la influencia en los Gaussiana no visibles, manejando efectivamente la oclusión de movimiento durante la edición. Además, para mejorar la calidad de edición y garantizar la consistencia en 4D, incorporamos el aprendizaje adversarial condicional en el proceso de edición. Esta estrategia ayuda a refinar los resultados editados y mantener la consistencia a lo largo de la animación. Al integrar estos métodos, nuestro GaussianAvatar-Editor logra resultados fotorrealistas y consistentes en la edición animable 4D Gaussiana. Realizamos experimentos exhaustivos en varios sujetos para validar la efectividad de nuestras técnicas propuestas, lo que demuestra la superioridad de nuestro enfoque sobre los métodos existentes. Más resultados y código están disponibles en: [Enlace del Proyecto](https://xiangyueliu.github.io/GaussianAvatar-Editor/).