HuggingFace Daily Papers

Papers Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Seleccionar fecha

11 papers found

Octopus v2: Modelo de lenguaje en el dispositivo para superagentes
Octopus v2: On-device language model for super agent

Apr 2

ByWei Chen, Zhiyuan Li

Los modelos de lenguaje han demostrado su eficacia en una variedad de aplicaciones de software, particularmente en tareas relacionadas con flujos de trabajo automáticos. Estos modelos poseen la capacidad crucial de llamar funciones, lo cual es esencial para crear agentes de IA. A pesar del alto rendimiento de los modelos de lenguaje a gran escala en entornos en la nube, a menudo están asociados con preocupaciones sobre privacidad y costos. Los modelos actuales en dispositivos para la llamada de funciones enfrentan problemas de latencia y precisión. Nuestra investigación presenta un nuevo método que permite a un modelo en dispositivo con 2 mil millones de parámetros superar el rendimiento de GPT-4 tanto en precisión como en latencia, y reducir la longitud del contexto en un 95\%. En comparación con Llama-7B utilizando un mecanismo de llamada de funciones basado en RAG, nuestro método mejora la latencia en 35 veces. Este método reduce la latencia a niveles considerados adecuados para su implementación en una variedad de dispositivos de borde en entornos de producción, cumpliendo con los requisitos de rendimiento para aplicaciones del mundo real.

Avanzando en la generalización del razonamiento de modelos de lenguaje mediante árboles de preferencias
Advancing LLM Reasoning Generalists with Preference Trees

Apr 2

ByLifan Yuan, Ganqu Cui, Hanbin Wang, Ning Ding, Xingyao Wang, Jia Deng, Boji Shan, Huimin Chen, Ruobing Xie, Yankai Lin, Zhenghao Liu, Bowen Zhou, Hao Peng, Zhiyuan Liu, Maosong Sun

Presentamos Eurus, un conjunto de modelos de lenguaje de gran escala (LLMs) optimizados para el razonamiento. Ajustados a partir de Mistral-7B y CodeLlama-70B, los modelos Eurus logran resultados de vanguardia entre los modelos de código abierto en un conjunto diverso de benchmarks que cubren matemáticas, generación de código y problemas de razonamiento lógico. En particular, Eurus-70B supera a GPT-3.5 Turbo en razonamiento a través de una evaluación exhaustiva en 12 pruebas que abarcan cinco tareas, y alcanza un 33.3% de precisión pass@1 en LeetCode y un 32.6% en TheoremQA, dos benchmarks desafiantes, superando sustancialmente a los modelos de código abierto existentes con márgenes superiores al 13.3%. El fuerte rendimiento de Eurus se puede atribuir principalmente a UltraInteract, nuestro nuevo conjunto de datos de alineación a gran escala y de alta calidad, específicamente diseñado para tareas de razonamiento complejo. UltraInteract puede utilizarse tanto en el ajuste fino supervisado como en el aprendizaje de preferencias. Para cada instrucción, incluye un árbol de preferencias que consta de (1) cadenas de razonamiento con diversas estrategias de planificación en un formato unificado, (2) trayectorias de interacción multiturno con el entorno y la crítica, y (3) datos pareados para facilitar el aprendizaje de preferencias. UltraInteract nos permite realizar una exploración en profundidad del aprendizaje de preferencias para tareas de razonamiento. Nuestra investigación revela que algunos algoritmos de aprendizaje de preferencias bien establecidos pueden ser menos adecuados para tareas de razonamiento en comparación con su efectividad en conversaciones generales. Inspirados por esto, derivamos un nuevo objetivo de modelado de recompensas que, junto con UltraInteract, conduce a un modelo de recompensas robusto.

Los LLM de contexto largo tienen dificultades con el aprendizaje en contexto prolongado.
Long-context LLMs Struggle with Long In-context Learning

Apr 2

ByTianle Li, Ge Zhang, Quy Duc Do, Xiang Yue, Wenhu Chen

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han logrado avances significativos en el manejo de secuencias largas que superan los 32K tokens. Sin embargo, la evaluación de su rendimiento se ha limitado principalmente a métricas como la perplejidad y tareas sintéticas, que pueden no capturar completamente sus capacidades en escenarios del mundo real más matizados. Este estudio introduce un punto de referencia especializado (LIConBench) centrado en el aprendizaje en contexto largo dentro del ámbito de la clasificación de etiquetas extremas. Seleccionamos meticulosamente seis conjuntos de datos con un rango de etiquetas que abarca de 28 a 174 clases, cubriendo diferentes longitudes de entrada (demostraciones few-shot) desde 2K hasta 50K. Nuestro punto de referencia requiere que los LLMs comprendan toda la entrada para reconocer los espacios masivos de etiquetas y realizar predicciones correctas. Evaluamos 13 LLMs de contexto largo en nuestros puntos de referencia. Descubrimos que los LLMs de contexto largo se desempeñan relativamente bien bajo una longitud de token de 20K, y el rendimiento se beneficia de la utilización de la ventana de contexto larga. Sin embargo, después de que la ventana de contexto supera los 20K, la mayoría de los LLMs, excepto GPT-4, experimentan una caída dramática. Esto sugiere una brecha notable en las capacidades actuales de los LLMs para procesar y comprender secuencias largas y ricas en contexto. Un análisis más profundo reveló una tendencia entre los modelos a favorecer predicciones para etiquetas presentadas hacia el final de la secuencia. Su capacidad para razonar sobre múltiples piezas en la secuencia larga aún debe mejorar. Nuestro estudio revela que la comprensión y el razonamiento de contexto largo siguen siendo una tarea desafiante para los LLMs existentes. Creemos que LIConBench podría servir como una evaluación más realista para los futuros LLMs de contexto largo.

LLaVA-Gemma: Aceleración de Modelos Fundacionales Multimodales con un Modelo de Lenguaje Compacto
LLaVA-Gemma: Accelerating Multimodal Foundation Models with a Compact Language Model

Mar 29

ByMusashi Hinck, Matthew L. Olson, David Cobbley, Shao-Yen Tseng, Vasudev Lal

Entrenamos un conjunto de modelos fundamentales multimodales (MMFM, por sus siglas en inglés) utilizando el popular marco LLaVA junto con la recientemente lanzada familia de modelos de lenguaje grandes (LLMs) Gemma. De particular interés es el modelo Gemma de 2B parámetros, que ofrece oportunidades para construir MMFMs de pequeña escala pero capaces. En línea con los hallazgos de otros trabajos en este ámbito, evaluamos el efecto de eliminar tres características de diseño: el preentrenamiento del conector, la utilización de un backbone de imágenes más potente y el aumento del tamaño del backbone de lenguaje. Los modelos resultantes, que denominamos LLaVA-Gemma, muestran un rendimiento moderado en una variedad de evaluaciones, pero no logran superar a los modelos SOTA de tamaño comparable actuales. Un análisis más detallado del rendimiento revela efectos mixtos: omitir el preentrenamiento tiende a reducir el rendimiento, los modelos de visión más grandes a veces mejoran el rendimiento, y aumentar el tamaño del modelo de lenguaje tiene efectos inconsistentes. Publicamos las recetas de entrenamiento, el código y los pesos de nuestros modelos LLaVA-Gemma.

Informe Técnico de HyperCLOVA X
HyperCLOVA X Technical Report

Apr 2

ByKang Min Yoo, Jaegeun Han, Sookyo In, Heewon Jeon, Jisu Jeong, Jaewook Kang, Hyunwook Kim, Kyung-Min Kim, Munhyong Kim, Sungju Kim, Donghyun Kwak, Hanock Kwak, Se Jung Kwon, Bado Lee, Dongsoo Lee, Gichang Lee, Jooho Lee, Baeseong Park, Seongjin Shin, Joonsang Yu, Seolki Baek, Sumin Byeon, Eungsup Cho, Dooseok Choe, Jeesung Han, Youngkyun Jin, Hyein Jun, Jaeseung Jung, Chanwoong Kim, Jinhong Kim, Jinuk Kim, Dokyeong Lee, Dongwook Park, Jeong Min Sohn, Sujung Han, Jiae Heo, Sungju Hong, Mina Jeon, Hyunhoon Jung, Jungeun Jung, Wangkyo Jung, Chungjoon Kim, Hyeri Kim, Jonghyun Kim, Min Young Kim, Soeun Lee, Joonhee Park, Jieun Shin, Sojin Yang, Jungsoon Yoon, Hwaran Lee, Sanghwan Bae, Jeehwan Cha, Donghoon Ham, Youngki Hong, Yunki Hong, Myunggeun Ji, Yeguk Jin, Chansong Jo, Shinyoung Joo, Seunghwan Jung, Hyomin Kim, Jungwhan Kim, Minkyoung Kim, Minseung Kim, Sungdong Kim, Yonghee Kim, Youngjun Kim, Donghyeon Ko, Dughyun Lee, Jaehong Lee, Jieun Lee, Jongjin Lee, Min Young Lee, Yehbin Lee, Taehong Min, Kiyoon Moon, Jaesun Park, Kyuyon Park, Seunghyun Seo, Gyubin Son, Wonjoon Yoo, Myungin You, Doheon Ahn, Homin Ahn, Joohee Ahn, Seongmin Ahn, Chanwoo An, Hyeryun An, Junho An, Sang-Min An, Boram Byun, Jongho Cha, Minji Chang, Seunggyu Chang, Haesong Cho, Youngdo Cho, Dalnim Choi, Daseul Choi, Hyoseok Choi, Minseong Choi, Sangho Choi, Seongjae Choi, Wooyong Choi, Sewhan Chun, Dong Young Go, Chiheon Ham, Danbi Han, Jaemin Han, Mihak Hong, Moonyoung Hong, Sung Bum Hong, Seongchan Hwang, Eunbin Hyun, Jinbae Im, Jaehyung Jang, Jaeni Jang, Sihyeon Jang, Sungwon Jang, Joonha Jeon, Yujin Jeon, Daun Jeong, Joonhyun Jeong, Kyeongseok Jeong, Mini Jeong, Yeji Jeong, Sol Jin, Hanbyeol Jo, Hanju Jo, Minjung Jo, Lee Jonghyun, Chaeyoon Jung, Hyungsik Jung, Jaeuk Jung, Ju Hwan Jung, Kwangsun Jung, Seungjae Jung, Soonwon Ka, Donghan Kang, Soyoung Kang, Taeho Kil, Areum Kim, Beomyoung Kim, Byeongwook Kim, Daehee Kim, Dong-Gyun Kim, Donggook Kim, Donghyun Kim, Euna Kim, Eunchul Kim, Geewook Kim, Gyu Ri Kim, Hanbyul Kim, Heesu Kim, Isaac Kim, Jeonghoon Kim, Jihye Kim, Joonghoon Kim, Minjae Kim, Minsub Kim, Pil Hwan Kim, Sammy Kim, Seokhun Kim, Seonghyeon Kim, Soojin Kim, Soong Kim, Soyoon Kim, Sunyoung Kim, Taeho Kim, Wonho Kim, Yoonsik Kim, You Jin Kim, Yuri Kim, Beomseok Kwon, Ohsung Kwon, Yoo-Hwan Kwon, Anna Lee, Byungwook Lee, Changho Lee, Daun Lee, Dongjae Lee, Ha-Ram Lee, Hodong Lee, Hwiyeong Lee, Hyunmi Lee, Injae Lee, Jaeung Lee, Jeongsang Lee, Jisoo Lee, Joongjae Lee, Juhan Lee, Jung Hyun Lee, Junghoon Lee, Junwoo Lee, Se Yun Lee, Sujin Lee, Sungjae Lee, Sungwoo Lee, Wonjae Lee, Zoo Hyun Lee, Jong Kun Lim, Kun Lim, Taemin Lim, Yuri Min, Nuri Na, Jeongyeon Nam, Kyeong-Min Nam, Yeonseog Noh, Biro Oh, Hyangnam Oh, Jung-Sik Oh, Solgil Oh, Yeontaek Oh, Boyoun Park, Cheonbok Park, Dongju Park, Hyeonjin Park, Hyun Tae Park, Hyunjung Park, Jihye Park, Jooseok Park, Junghwan Park, Jungsoo Park, Miru Park, Sang Hee Park, Seunghyun Park, Taerim Park, Wonkyeong Park, Hyunjoon Ryu, Jeonghun Ryu, Nahyeon Ryu, Soonshin Seo, Suk Min Seo, Yoonjeong Shim, Kyuyong Shin, Wonkwang Shin, Hyun Sim, Mihyun Sim, Woongseob Sim, Hyejin Soh, Bokyoung Son, Hyunjun Son, Seulah Son, Chi-Yun Song, Chiyoung Song, Ka Yeon Song, Minchul Song, Seungmin Song, Jisung Wang, Matt Yeo, Yonggoo Yeo, Myeong Yeon Yi, Moon Bin Yim, Taehwan Yoo, Youngjoon Yoo, Sungmin Yoon, Young Jin Yoon, Hangyeol Yu, Ui Seon Yu, Xingdong Zuo, Jeongin Bae, Joungeun Bae, Hyunsoo Cho, Seonghyun Cho, Yongjin Cho, Taekyoon Choi, Yera Choi, Jiwan Chung, Zhenghui Han, Byeongho Heo, Euisuk Hong, Taebaek Hwang, Seonyeol Im, Sumin Jegal, Sumin Jeon, Yelim Jeong, Yonghyun Jeong, Can Jiang, Juyong Jiang, Jiho Jin, Ara Jo, Younghyun Jo, Hoyoun Jung, Juyoung Jung, Dae Hee Kim, Ginam Kim, Hangyeol Kim, Heeseung Kim, Hyojin Kim, Hyojun Kim, Hyun-Ah Kim, Jeehye Kim, Jin-Hwa Kim, Jiseon Kim, Jonghak Kim, Jung Yoon Kim, Rak Yeong Kim, Seoyoon Kim, Sewon Kim, Sooyoung Kim, Sukyoung Kim, Taeyong Kim, Naeun Ko, Bonseung Koo, Heeyoung Kwak, Haena Kwon, Youngjin Kwon, Boram Lee, Bruce W. Lee, Dagyeong Lee, Erin Lee, Euijin Lee, Ha Gyeong Lee, Hyojin Lee, Hyunjeong Lee, Jeeyoon Lee, Jeonghyun Lee, Jongheok Lee, Joonhyung Lee, Junhyuk Lee, Mingu Lee, Nayeon Lee, Sangkyu Lee, Se Young Lee, Seulgi Lee, Seung Jin Lee, Suhyeon Lee, Yeonjae Lee, Yesol Lee, Youngbeom Lee, Yujin Lee, Shaodong Li, Tianyu Liu, Seong-Eun Moon, Taehong Moon, Max-Lasse Nihlenramstroem, Wonseok Oh, Yuri Oh, Hongbeen Park, Hyekyung Park, Nohil Park, Sangjin Park, Jiwon Ryu, Miru Ryu, Simo Ryu, Ahreum Seo, Hee Seo, Kangdeok Seo, Jamin Shin, Seungyoun Shin, Heetae Sin, Jiangping Wang, Lei Wang, Ning Xiang, Longxiang Xiao, Jing Xu, Seonyeong Yi, Haanju Yoo, Haneul Yoo, Hwanhee Yoo, Liang Yu, Youngjae Yu, Weijie Yuan, Bo Zeng, Qian Zhou, Kyunghyun Cho, Jung-Woo Ha, Joonsuk Park, Jihyun Hwang, Hyoung Jo Kwon, Soonyong Kwon, Jungyeon Lee, Seungho Lee, Seungho Choi, Sang-Woo Lee, Jung Hwa Lim, Nako Sung

Presentamos HyperCLOVA X, una familia de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) adaptados al idioma y la cultura coreana, junto con capacidades competitivas en inglés, matemáticas y programación. HyperCLOVA X fue entrenado con una mezcla equilibrada de datos en coreano, inglés y código, seguido de un ajuste por instrucción utilizando conjuntos de datos anotados por humanos de alta calidad, respetando estrictas pautas de seguridad que reflejan nuestro compromiso con la inteligencia artificial responsable. El modelo es evaluado en diversos puntos de referencia, que incluyen razonamiento integral, conocimiento, sentido común, factualidad, programación, matemáticas, conversación, seguimiento de instrucciones y ausencia de daño, tanto en coreano como en inglés. HyperCLOVA X exhibe fuertes capacidades de razonamiento en coreano respaldadas por un profundo entendimiento del idioma y los matices culturales. Un análisis adicional de su naturaleza bilingüe inherente y su extensión al multilingüismo destaca la competencia cruzada del modelo y su fuerte capacidad de generalización hacia idiomas no específicos, incluyendo la traducción automática entre varios pares de idiomas y tareas de inferencia cruzada. Creemos que HyperCLOVA X puede proporcionar una guía útil para regiones o países en el desarrollo de sus propios LLMs soberanos.

CameraCtrl: Habilitando el Control de Cámara para la Generación de Texto a Video
CameraCtrl: Enabling Camera Control for Text-to-Video Generation

Apr 2

ByHao He, Yinghao Xu, Yuwei Guo, Gordon Wetzstein, Bo Dai, Hongsheng Li, Ceyuan Yang

La controlabilidad juega un papel crucial en la generación de videos, ya que permite a los usuarios crear contenido deseado. Sin embargo, los modelos existentes han pasado por alto en gran medida el control preciso de la pose de la cámara, que sirve como un lenguaje cinematográfico para expresar matices narrativos más profundos. Para abordar este problema, presentamos CameraCtrl, que permite un control preciso de la pose de la cámara en modelos de texto a video (T2V). Después de parametrizar con precisión la trayectoria de la cámara, se entrena un módulo de cámara plug-and-play en un modelo T2V, dejando los demás componentes intactos. Además, se lleva a cabo un estudio exhaustivo sobre el efecto de varios conjuntos de datos, sugiriendo que los videos con una distribución diversa de cámaras y apariencias similares mejoran la controlabilidad y la generalización. Los resultados experimentales demuestran la eficacia de CameraCtrl para lograr un control de cámara preciso y adaptable al dominio, marcando un avance en la búsqueda de narrativas dinámicas y personalizadas a partir de entradas de texto y pose de cámara. Nuestro sitio web del proyecto está en: https://hehao13.github.io/projects-CameraCtrl/.

Más grande no siempre es mejor: Propiedades de escalabilidad en modelos de difusión latente
Bigger is not Always Better: Scaling Properties of Latent Diffusion Models

Apr 1

ByKangfu Mei, Zhengzhong Tu, Mauricio Delbracio, Hossein Talebi, Vishal M. Patel, Peyman Milanfar

Estudiamos las propiedades de escalabilidad de los modelos de difusión latente (LDMs, por sus siglas en inglés) con un enfoque en su eficiencia de muestreo. Si bien las mejoras en la arquitectura de redes y los algoritmos de inferencia han demostrado aumentar efectivamente la eficiencia de muestreo de los modelos de difusión, el papel del tamaño del modelo —un factor crítico que determina dicha eficiencia— no ha sido examinado a fondo. A través de un análisis empírico de modelos de difusión establecidos para la generación de imágenes a partir de texto, llevamos a cabo una investigación profunda sobre cómo el tamaño del modelo influye en la eficiencia de muestreo en diferentes pasos de muestreo. Nuestros hallazgos revelan una tendencia sorprendente: cuando se opera con un presupuesto de inferencia dado, los modelos más pequeños frecuentemente superan a sus equivalentes más grandes en la generación de resultados de alta calidad. Además, extendemos nuestro estudio para demostrar la generalización de estos hallazgos al aplicar diversos muestreadores de difusión, explorar diversas tareas posteriores, evaluar modelos post-distilados, así como comparar el rendimiento en relación con el cómputo de entrenamiento. Estos descubrimientos abren nuevas vías para el desarrollo de estrategias de escalabilidad de LDMs que pueden emplearse para mejorar las capacidades generativas dentro de presupuestos de inferencia limitados.

¿Son los modelos de lenguaje grandes químicos sobrehumanos?
Are large language models superhuman chemists?

Apr 1

ByAdrian Mirza, Nawaf Alampara, Sreekanth Kunchapu, Benedict Emoekabu, Aswanth Krishnan, Mara Wilhelmi, Macjonathan Okereke, Juliane Eberhardt, Amir Mohammad Elahi, Maximilian Greiner, Caroline T. Holick, Tanya Gupta, Mehrdad Asgari, Christina Glaubitz, Lea C. Klepsch, Yannik Köster, Jakob Meyer, Santiago Miret, Tim Hoffmann, Fabian Alexander Kreth, Michael Ringleb, Nicole Roesner, Ulrich S. Schubert, Leanne M. Stafast, Dinga Wonanke, Michael Pieler, Philippe Schwaller, Kevin Maik Jablonka

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han despertado un interés generalizado debido a su capacidad para procesar el lenguaje humano y realizar tareas en las que no han sido explícitamente entrenados. Esto es relevante para las ciencias químicas, que enfrentan el problema de conjuntos de datos pequeños y diversos que frecuentemente se presentan en forma de texto. Los LLMs han mostrado potencial para abordar estos problemas y se están utilizando cada vez más para predecir propiedades químicas, optimizar reacciones e incluso diseñar y realizar experimentos de manera autónoma. Sin embargo, todavía tenemos un entendimiento sistemático muy limitado de las capacidades de razonamiento químico de los LLMs, lo cual sería necesario para mejorar los modelos y mitigar posibles daños. Aquí presentamos "ChemBench", un marco automatizado diseñado para evaluar rigurosamente el conocimiento químico y las habilidades de razonamiento de los LLMs más avanzados en comparación con la experiencia de químicos humanos. Curaron más de 7,000 pares de preguntas y respuestas para una amplia gama de subcampos de las ciencias químicas, evaluaron los principales LLMs de código abierto y cerrado, y encontraron que los mejores modelos superaron en promedio a los mejores químicos humanos en nuestro estudio. Sin embargo, los modelos tienen dificultades con algunas tareas de razonamiento químico que son sencillas para los expertos humanos y proporcionan predicciones excesivamente confiadas y engañosas, como sobre los perfiles de seguridad de los productos químicos. Estos hallazgos subrayan la doble realidad de que, aunque los LLMs demuestran una notable competencia en tareas químicas, es crucial realizar más investigaciones para mejorar su seguridad y utilidad en las ciencias químicas. Nuestros resultados también indican la necesidad de adaptaciones en los planes de estudio de química y resaltan la importancia de seguir desarrollando marcos de evaluación para mejorar la seguridad y utilidad de los LLMs.

Poro 34B y la bendición del multilingüismo
Poro 34B and the Blessing of Multilinguality

Apr 2

ByRisto Luukkonen, Jonathan Burdge, Elaine Zosa, Aarne Talman, Ville Komulainen, Väinö Hatanpää, Peter Sarlin, Sampo Pyysalo

El preentrenamiento de los modelos de lenguaje más avanzados ahora requiere billones de palabras de texto, lo que es órdenes de magnitud mayor que lo disponible para la gran mayoría de los idiomas. Si bien incluir texto en más de un idioma es una forma obvia de obtener más datos de preentrenamiento, el multilingüismo a menudo se considera una maldición, y la mayoría de los esfuerzos de entrenamiento de modelos continúan enfocándose casi exclusivamente en idiomas individuales de gran tamaño. Creemos que el multilingüismo puede ser una bendición y que debería ser posible mejorar sustancialmente las capacidades de los modelos monolingües para idiomas pequeños mediante el entrenamiento multilingüe. En este estudio, presentamos Poro 34B, un modelo de 34 mil millones de parámetros entrenado con 1 billón de tokens de finlandés, inglés y lenguajes de programación, y demostramos que un enfoque de entrenamiento multilingüe puede producir un modelo que no solo avanza sustancialmente sobre las capacidades de los modelos existentes para el finlandés, sino que también sobresale en traducción y es competitivo en su clase en la generación de inglés y lenguajes de programación. Publicamos los parámetros del modelo, scripts y datos bajo licencias abiertas en https://huggingface.co/LumiOpen/Poro-34B.

Congealing 3D: Alineación de Imágenes Consciente de 3D en Entornos No Controlados
3D Congealing: 3D-Aware Image Alignment in the Wild

Apr 2

ByYunzhi Zhang, Zizhang Li, Amit Raj, Andreas Engelhardt, Yuanzhen Li, Tingbo Hou, Jiajun Wu, Varun Jampani

Proponemos 3D Congealing, un problema novedoso de alineación 3D-consciente para imágenes 2D que capturan objetos semánticamente similares. Dada una colección de imágenes de Internet sin etiquetar, nuestro objetivo es asociar las partes semánticas compartidas de las entradas y agregar el conocimiento de las imágenes 2D a un espacio canónico 3D compartido. Introducimos un marco general que aborda la tarea sin asumir plantillas de formas, poses o cualquier parámetro de cámara. En su núcleo se encuentra una representación canónica 3D que encapsula información geométrica y semántica. El marco optimiza la representación canónica junto con la pose para cada imagen de entrada y un mapa de coordenadas por imagen que transforma las coordenadas de píxeles 2D al marco canónico 3D para tener en cuenta la coincidencia de formas. El procedimiento de optimización fusiona el conocimiento previo de un modelo generativo de imágenes preentrenado y la información semántica de las imágenes de entrada. El primero proporciona una guía de conocimiento sólida para esta tarea sub-restringida, mientras que el segundo aporta la información necesaria para mitigar el sesgo de los datos de entrenamiento del modelo preentrenado. Nuestro marco puede utilizarse para diversas tareas, como la coincidencia de correspondencias, la estimación de poses y la edición de imágenes, logrando resultados sólidos en conjuntos de datos de imágenes del mundo real bajo condiciones de iluminación desafiantes y en colecciones de imágenes en línea en entornos no controlados.

LLM-ABR: Diseño de algoritmos de tasa de bits adaptativa mediante modelos de lenguaje grandes
LLM-ABR: Designing Adaptive Bitrate Algorithms via Large Language Models

Apr 2

ByZhiyuan He, Aashish Gottipati, Lili Qiu, Francis Y. Yan, Xufang Luo, Kenuo Xu, Yuqing Yang

Presentamos LLM-ABR, el primer sistema que utiliza las capacidades generativas de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) para diseñar de manera autónoma algoritmos de tasa de bits adaptativa (ABR, por sus siglas en inglés) adaptados a diversas características de red. Operando dentro de un marco de aprendizaje por refuerzo, LLM-ABR permite a los LLMs diseñar componentes clave como estados y arquitecturas de redes neuronales. Evaluamos LLM-ABR en diversos entornos de red, incluyendo banda ancha, satélite, 4G y 5G. LLM-ABR supera consistentemente a los algoritmos ABR predeterminados.

Informe Técnico de HyperCLOVA X
HyperCLOVA X Technical Report

Apr 2