HuggingFace Daily Papers

Papers Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Seleccionar fecha

13 papers found

EXAONE 4.0: Modelos de Lenguaje Unificados de Gran Escala que Integran Modos No Razonados y Razonados
EXAONE 4.0: Unified Large Language Models Integrating Non-reasoning and Reasoning Modes

Jul 15

ByLG AI Research, Kyunghoon Bae, Eunbi Choi, Kibong Choi, Stanley Jungkyu Choi, Yemuk Choi, Kyubeen Han, Seokhee Hong, Junwon Hwang, Taewan Hwang, Joonwon Jang, Hyojin Jeon, Kijeong Jeon, Gerrard Jeongwon Jo, Hyunjik Jo, Jiyeon Jung, Euisoon Kim, Hyosang Kim, Jihoon Kim, Joonkee Kim, Seonghwan Kim, Soyeon Kim, Sunkyoung Kim, Yireun Kim, Yongil Kim, Youchul Kim, Edward Hwayoung Lee, Gwangho Lee, Haeju Lee, Honglak Lee, Jinsik Lee, Kyungmin Lee, Sangha Park, Young Min Paik, Yongmin Park, Youngyong Park, Sanghyun Seo, Sihoon Yang, Heuiyeen Yeen, Sihyuk Yi, Hyeongu Yun

Este informe técnico presenta EXAONE 4.0, que integra un modo Sin razonamiento y un modo Con razonamiento para combinar la excelente usabilidad de EXAONE 3.5 con las capacidades avanzadas de razonamiento de EXAONE Deep. Para allanar el camino hacia la era de la IA agentiva, EXAONE 4.0 incorpora características esenciales como el uso de herramientas agentivas, y sus capacidades multilingües se extienden para incluir el español, además del inglés y el coreano. La serie de modelos EXAONE 4.0 consta de dos tamaños: un modelo mediano de 32B optimizado para alto rendimiento y un modelo pequeño de 1.2B diseñado para aplicaciones en dispositivos. EXAONE 4.0 demuestra un rendimiento superior en comparación con los modelos de código abierto de su clase y se mantiene competitivo incluso frente a modelos de clase frontera. Los modelos están disponibles públicamente para fines de investigación y pueden descargarse fácilmente a través de https://huggingface.co/LGAI-EXAONE.

Autoencoder Visión-Lenguaje-Visión: Distilación Escalable de Conocimiento a partir de Modelos de Difusión
Vision-Language-Vision Auto-Encoder: Scalable Knowledge Distillation from Diffusion Models

Jul 9

ByTiezheng Zhang, Yitong Li, Yu-cheng Chou, Jieneng Chen, Alan Yuille, Chen Wei, Junfei Xiao

La construcción de modelos de visión-lenguaje (VLMs) de vanguardia con capacidades sólidas de generación de descripciones generalmente requiere entrenamiento con miles de millones de pares de imágenes-texto de alta calidad, lo que demanda millones de horas de GPU. Este artículo presenta el marco de trabajo del auto-codificador Visión-Lenguaje-Visión (VLV), que aprovecha estratégicamente componentes preentrenados clave: un codificador de visión, el decodificador de un modelo de difusión de Texto a Imagen (T2I), y posteriormente, un Modelo de Lenguaje Grande (LLM). Específicamente, establecemos un cuello de botella de información mediante la regularización del espacio de representación del lenguaje, logrado mediante la congelación del decodificador preentrenado del modelo de difusión T2I. Nuestra canalización VLV destila efectivamente el conocimiento del modelo de difusión condicionado por texto utilizando embeddings continuos, demostrando una comprensión semántica integral a través de reconstrucciones de alta calidad. Además, al ajustar finamente un LLM preentrenado para decodificar las representaciones intermedias del lenguaje en descripciones detalladas, construimos un generador de descripciones de vanguardia (SoTA) comparable a modelos líderes como GPT-4o y Gemini 2.0 Flash. Nuestro método demuestra una excepcional eficiencia en costos y reduce significativamente los requisitos de datos; al utilizar principalmente imágenes unimodales para el entrenamiento y maximizar la utilidad de modelos preentrenados existentes (codificador de imágenes, modelo de difusión T2I y LLM), evita la necesidad de grandes conjuntos de datos de pares imagen-texto, manteniendo el gasto total de entrenamiento por debajo de los $1,000 USD.

Leyes de Escalabilidad para Mezclas Óptimas de Datos
Scaling Laws for Optimal Data Mixtures

Jul 12

ByMustafa Shukor, Louis Bethune, Dan Busbridge, David Grangier, Enrico Fini, Alaaeldin El-Nouby, Pierre Ablin

Los grandes modelos fundacionales suelen entrenarse con datos de múltiples dominios, donde la mezcla de datos—la proporción de cada dominio utilizado—desempeña un papel crítico en el rendimiento del modelo. El enfoque estándar para seleccionar esta mezcla se basa en prueba y error, lo que se vuelve impracticable para el preentrenamiento a gran escala. Proponemos un método sistemático para determinar la mezcla óptima de datos para cualquier dominio objetivo utilizando leyes de escalamiento. Nuestro enfoque predice con precisión la pérdida de un modelo de tamaño N entrenado con D tokens y un vector de ponderación de dominio específico h. Validamos la universalidad de estas leyes de escalamiento demostrando su poder predictivo en tres configuraciones distintas y a gran escala: preentrenamiento de modelos de lenguaje grande (LLM), modelos multimodales nativos (NMM) y modelos de visión grande (LVM). Además, mostramos que estas leyes de escalamiento pueden extrapolarse a nuevas mezclas de datos y a través de escalas: sus parámetros pueden estimarse con precisión utilizando unas pocas ejecuciones de entrenamiento a pequeña escala, y luego usarse para estimar el rendimiento a escalas mayores y con ponderaciones de dominio no vistas. Las leyes de escalamiento permiten derivar las ponderaciones óptimas de dominio para cualquier dominio objetivo bajo un presupuesto de entrenamiento dado (N, D), ofreciendo una alternativa fundamentada a los costosos métodos de prueba y error.

OpenCodeReasoning-II: Un Enfoque Simple de Escalado en Tiempo de Prueba mediante Autocrítica
OpenCodeReasoning-II: A Simple Test Time Scaling Approach via Self-Critique

Jul 11

ByWasi Uddin Ahmad, Somshubra Majumdar, Aleksander Ficek, Sean Narenthiran, Mehrzad Samadi, Jocelyn Huang, Siddhartha Jain, Vahid Noroozi, Boris Ginsburg

Los recientes avances en los modelos de lenguaje de gran escala (LLMs) basados en razonamiento, particularmente su potencial a través del escalamiento en tiempo de prueba, han creado oportunidades significativas para la destilación en la generación y crítica de código. Sin embargo, el progreso en ambas áreas depende fundamentalmente de conjuntos de datos a gran escala y de alta calidad. En este trabajo, presentamos OpenCodeReasoning-II, un conjunto de datos que consta de 2.5 millones de triples pregunta-solución-crítica (aproximadamente 35K preguntas de programación únicas), lo que lo convierte en casi el doble del tamaño del mayor conjunto de datos de razonamiento de código disponible públicamente anterior. En este trabajo, empleamos una estrategia de ajuste fino supervisado en dos etapas. La primera etapa se centra en el ajuste fino para la generación de código, mientras que la segunda etapa implica el entrenamiento conjunto de modelos tanto para la generación como para la crítica de código. Nuestros modelos Qwen2.5-Instruct ajustados logran un rendimiento en la generación de código que supera o iguala a los mejores modelos destilados de peso abierto previos. Notablemente, la integración de nuestros modelos de generación y crítica de código conduce a mejoras significativas en el rendimiento competitivo de programación. Además, presentamos una extensión del benchmark LiveCodeBench para apoyar específicamente el lenguaje de programación C++, facilitando así una evaluación más completa de los LLMs utilizando este benchmark.

AgentsNet: Coordinación y Razonamiento Colaborativo en Modelos de Lenguaje de Múltiples Agentes
AgentsNet: Coordination and Collaborative Reasoning in Multi-Agent LLMs

Jul 11

ByFlorian Grötschla, Luis Müller, Jan Tönshoff, Mikhail Galkin, Bryan Perozzi

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado capacidades poderosas para resolver problemas, en particular cuando se organizan en sistemas multiagente. Sin embargo, el surgimiento de tales sistemas también plantea varias preguntas sobre la capacidad de una red compleja de agentes para autoorganizarse y colaborar de manera efectiva. Si bien medir el rendimiento en pruebas estándar de razonamiento indica qué tan bien los sistemas multiagente pueden resolver tareas de razonamiento, no está claro si estos sistemas son capaces de aprovechar su topología de manera efectiva. Aquí proponemos AgentsNet, un nuevo punto de referencia para el razonamiento multiagente. Al inspirarnos en problemas clásicos de sistemas distribuidos y teoría de grafos, AgentsNet mide la capacidad de los sistemas multiagente para formar estrategias colaborativas de resolución de problemas, autoorganización y comunicación efectiva dada una topología de red. Evaluamos una variedad de métodos de referencia en AgentsNet, incluyendo redes homogéneas de agentes que primero deben acordar protocolos básicos para la organización y la comunicación. Encontramos que algunos LLMs de vanguardia ya están demostrando un rendimiento sólido en redes pequeñas, pero comienzan a disminuir una vez que el tamaño de la red escala. Mientras que los puntos de referencia multiagente existentes cubren como máximo 2-5 agentes, AgentsNet es prácticamente ilimitado en tamaño y puede escalar con las nuevas generaciones de LLMs. Por ello, también exploramos modelos de vanguardia en una configuración con hasta 100 agentes.

Domando modelos generativos de video para la extracción de flujo óptico en modo zero-shot
Taming generative video models for zero-shot optical flow extraction

Jul 11

BySeungwoo Kim, Khai Loong Aw, Klemen Kotar, Cristobal Eyzaguirre, Wanhee Lee, Yunong Liu, Jared Watrous, Stefan Stojanov, Juan Carlos Niebles, Jiajun Wu, Daniel L. K. Yamins

La extracción de flujo óptico a partir de videos sigue siendo un problema fundamental en visión por computadora. Motivados por el éxito de los modelos generales de gran escala, nos preguntamos si los modelos de video autosupervisados congelados, entrenados únicamente para la predicción de fotogramas futuros, pueden ser "prompted" (instruidos), sin ajuste fino, para generar flujo óptico. Trabajos previos que extraían profundidad o iluminación a partir de generadores de video requerían ajuste fino, lo cual es poco práctico para el flujo óptico, donde las etiquetas son escasas y los conjuntos de datos sintéticos sufren de una brecha simulación-realidad. Inspirados por el paradigma del Modelo de Mundo Contrafactual (CWM, por sus siglas en inglés), que puede obtener correspondencias punto a punto inyectando una pequeña perturbación de trazado en un predictor de fotogramas futuros y rastreando su propagación, extendemos esta idea a modelos generativos de video. Exploramos varias arquitecturas populares y encontramos que la extracción de flujo óptico "zero-shot" (sin ajuste específico) de esta manera se ve favorecida por tres propiedades del modelo: (1) predicción distribucional de fotogramas futuros (evitando salidas borrosas o ruidosas); (2) latentes factorizados que tratan cada parche espacio-temporal de manera independiente; y (3) decodificación de acceso aleatorio que puede condicionarse en cualquier subconjunto de píxeles futuros. Estas propiedades están presentes de manera única en la reciente arquitectura de Secuencia de Acceso Aleatorio Local (LRAS, por sus siglas en inglés). Basándonos en LRAS, proponemos KL-tracing: un novedoso procedimiento en tiempo de prueba que inyecta una perturbación localizada en el primer fotograma, ejecuta el modelo un paso adelante y calcula la divergencia de Kullback-Leibler entre las distribuciones predictivas perturbadas y no perturbadas. Sin ningún ajuste específico para flujo óptico, nuestro método supera a los modelos de última generación en el conjunto de datos real TAP-Vid DAVIS (mejora relativa del 16.6% en el error de punto final) y en el conjunto sintético TAP-Vid Kubric (mejora relativa del 4.7%). Nuestros resultados indican que la instrucción contrafactual de modelos generativos de video controlables es una alternativa escalable y efectiva a los enfoques supervisados o basados en pérdidas fotométricas para obtener flujo óptico de alta calidad.

¿Pueden los modelos fundacionales multimodales comprender diagramas esquemáticos? Un estudio empírico sobre preguntas de búsqueda de información en artículos científicos
Can Multimodal Foundation Models Understand Schematic Diagrams? An Empirical Study on Information-Seeking QA over Scientific Papers

Jul 14

ByYilun Zhao, Chengye Wang, Chuhan Li, Arman Cohan

Este artículo presenta MISS-QA, el primer punto de referencia diseñado específicamente para evaluar la capacidad de los modelos para interpretar diagramas esquemáticos dentro de la literatura científica. MISS-QA comprende 1,500 ejemplos anotados por expertos provenientes de 465 artículos científicos. En este punto de referencia, los modelos tienen la tarea de interpretar diagramas esquemáticos que ilustran resúmenes de investigación y responder preguntas de búsqueda de información basadas en el contexto más amplio del artículo. Evaluamos el rendimiento de 18 modelos fundamentales multimodales de vanguardia, incluyendo o4-mini, Gemini-2.5-Flash y Qwen2.5-VL. Revelamos una brecha significativa en el rendimiento entre estos modelos y los expertos humanos en MISS-QA. Nuestro análisis del rendimiento de los modelos en preguntas sin respuesta y nuestro análisis detallado de errores resaltan aún más las fortalezas y limitaciones de los modelos actuales, ofreciendo ideas clave para mejorar la comprensión de la literatura científica multimodal.

BYOKG-RAG: Recuperación de Grafos Multi-Estrategia para la Respuesta a Preguntas sobre Grafos de Conocimiento
BYOKG-RAG: Multi-Strategy Graph Retrieval for Knowledge Graph Question Answering

Jul 5

ByCostas Mavromatis, Soji Adeshina, Vassilis N. Ioannidis, Zhen Han, Qi Zhu, Ian Robinson, Bryan Thompson, Huzefa Rangwala, George Karypis

La respuesta a preguntas sobre grafos de conocimiento (KGQA) presenta desafíos significativos debido a las variaciones estructurales y semánticas en los grafos de entrada. Los trabajos existentes dependen de agentes basados en Modelos de Lenguaje de Gran Escala (LLM) para el recorrido y recuperación del grafo; un enfoque que es sensible a la inicialización del recorrido, ya que es propenso a errores de vinculación de entidades y puede no generalizar bien a grafos de conocimiento personalizados ("bring-your-own"). Introducimos BYOKG-RAG, un marco que mejora KGQA al combinar sinérgicamente LLMs con herramientas especializadas de recuperación de grafos. En BYOKG-RAG, los LLMs generan artefactos críticos del grafo (entidades de la pregunta, respuestas candidatas, rutas de razonamiento y consultas OpenCypher), y las herramientas de grafos vinculan estos artefactos al KG y recuperan el contexto relevante del grafo. El contexto recuperado permite que el LLM refine iterativamente su vinculación y recuperación del grafo, antes de generar la respuesta final. Al recuperar contexto de diferentes herramientas de grafos, BYOKG-RAG ofrece una solución más general y robusta para QA sobre KGs personalizados. A través de experimentos en cinco benchmarks que abarcan diversos tipos de KGs, demostramos que BYOKG-RAG supera al segundo mejor método de recuperación de grafos en 4.5 puntos porcentuales, mostrando además una mejor generalización a KGs personalizados. El marco BYOKG-RAG es de código abierto en https://github.com/awslabs/graphrag-toolkit.

UGC-VideoCaptioner: Un Modelo Omnicomprensivo para Generación de Subtítulos en Videos UGC y Nuevos Puntos de Referencia
UGC-VideoCaptioner: An Omni UGC Video Detail Caption Model and New Benchmarks

Jul 15

ByPeiran Wu, Yunze Liu, Zhengdong Zhu, Enmin Zhou, Shawn Shen

Los videos generados por usuarios en el mundo real, especialmente en plataformas como TikTok, suelen presentar contenido audiovisual rico e interconectado. Sin embargo, los puntos de referencia y modelos existentes para la generación de descripciones de videos siguen siendo predominantemente centrados en lo visual, pasando por alto el papel crucial del audio para transmitir la dinámica de la escena, la intención del hablante y el contexto narrativo. Esta falta de conjuntos de datos omni y de modelos ligeros y capaces obstaculiza el progreso en la comprensión multimodal y detallada de videos. Para abordar estos desafíos, presentamos UGC-VideoCap, un nuevo punto de referencia y marco de modelos diseñado específicamente para la generación detallada de descripciones omni-modales de videos cortos generados por usuarios. A diferencia de conjuntos de datos anteriores, UGC-VideoCap enfatiza la integración equilibrada de las modalidades de audio y visual, presentando 1000 videos de TikTok anotados a través de un proceso estructurado de tres etapas con intervención humana, que cubre semántica solo de audio, solo visual y conjunta audiovisual. El punto de referencia también incluye 4000 pares de preguntas y respuestas cuidadosamente elaborados que exploran tanto la comprensión unimodal como la cruzada entre modalidades. Junto con el conjunto de datos, proponemos UGC-VideoCaptioner(3B), un modelo de generación de descripciones con 3 mil millones de parámetros destilado de Gemini 2.5 Flash. Utilizando una novedosa estrategia de entrenamiento en dos etapas (ajuste fino supervisado seguido de Optimización de Política Relativa en Grupo, GRPO), nuestro enfoque permite una adaptación eficiente a partir de datos limitados mientras mantiene un rendimiento competitivo. Juntos, nuestro punto de referencia y modelo ofrecen una base de alta calidad y una solución eficiente en términos de datos para avanzar en la generación de descripciones omni-modales de videos en entornos no restringidos de contenido generado por usuarios (UGC).

Inpainting de Audio Basado en Tokens mediante Difusión Discreta
Token-based Audio Inpainting via Discrete Diffusion

Jul 11

ByTali Dror, Iftach Shoham, Moshe Buchris, Oren Gal, Haim Permuter, Gilad Katz, Eliya Nachmani

El audio inpainting se refiere a la tarea de reconstruir segmentos faltantes en grabaciones de audio corruptas. Si bien enfoques previos, incluyendo modelos de difusión basados en formas de onda y espectrogramas, han mostrado resultados prometedores para brechas cortas, a menudo pierden calidad cuando las brechas superan los 100 milisegundos (ms). En este trabajo, presentamos un novedoso método de inpainting basado en modelado de difusión discreta, que opera sobre representaciones de audio tokenizadas producidas por un tokenizador de audio preentrenado. Nuestro enfoque modela el proceso generativo directamente en el espacio latente discreto, permitiendo una reconstrucción estable y semánticamente coherente del audio faltante. Evaluamos el método en el conjunto de datos MusicNet utilizando métricas tanto objetivas como perceptuales para duraciones de brecha de hasta 300 ms. Además, evaluamos nuestro enfoque en el conjunto de datos MTG, extendiendo la duración de la brecha a 500 ms. Los resultados experimentales demuestran que nuestro método logra un rendimiento competitivo o superior en comparación con las líneas base existentes, particularmente para brechas más largas, ofreciendo una solución robusta para restaurar grabaciones musicales degradadas. Ejemplos de audio de nuestro método propuesto se pueden encontrar en https://iftach21.github.io/.

LLMalMorph: Sobre la viabilidad de generar variantes de malware utilizando modelos de lenguaje de gran escala
LLMalMorph: On The Feasibility of Generating Variant Malware using Large-Language-Models

Jul 12

ByMd Ajwad Akil, Adrian Shuai Li, Imtiaz Karim, Arun Iyengar, Ashish Kundu, Vinny Parla, Elisa Bertino

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han transformado el desarrollo de software y la generación automatizada de código. Motivados por estos avances, este artículo explora la viabilidad de utilizar LLMs para modificar el código fuente de malware y generar variantes. Presentamos LLMalMorph, un marco semiautomatizado que aprovecha la comprensión semántica y sintáctica del código por parte de los LLMs para generar nuevas variantes de malware. LLMalMorph extrae información a nivel de función del código fuente del malware y emplea indicaciones personalizadas junto con transformaciones de código definidas estratégicamente para guiar al LLM en la generación de variantes sin necesidad de un ajuste fino intensivo en recursos. Para evaluar LLMalMorph, recopilamos 10 muestras diversas de malware para Windows de distintos tipos, complejidades y funcionalidades, y generamos 618 variantes. Nuestros exhaustivos experimentos demuestran que es posible reducir en cierta medida las tasas de detección de los motores antivirus de estas variantes de malware, manteniendo las funcionalidades del malware. Además, a pesar de no optimizar contra ningún detector de malware basado en Aprendizaje Automático (ML, por sus siglas en inglés), varias variantes también lograron tasas de éxito notables contra un clasificador de malware basado en ML. También discutimos las limitaciones actuales de las capacidades de los LLMs para generar variantes de malware a partir del código fuente y evaluamos el lugar que ocupa esta tecnología emergente en el contexto más amplio de la generación de variantes de malware.

Confianza Orquestador-Agente: Un Sistema de Clasificación Visual de IA Agéntica Modular con Orquestación Consciente de la Confianza y Razonamiento Basado en RAG
Orchestrator-Agent Trust: A Modular Agentic AI Visual Classification System with Trust-Aware Orchestration and RAG-Based Reasoning

Jul 9

ByKonstantinos I. Roumeliotis, Ranjan Sapkota, Manoj Karkee, Nikolaos D. Tselikas

La Inteligencia Artificial (IA) moderna depende cada vez más de arquitecturas multiagente que combinan la comprensión visual y del lenguaje. Sin embargo, persiste un desafío apremiante: ¿cómo podemos confiar en estos agentes, especialmente en entornos zero-shot sin ajuste fino? Presentamos un novedoso marco modular de clasificación visual de IA Agéntica que integra agentes multimodales generalistas con un orquestador de razonamiento no visual y un módulo de Generación Aumentada por Recuperación (RAG, por sus siglas en inglés). Aplicado al diagnóstico de enfermedades en hojas de manzano, evaluamos tres configuraciones: (I) zero-shot con orquestación basada en confianza, (II) agentes ajustados con mejor rendimiento, y (III) orquestación calibrada para la confianza, mejorada mediante recuperación de imágenes basada en CLIP y bucles de reevaluación. Utilizando métricas de calibración de confianza (ECE, OCR, CCC), el orquestador modula la confianza entre los agentes. Nuestros resultados muestran una mejora del 77.94% en precisión en el entorno zero-shot al emplear orquestación consciente de la confianza y RAG, alcanzando un 85.63% en general. GPT-4o demostró una mejor calibración, mientras que Qwen-2.5-VL mostró exceso de confianza. Además, las predicciones basadas en image-RAG se fundamentaron en casos visualmente similares, permitiendo corregir el exceso de confianza de los agentes mediante reevaluación iterativa. El sistema propuesto separa la percepción (agentes visuales) del meta-razonamiento (orquestador), permitiendo una IA multiagente escalable e interpretable. Este esquema es extensible a diagnósticos, biología y otros dominios críticos para la confianza. Todos los modelos, instrucciones, resultados y componentes del sistema, incluido el código fuente completo del software, se han liberado abiertamente para apoyar la reproducibilidad, transparencia y evaluación comunitaria en Github: https://github.com/Applied-AI-Research-Lab/Orchestrator-Agent-Trust.

Plantado en el Pretrenamiento, Influenciado por el Ajuste Fino: Un Estudio de Caso sobre los Orígenes de los Sesgos Cognitivos en los Modelos de Lenguaje de Gran Escala
Planted in Pretraining, Swayed by Finetuning: A Case Study on the Origins of Cognitive Biases in LLMs

Jul 9

ByItay Itzhak, Yonatan Belinkov, Gabriel Stanovsky

Los modelos de lenguaje de gran escala (LLMs) exhiben sesgos cognitivos: tendencias sistemáticas de toma de decisiones irracionales, similares a las observadas en humanos. Trabajos previos han encontrado que estos sesgos varían entre modelos y pueden amplificarse mediante el ajuste por instrucción. Sin embargo, sigue sin estar claro si estas diferencias en los sesgos provienen del preentrenamiento, del ajuste fino o incluso del ruido aleatorio debido a la estocasticidad del entrenamiento. Proponemos un enfoque experimental causal en dos pasos para desentrañar estos factores. Primero, ajustamos modelos múltiples veces utilizando diferentes semillas aleatorias para estudiar cómo la aleatoriedad del entrenamiento afecta más de 30 sesgos cognitivos. Segundo, introducimos el "cross-tuning": intercambiamos conjuntos de datos de instrucción entre modelos para aislar las fuentes de sesgo. Este intercambio utiliza conjuntos de datos que generaron patrones de sesgo diferentes, probando directamente si los sesgos dependen del conjunto de datos. Nuestros hallazgos revelan que, aunque la aleatoriedad del entrenamiento introduce cierta variabilidad, los sesgos están principalmente moldeados por el preentrenamiento: los modelos con la misma arquitectura preentrenada exhiben patrones de sesgo más similares que aquellos que solo comparten datos de ajuste fino. Estas ideas sugieren que comprender los sesgos en modelos ajustados requiere considerar sus orígenes en el preentrenamiento más allá de los efectos del ajuste fino. Esta perspectiva puede guiar futuros esfuerzos para desarrollar estrategias fundamentadas para evaluar y mitigar el sesgo en los LLMs.

Domando modelos generativos de video para la extracción de flujo óptico en modo zero-shot
Taming generative video models for zero-shot optical flow extraction

Jul 11

BySeungwoo Kim, Khai Loong Aw, Klemen Kotar, Cristobal Eyzaguirre, Wanhee Lee, Yunong Liu, Jared Watrous, Stefan Stojanov, Juan Carlos Niebles, Jiajun Wu, Daniel L. K. Yamins