Artículos de investigación en IA seleccionados diariamente con traducciones
El preentrenamiento de modelos de lenguaje implica entrenamiento sobre corpus extensos, donde la calidad de los datos juega un papel fundamental. En este trabajo, buscamos estimar directamente la contribución de los datos durante el preentrenamiento y seleccionar los datos de preentrenamiento de manera eficiente. Específicamente, nos inspiramos en hallazgos recientes que muestran que la eficiencia de compresión (es decir, la pérdida normalizada) de diversos modelos en ciertos textos se correlaciona fuertemente con su rendimiento en tareas posteriores, cuando el dominio del texto coincide con el benchmark de evaluación (Huang et al., 2024). Basándonos en esta observación, planteamos la hipótesis de que los datos en los que las pérdidas del modelo son predictivas de sus capacidades posteriores también contribuyen efectivamente al aprendizaje. Para aprovechar esta idea, introducimos la selección de datos basada en la Fuerza Predictiva de los datos (PreSelect), un método ligero y eficiente de selección de datos que requiere entrenar y desplegar únicamente un evaluador basado en fastText. A través de experimentos exhaustivos con modelos de 1B y 3B parámetros, demostramos que los modelos entrenados con 30B tokens seleccionados mediante PreSelect superan el rendimiento de una línea base estándar entrenada con 300B tokens, logrando una reducción de 10x en los requisitos de cómputo. Además, PreSelect supera significativamente a otros métodos competitivos de selección de datos, como DCLM y FineWeb-Edu, en modelos de 3B parámetros entrenados con 100B tokens. Hemos liberado nuestro evaluador de selección de datos entrenado junto con los conjuntos de datos curados en https://github.com/hkust-nlp/PreSelect.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado un rendimiento notable en la resolución de tareas de razonamiento complejo mediante mecanismos como el prompting de Cadena de Pensamiento (CoT, por sus siglas en inglés), que enfatiza un razonamiento detallado y paso a paso. Sin embargo, los humanos suelen emplear una estrategia más eficiente: redactar pensamientos intermedios concisos que capturan únicamente la información esencial. En este trabajo, proponemos la Cadena de Borrador (CoD, por sus siglas en inglés), un paradigma novedoso inspirado en los procesos cognitivos humanos, donde los LLMs generan resultados intermedios de razonamiento minimalistas pero informativos mientras resuelven tareas. Al reducir la verbosidad y centrarse en insights críticos, CoD iguala o supera a CoT en precisión mientras utiliza tan solo el 7.6% de los tokens, reduciendo significativamente el costo y la latencia en diversas tareas de razonamiento.
El diseño de soluciones para desafíos de ingeniería complejos es crucial en las actividades productivas humanas. Sin embargo, investigaciones previas en el campo de la generación aumentada por recuperación (RAG) no han abordado suficientemente tareas relacionadas con el diseño de soluciones de ingeniería complejas. Para llenar este vacío, presentamos un nuevo punto de referencia, SolutionBench, para evaluar la capacidad de un sistema de generar soluciones completas y viables para problemas de ingeniería con múltiples restricciones complejas. Para avanzar aún más en el diseño de soluciones de ingeniería complejas, proponemos un sistema novedoso, SolutionRAG, que aprovecha la exploración basada en árboles y el mecanismo de pensamiento bi-punto para generar soluciones confiables. Los resultados experimentales extensivos demuestran que SolutionRAG alcanza un rendimiento de vanguardia (SOTA) en SolutionBench, destacando su potencial para mejorar la automatización y confiabilidad del diseño de soluciones de ingeniería complejas en aplicaciones del mundo real.
Abordamos el problema de la generación de código a partir de retroalimentación de ejecución en múltiples turnos. Los métodos existentes generan código sin retroalimentación o utilizan aprendizaje por refuerzo jerárquico complejo para optimizar recompensas en múltiples turnos. Proponemos un enfoque simple pero escalable, muCode, que resuelve la generación de código en múltiples turnos utilizando únicamente recompensas de un solo paso. Nuestra idea clave es que la generación de código es un MDP recuperable en un solo paso, donde el código correcto puede recuperarse desde cualquier estado intermedio de código en un solo turno. muCode entrena iterativamente tanto un generador para proporcionar soluciones de código condicionadas a la retroalimentación de ejecución en múltiples turnos como un verificador para puntuar el código recién generado. Las evaluaciones experimentales muestran que nuestro enfoque logra mejoras significativas sobre los métodos de referencia más avanzados. Proporcionamos un análisis de las decisiones de diseño de los modelos de recompensa y la política, y demostramos la eficacia de muCode al utilizar la retroalimentación de ejecución. Nuestro código está disponible en https://github.com/portal-cornell/muCode.
Los modelos recientes de generación de texto a imagen (T2I) han logrado resultados notables al entrenarse en conjuntos de datos de escala de miles de millones, siguiendo un paradigma de "más grande es mejor" que prioriza la cantidad de datos sobre su calidad. Desafiamos este paradigma establecido al demostrar que la ampliación estratégica de datos en conjuntos pequeños y bien curados puede igualar o superar a los modelos entrenados con colecciones masivas extraídas de la web. Utilizando únicamente ImageNet mejorado con ampliaciones de texto e imagen bien diseñadas, logramos un puntaje general +2 sobre SD-XL en GenEval y +5 en DPGBench, mientras empleamos solo 1/10 de los parámetros y 1/1000 de las imágenes de entrenamiento. Nuestros resultados sugieren que la ampliación estratégica de datos, en lugar de conjuntos de datos masivos, podría ofrecer un camino más sostenible para la generación T2I.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han alcanzado un nivel de competencia comparable al humano en diversas tareas, pero su capacidad para resolver problemas matemáticos rigurosos sigue siendo un desafío abierto. En este trabajo, investigamos un problema fundamental pero computacionalmente intratable: determinar si un polinomio multivariado dado es no negativo. Este problema, estrechamente relacionado con el Decimoséptimo Problema de Hilbert, desempeña un papel crucial en la optimización global de polinomios y tiene aplicaciones en varios campos. Primero, presentamos SoS-1K, un conjunto de datos meticulosamente curado de aproximadamente 1,000 polinomios, junto con instrucciones de razonamiento diseñadas por expertos basadas en cinco criterios progresivamente desafiantes. Al evaluar múltiples LLMs de última generación, encontramos que, sin una guía estructurada, todos los modelos obtienen un rendimiento apenas superior al 50% de la línea base de adivinación aleatoria. Sin embargo, las instrucciones de razonamiento de alta calidad mejoran significativamente la precisión, aumentando el rendimiento hasta un 81%. Además, nuestro modelo de 7B, SoS-7B, ajustado en SoS-1K durante solo 4 horas, supera en precisión al DeepSeek-V3 de 671B y al GPT-4o-mini, mientras que requiere solo el 1.8% y el 5% del tiempo de computación necesario para las letras, respectivamente. Nuestros hallazgos destacan el potencial de los LLMs para ampliar los límites del razonamiento matemático y abordar problemas NP-difíciles.
Comprender la información de documentos visualmente ricos sigue siendo un desafío significativo para los métodos tradicionales de Generación Aumentada por Recuperación (RAG, por sus siglas en inglés). Los benchmarks existentes se centran predominantemente en la respuesta a preguntas basadas en imágenes (QA), pasando por alto los desafíos fundamentales de la recuperación eficiente, la comprensión y el razonamiento dentro de documentos visuales densos. Para cerrar esta brecha, presentamos ViDoSeek, un nuevo conjunto de datos diseñado para evaluar el rendimiento de RAG en documentos visualmente ricos que requieren razonamiento complejo. Basándonos en él, identificamos limitaciones clave en los enfoques actuales de RAG: (i) los métodos de recuperación puramente visuales tienen dificultades para integrar eficazmente tanto las características textuales como las visuales, y (ii) los enfoques anteriores a menudo asignan un número insuficiente de tokens de razonamiento, limitando su efectividad. Para abordar estos desafíos, proponemos ViDoRAG, un novedoso marco de RAG multiagente diseñado para el razonamiento complejo en documentos visuales. ViDoRAG emplea una estrategia híbrida basada en Modelos de Mezcla Gaussiana (GMM) para manejar eficazmente la recuperación multimodal. Para potenciar aún más las capacidades de razonamiento del modelo, introducimos un flujo de trabajo iterativo de agentes que incorpora exploración, resumen y reflexión, proporcionando un marco para investigar la escalabilidad en tiempo de prueba en dominios de RAG. Experimentos extensivos en ViDoSeek validan la efectividad y generalización de nuestro enfoque. Notablemente, ViDoRAG supera a los métodos existentes en más de un 10% en el competitivo benchmark de ViDoSeek.
El aprendizaje por refuerzo ha obtenido resultados prometedores al alcanzar capacidades a nivel humano o incluso superhumano en diversos dominios de problemas, pero el éxito en la manipulación diestra de robots sigue siendo limitado. Este trabajo investiga los principales desafíos al aplicar el aprendizaje por refuerzo para resolver una colección de tareas de manipulación ricas en contacto en una encarnación humanoide. Introducimos técnicas novedosas para superar los desafíos identificados con validación empírica. Nuestras principales contribuciones incluyen un módulo de ajuste automático de simulación a realidad que acerca el entorno simulado al mundo real, un esquema de diseño de recompensas generalizado que simplifica la ingeniería de recompensas para tareas de manipulación ricas en contacto de largo horizonte, un proceso de destilación de divide y vencerás que mejora la eficiencia de muestreo en problemas de exploración difícil mientras mantiene el rendimiento de simulación a realidad, y una mezcla de representaciones de objetos dispersas y densas para cerrar la brecha de percepción entre simulación y realidad. Mostramos resultados prometedores en tres tareas de manipulación diestra con humanoides, con estudios de ablación en cada técnica. Nuestro trabajo presenta un enfoque exitoso para aprender la manipulación diestra con humanoides utilizando aprendizaje por refuerzo de simulación a realidad, logrando una generalización robusta y un alto rendimiento sin necesidad de demostración humana.
Los modelos modernos de reconocimiento automático del habla (ASR, por sus siglas en inglés), como Whisper de OpenAI, se basan en arquitecturas profundas de codificador-decodificador, y sus codificadores representan un cuello de botella crítico para un despliegue eficiente debido a su alta intensidad computacional. Presentamos LiteASR, un esquema de compresión de bajo rango para los codificadores de ASR que reduce significativamente los costos de inferencia mientras mantiene la precisión en la transcripción. Nuestro enfoque aprovecha las fuertes propiedades de bajo rango observadas en las activaciones intermedias: al aplicar análisis de componentes principales (PCA, por sus siglas en inglés) con un pequeño conjunto de datos de calibración, aproximamos las transformaciones lineales con una cadena de multiplicaciones de matrices de bajo rango, y optimizamos aún más la autoatención para funcionar en la dimensión reducida. Los resultados de evaluación muestran que nuestro método puede comprimir el tamaño del codificador de Whisper large-v3 en más del 50%, igualando el tamaño de Whisper medium con una mejor precisión en la transcripción, estableciendo así una nueva frontera Pareto-óptima de eficiencia y rendimiento. El código de LiteASR está disponible en https://github.com/efeslab/LiteASR.
La generación aumentada por recuperación (RAG, por sus siglas en inglés) amplía los modelos de lenguaje de gran escala (LLMs) con fuentes de datos externas para mejorar la precisión factual y la cobertura de dominio. Las pipelines modernas de RAG dependen de grandes almacenes de datos, lo que genera desafíos en sistemas con requisitos de baja latencia, especialmente cuando la memoria de GPU disponible es limitada. Para abordar estos desafíos, proponemos TeleRAG, un sistema de inferencia eficiente que reduce la latencia de RAG con requisitos mínimos de memoria de GPU. La innovación central de TeleRAG es la recuperación anticipada, un mecanismo de prefetching que anticipa los datos necesarios y los transfiere de la CPU a la GPU en paralelo con la generación del LLM. Al aprovechar la modularidad de las pipelines de RAG, el algoritmo de búsqueda de índice de archivo invertido (IVF) y las similitudes entre consultas, TeleRAG superpone de manera óptima el movimiento de datos y el cómputo. Los resultados experimentales muestran que TeleRAG reduce la latencia de inferencia RAG de extremo a extremo hasta 1.72x en promedio en comparación con los sistemas más avanzados, permitiendo implementaciones más rápidas y eficientes en memoria de aplicaciones RAG avanzadas.
Los modelos de base visual (VFMs, por sus siglas en inglés) han ganado popularidad debido a su rendimiento de vanguardia. Sin embargo, la interpretabilidad sigue siendo crucial para aplicaciones críticas. En este sentido, los modelos autoexplicables (SEM) buscan proporcionar clasificadores interpretables que descompongan las predicciones en una suma ponderada de conceptos interpretables. A pesar de su potencial, estudios recientes han demostrado que estas explicaciones a menudo carecen de fidelidad. En este trabajo, combinamos VFMs con una arquitectura prototípica novedosa y objetivos de entrenamiento especializados. Al entrenar únicamente una cabeza ligera (aproximadamente 1 millón de parámetros) sobre VFMs congelados, nuestro enfoque (ProtoFM) ofrece una solución eficiente e interpretable. Las evaluaciones demuestran que nuestro enfoque logra un rendimiento competitivo en clasificación, superando a los modelos existentes en una variedad de métricas de interpretabilidad derivadas de la literatura. El código está disponible en https://github.com/hturbe/proto-fm.
Los sistemas de Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) siguen siendo vulnerables a respuestas alucinadas a pesar de incorporar fuentes de conocimiento externas. Presentamos LettuceDetect, un marco que aborda dos limitaciones críticas en los métodos existentes de detección de alucinaciones: (1) las restricciones de la ventana de contexto en los métodos tradicionales basados en codificadores, y (2) la ineficiencia computacional de los enfoques basados en modelos de lenguaje grandes (LLM). Basándonos en las capacidades de contexto extendido de ModernBERT (hasta 8k tokens) y entrenado en el conjunto de datos de referencia RAGTruth, nuestro enfoque supera a todos los modelos anteriores basados en codificadores y a la mayoría de los modelos basados en prompts, siendo aproximadamente 30 veces más pequeño que los mejores modelos. LettuceDetect es un modelo de clasificación de tokens que procesa tríos de contexto-pregunta-respuesta, permitiendo la identificación de afirmaciones no respaldadas a nivel de token. Las evaluaciones en el corpus RAGTruth demuestran un puntaje F1 de 79.22% para la detección a nivel de ejemplo, lo que representa una mejora del 14.8% sobre Luna, la arquitectura basada en codificadores anteriormente considerada como estado del arte. Además, el sistema puede procesar de 30 a 60 ejemplos por segundo en una sola GPU, lo que lo hace más práctico para aplicaciones RAG en el mundo real.
La creciente complejidad y el número de parámetros en las Redes Neuronales Convolucionales (CNNs) y los Transformers plantean desafíos en términos de eficiencia computacional y demandas de recursos. La poda ha sido identificada como una estrategia efectiva para abordar estos desafíos al eliminar elementos redundantes, como neuronas, canales o conexiones, mejorando así la eficiencia computacional sin comprometer significativamente el rendimiento. Este trabajo se basa en los fundamentos de Optimal Brain Damage (OBD) al avanzar en la metodología de estimación de la importancia de los parámetros utilizando la matriz Hessiana. A diferencia de enfoques anteriores que dependen de aproximaciones, introducimos Optimal Brain Apoptosis (OBA), un novedoso método de poda que calcula directamente el producto Hessiano-vector para cada parámetro. Al descomponer la matriz Hessiana a través de las capas de la red e identificar las condiciones bajo las cuales las submatrices Hessianas entre capas son no nulas, proponemos una técnica altamente eficiente para calcular la expansión de Taylor de segundo orden de los parámetros. Este enfoque permite un proceso de poda más preciso, particularmente en el contexto de CNNs y Transformers, como se valida en nuestros experimentos que incluyen VGG19, ResNet32, ResNet50 y ViT-B/16 en los conjuntos de datos CIFAR10, CIFAR100 e Imagenet. Nuestro código está disponible en https://github.com/NEU-REAL/OBA.
El agarre diestro sigue siendo un problema fundamental pero desafiante en robótica. Un robot de propósito general debe ser capaz de agarrar objetos diversos en escenarios arbitrarios. Sin embargo, la investigación existente generalmente se basa en suposiciones específicas, como entornos de un solo objeto o limitados, lo que lleva a una generalización restringida. Nuestra solución es DexGraspVLA, un marco jerárquico que utiliza un modelo de Visión-Lenguaje preentrenado como planificador de tareas de alto nivel y aprende una política basada en difusión como controlador de acciones de bajo nivel. La clave radica en transformar iterativamente diversas entradas de lenguaje y visuales en representaciones invariantes al dominio, donde el aprendizaje por imitación puede aplicarse efectivamente debido a la mitigación del cambio de dominio. Así, permite una generalización robusta en una amplia gama de escenarios del mundo real. Notablemente, nuestro método alcanza una tasa de éxito del 90+% bajo miles de combinaciones no vistas de objetos, iluminación y fondos en un entorno de "zero-shot". El análisis empírico confirma además la consistencia del comportamiento interno del modelo a través de variaciones ambientales, validando así nuestro diseño y explicando su rendimiento de generalización. Esperamos que nuestro trabajo sea un paso adelante en la consecución del agarre diestro general. Nuestra demostración y código se pueden encontrar en https://dexgraspvla.github.io/.
La aplicación de modelos de lenguaje de gran escala (LLMs) para asistir en la psicoterapia es un enfoque emergente y significativo, impulsado por la brecha significativa entre las necesidades de los pacientes y la disponibilidad de apoyo en salud mental. Sin embargo, los LLMs actuales tienen dificultades para proporcionar respuestas efectivas de manera consistente a los discursos de los clientes, principalmente debido a la falta de supervisión basada en datos reales de alta calidad de psicoterapia, cuyo contenido suele ser inaccesible debido a preocupaciones sobre la privacidad de los clientes. Además, la calidad de las respuestas de los terapeutas en las sesiones disponibles puede variar significativamente según su formación profesional y experiencia. Evaluar la calidad de las respuestas de los terapeutas sigue siendo un desafío abierto. En este trabajo, abordamos estos desafíos proponiendo primero un conjunto de principios profesionales y completos para evaluar las respuestas de los terapeutas a los discursos de los clientes. Utilizando estos principios, creamos un conjunto de datos de preferencias, PsychoCounsel-Preference, que contiene 36k pares de comparación de preferencias de alta calidad. Este conjunto de datos se alinea con las preferencias de psicoterapeutas profesionales, proporcionando una base sólida para evaluar y mejorar los LLMs en psicoterapia. Los experimentos en modelado de recompensas y aprendizaje de preferencias demuestran que PsychoCounsel-Preference es un recurso excelente para que los LLMs adquieran habilidades esenciales para responder a los clientes en una sesión de terapia. Nuestro modelo mejor alineado, PsychoCounsel-Llama3-8B, alcanza una tasa de victoria impresionante del 87% frente a GPT-4o. Publicamos PsychoCounsel-Preference, PsychoCounsel-Llama3-8B y el modelo de recompensa PsychoCounsel Llama3-8B-Reward para facilitar la investigación de la psicoterapia con LLMs en: https://hf.co/Psychotherapy-LLM.
La actividad humana está regulada por normas. Al realizar acciones en el mundo real, los humanos no solo siguen normas, sino que también consideran el equilibrio entre diferentes normas. Sin embargo, las máquinas a menudo se entrenan sin supervisión explícita en la comprensión y razonamiento de normas, especialmente cuando estas están fundamentadas en un contexto físico y social. Para mejorar y evaluar la capacidad de razonamiento normativo de los modelos de visión y lenguaje (VLMs), presentamos EgoNormia |epsilon|, que consta de 1.853 videos egocéntricos de interacciones humanas, cada uno con dos preguntas relacionadas que evalúan tanto la predicción como la justificación de acciones normativas. Estas acciones normativas abarcan siete categorías: seguridad, privacidad, proxémica, cortesía, cooperación, coordinación/proactividad y comunicación/legibilidad. Para compilar este conjunto de datos a gran escala, proponemos una nueva canalización que aprovecha el muestreo de videos, la generación automática de respuestas, el filtrado y la validación humana. Nuestro trabajo demuestra que los modelos de visión y lenguaje más avanzados actualmente carecen de una comprensión robusta de las normas, obteniendo un máximo del 45% en EgoNormia (frente a un 92% en el caso de humanos). Nuestro análisis del rendimiento en cada dimensión destaca los riesgos significativos en seguridad, privacidad y la falta de capacidad de colaboración y comunicación cuando se aplican a agentes del mundo real. Además, mostramos que, mediante un método de generación basado en recuperación, es posible utilizar EgoNormia para mejorar el razonamiento normativo en los VLMs.
A pesar de los avances significativos en la generación de imágenes basada en difusión, la generación guiada por sujetos y la edición basada en instrucciones siguen siendo desafiantes. Los métodos existentes suelen tratarlos por separado, enfrentándose a datos de alta calidad limitados y a una pobre generalización. Sin embargo, ambas tareas requieren capturar variaciones visuales complejas mientras se mantiene la consistencia entre las entradas y las salidas. Por lo tanto, proponemos MIGE, un marco unificado que estandariza las representaciones de tareas utilizando instrucciones multimodales. Trata la generación guiada por sujetos como una creación en un lienzo en blanco y la edición basada en instrucciones como una modificación de una imagen existente, estableciendo una formulación compartida de entrada-salida. MIGE introduce un nuevo codificador multimodal que mapea instrucciones multimodales de forma libre en un espacio unificado de visión y lenguaje, integrando características visuales y semánticas a través de un mecanismo de fusión de características. Esta unificación permite el entrenamiento conjunto de ambas tareas, proporcionando dos ventajas clave: (1) Mejora entre tareas: Al aprovechar representaciones visuales y semánticas compartidas, el entrenamiento conjunto mejora la adherencia a las instrucciones y la consistencia visual tanto en la generación guiada por sujetos como en la edición basada en instrucciones. (2) Generalización: El aprendizaje en un formato unificado facilita la transferencia de conocimiento entre tareas, permitiendo que MIGE generalice a tareas composicionales novedosas, incluyendo la edición guiada por sujetos basada en instrucciones. Los experimentos muestran que MIGE sobresale tanto en la generación guiada por sujetos como en la edición basada en instrucciones, estableciendo un estado del arte en la nueva tarea de edición guiada por sujetos basada en instrucciones. El código y el modelo están disponibles públicamente en https://github.com/Eureka-Maggie/MIGE.
Los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) han logrado avances significativos en la comprensión de videos. Sin embargo, su rendimiento en videos que involucran acciones humanas sigue siendo limitado debido a la falta de datos de alta calidad. Para abordar este problema, presentamos un pipeline de anotación de datos en dos etapas. Primero, diseñamos estrategias para acumular videos que presenten acciones humanas claras desde Internet. Segundo, los videos se anotan en un formato de descripción estandarizado que utiliza atributos humanos para distinguir a los individuos y detalla cronológicamente sus acciones e interacciones. A través de este pipeline, hemos creado dos conjuntos de datos, denominados HAICTrain y HAICBench. HAICTrain consta de 126K pares de video-descripción generados por Gemini-Pro y verificados para fines de entrenamiento. Por otro lado, HAICBench incluye 500 pares de video-descripción anotados manualmente y 1,400 pares de preguntas y respuestas, para una evaluación exhaustiva de la comprensión de acciones humanas. Los resultados experimentales demuestran que el entrenamiento con HAICTrain no solo mejora significativamente las capacidades de comprensión humana en 4 benchmarks, sino que también puede mejorar los resultados de generación de texto a video. Tanto HAICTrain como HAICBench están disponibles en https://huggingface.co/datasets/KuaishouHAIC/HAIC.