Artículos de investigación en IA seleccionados diariamente con traducciones
Los avances recientes en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han acelerado el progreso en el procesamiento del lenguaje natural (NLP) financiero y sus aplicaciones. Sin embargo, los puntos de referencia existentes siguen limitándose a entornos monolingües y unimodales, a menudo dependiendo en exceso de tareas simples y sin reflejar la complejidad de la comunicación financiera del mundo real. Presentamos MultiFinBen, el primer punto de referencia multilingüe y multimodal diseñado específicamente para el ámbito financiero global, que evalúa los LLMs en diferentes modalidades (texto, visión, audio) y contextos lingüísticos (monolingüe, bilingüe, multilingüe) en tareas específicas del dominio. Introducimos dos tareas novedosas: PolyFiQA-Easy y PolyFiQA-Expert, los primeros puntos de referencia financieros multilingües que requieren que los modelos realicen razonamientos complejos sobre entradas en idiomas mixtos; y EnglishOCR y SpanishOCR, las primeras tareas de preguntas y respuestas (QA) financieras integradas con OCR que desafían a los modelos a extraer y razonar sobre información a partir de documentos financieros visual-textuales. Además, proponemos un mecanismo de selección dinámico y consciente de la dificultad, y elaboramos un punto de referencia compacto y equilibrado en lugar de una simple agregación de conjuntos de datos existentes. Una evaluación extensa de 22 modelos de última generación revela que incluso los modelos más potentes, a pesar de sus capacidades generales multimodales y multilingües, enfrentan dificultades significativas al abordar tareas complejas multilingües y multimodales en el ámbito financiero. MultiFinBen se ha publicado públicamente para fomentar un progreso transparente, reproducible e inclusivo en los estudios y aplicaciones financieras.
El escalado del cómputo en tiempo de prueba ha demostrado un éxito notable en la mejora de las capacidades de razonamiento de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés). En este trabajo, llevamos a cabo la primera exploración sistemática de la aplicación de métodos de escalado en tiempo de prueba a agentes de lenguaje e investigamos hasta qué punto mejora su efectividad. Específicamente, exploramos diferentes estrategias de escalado en tiempo de prueba, incluyendo: (1) algoritmos de muestreo paralelo; (2) estrategias de revisión secuencial; (3) verificadores y métodos de fusión; (4) estrategias para diversificar las ejecuciones. Analizamos y aislamos cuidadosamente el impacto de diferentes estrategias de diseño en la aplicación del escalado en tiempo de prueba a agentes de lenguaje, y obtenemos los siguientes hallazgos: 1. El escalado del cómputo en tiempo de prueba puede mejorar el rendimiento de los agentes. 2. Saber cuándo reflexionar es importante para los agentes. 3. Entre los diferentes enfoques de verificación y fusión de resultados, el método basado en listas es el que mejor desempeño tiene. 4. Aumentar la diversificación de las ejecuciones ejerce un efecto positivo en el desempeño de las tareas del agente.
Los recientes avances en los modelos de lenguaje de gran escala (LLMs) de audio-texto han abierto nuevas posibilidades para la comprensión y generación de música. Sin embargo, los puntos de referencia existentes son limitados en alcance, a menudo basándose en tareas simplificadas o evaluaciones de opción múltiple que no reflejan la complejidad del análisis musical en el mundo real. Reinterpretamos una amplia gama de anotaciones tradicionales de MIR (Music Information Retrieval) como formatos de seguimiento de instrucciones e introducimos CMI-Bench, un punto de referencia integral de seguimiento de instrucciones musicales diseñado para evaluar los LLMs de audio-texto en un conjunto diverso de tareas de recuperación de información musical (MIR). Estas incluyen clasificación de género, regresión de emociones, etiquetado de emociones, clasificación de instrumentos, estimación de tono, detección de tonalidad, transcripción de letras, extracción de melodía, reconocimiento de técnicas vocales, detección de técnicas de interpretación instrumental, etiquetado musical, descripción musical y seguimiento de (contra)tiempos: reflejando los desafíos centrales en la investigación de MIR. A diferencia de los puntos de referencia anteriores, CMI-Bench adopta métricas de evaluación estandarizadas consistentes con los modelos MIR de última generación previos, asegurando una comparabilidad directa con enfoques supervisados. Proporcionamos un kit de herramientas de evaluación que soporta todos los LLMs de audio-texto de código abierto, incluyendo LTU, Qwen-audio, SALMONN, MusiLingo, etc. Los resultados experimentales revelan brechas significativas en el rendimiento entre los LLMs y los modelos supervisados, junto con sus sesgos culturales, cronológicos y de género, destacando el potencial y las limitaciones de los modelos actuales para abordar tareas de MIR. CMI-Bench establece una base unificada para evaluar el seguimiento de instrucciones musicales, impulsando el progreso en los LLMs conscientes de la música.
Los Modelos de Difusión de Lenguaje de Gran Escala, o diffusion LLMs, han surgido como un enfoque significativo en la investigación de PLN, con un esfuerzo considerable dirigido a comprender su escalabilidad y rendimiento en tareas posteriores. Sin embargo, sus capacidades de contexto largo permanecen inexploradas, careciendo de análisis sistemático o métodos para la extensión del contexto. En este trabajo, presentamos la primera investigación sistemática que compara el rendimiento de contexto largo de los diffusion LLMs y los LLMs auto-regresivos tradicionales. Primero identificamos una característica única de los diffusion LLMs: a diferencia de los LLMs auto-regresivos, mantienen una \textit{perplejidad notablemente estable} durante la extrapolación directa del contexto. Además, mientras que los modelos auto-regresivos fallan por completo en la tarea de Needle-In-A-Haystack con contextos que exceden su longitud preentrenada, descubrimos que los diffusion LLMs exhiben un fenómeno distinto de \textit{percepción local}, permitiendo la recuperación exitosa de segmentos de contexto recientes. Explicamos ambos fenómenos a través de la teoría de escalado de Rotary Position Embedding (RoPE). Basándonos en estas observaciones, proponemos LongLLaDA, un método sin entrenamiento que integra LLaDA con la extrapolación RoPE basada en NTK. Nuestros resultados validan que las leyes de escalado de extrapolación establecidas siguen siendo efectivas para extender las ventanas de contexto de los diffusion LLMs. Además, identificamos tareas de contexto largo en las que los diffusion LLMs superan a los LLMs auto-regresivos y otras en las que se quedan cortos. En consecuencia, este estudio establece el primer método de extrapolación de contexto para diffusion LLMs, proporcionando insights teóricos esenciales y benchmarks empíricos críticos para avanzar en la investigación futura sobre diffusion LLMs de contexto largo.
A pesar de los avances impresionantes en el razonamiento complejo, los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) actuales suelen operar de manera aislada, tratando cada problema como un intento independiente, sin acumular o integrar conocimiento experiencial. En contraste, los expertos en resolución de problemas, como los equipos de olimpiadas o concursos de programación, aprovechan un rico tejido de experiencias: absorben mentoría de entrenadores, desarrollan intuición a partir de problemas pasados, utilizan conocimientos sobre el uso de herramientas y la funcionalidad de bibliotecas, adaptan estrategias basadas en la experiencia y conocimientos de sus pares, refinan continuamente su razonamiento mediante prueba y error, y aprenden de otros problemas relacionados incluso durante la competencia. Presentamos Xolver, un marco de razonamiento multiagente sin entrenamiento que equipa a un LLM de caja negra con una memoria persistente y en evolución de experiencia holística. Xolver integra diversas modalidades de experiencia, incluyendo recuperación externa y autónoma, uso de herramientas, interacciones colaborativas, evaluación impulsada por agentes y refinamiento iterativo. Al aprender de estrategias relevantes, fragmentos de código y patrones de razonamiento abstracto en tiempo de inferencia, Xolver evita generar soluciones desde cero, marcando una transición desde la inferencia aislada hacia agentes de lenguaje conscientes de la experiencia. Construido tanto en modelos de peso abierto como propietarios, Xolver supera consistentemente a agentes de razonamiento especializados. Incluso con arquitecturas ligeras (por ejemplo, QWQ-32B), a menudo supera a modelos avanzados como Qwen3-235B, Gemini 2.5 Pro, o3 y o4-mini-high. Con o3-mini-high, logra nuevos mejores resultados en GSM8K (98.1%), AIME'24 (94.4%), AIME'25 (93.7%), Math-500 (99.8%) y LiveCodeBench-V5 (91.6%), destacando el aprendizaje de experiencia holística como un paso clave hacia agentes generalistas capaces de razonamiento a nivel experto. El código y los datos están disponibles en https://kagnlp.github.io/xolver.github.io/.
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR, por sus siglas en inglés) ha surgido como un paradigma prometedor para avanzar en las capacidades de razonamiento de los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés). Sin embargo, una paradoja crítica opaca su eficacia: los modelos ajustados con RLVR a menudo tienen un rendimiento inferior al de sus modelos base en la métrica Pass@K para la búsqueda de soluciones, lo que lleva a la hipótesis de que RLVR simplemente re-pondera las rutas de razonamiento existentes a costa de la diversidad de razonamiento. En este trabajo, resolvemos esta contradicción identificando la fuente del problema: la métrica Pass@K en sí misma es una medida defectuosa del razonamiento, ya que otorga crédito a respuestas finales correctas que probablemente surgen de cadenas de pensamiento (CoTs, por sus siglas en inglés) inexactas o incompletas. Para abordar esto, introducimos una métrica de evaluación más precisa, CoT-Pass@K, que exige que tanto la ruta de razonamiento como la respuesta final sean correctas. Proporcionamos una nueva base teórica que formaliza cómo RLVR, a diferencia del aprendizaje por refuerzo tradicional, está estructurado de manera única para incentivar la integridad lógica. Nuestros resultados empíricos son alentadores: utilizando CoT-Pass@K, observamos que RLVR puede incentivar la generalización del razonamiento correcto para todos los valores de K. Además, al analizar la dinámica del entrenamiento, encontramos que esta capacidad de razonamiento mejorada emerge temprano en el proceso de entrenamiento y se generaliza de manera fluida. Nuestro trabajo proporciona una perspectiva clara sobre el papel de RLVR, ofrece un método más confiable para su evaluación y confirma su potencial para avanzar genuinamente en el razonamiento automático.
El surgimiento de modelos multimodales grandes (LMMs) similares a GPT-4o ha impulsado la exploración de la integración de modalidades de texto, visión y habla para apoyar interacciones multimodales más flexibles. Los LMMs existentes suelen concatenar las representaciones de las modalidades a lo largo de la dimensión de secuencia y alimentarlas en un modelo de lenguaje grande (LLM) como columna vertebral. Aunque la concatenación en la dimensión de secuencia es directa para la integración de modalidades, a menudo depende en gran medida de datos a gran escala para aprender las alineaciones entre modalidades. En este artículo, buscamos modelar las relaciones entre modalidades de manera más intencionada, logrando así alineaciones de modalidades más eficientes y flexibles. Para ello, proponemos Stream-Omni, un modelo grande de lenguaje-visión-habla con alineaciones de modalidades eficientes, que puede soportar simultáneamente interacciones bajo diversas combinaciones de modalidades. Stream-Omni emplea un LLM como columna vertebral y alinea la visión y el habla al texto basándose en sus relaciones. Para la visión, que es semánticamente complementaria al texto, Stream-Omni utiliza la concatenación en la dimensión de secuencia para lograr la alineación visión-texto. Para el habla, que es semánticamente consistente con el texto, Stream-Omni introduce un mapeo en la dimensión de capas basado en CTC para lograr la alineación habla-texto. De esta manera, Stream-Omni puede lograr alineaciones de modalidades con menos datos (especialmente de habla), permitiendo la transferencia de capacidades de texto a otras modalidades. Los experimentos en varios benchmarks demuestran que Stream-Omni logra un rendimiento sólido en tareas de comprensión visual, interacción de habla e interacción de habla basada en visión. Gracias al mapeo en la dimensión de capas, Stream-Omni puede proporcionar simultáneamente salidas de texto intermedias (como transcripciones ASR y respuestas del modelo) durante la interacción de habla, ofreciendo a los usuarios una experiencia multimodal integral.
La Extracción de Información Visual (VIE, por sus siglas en inglés) convierte imágenes de documentos no estructurados en formatos estructurados como JSON, lo cual es crucial para aplicaciones médicas como el análisis de informes y consultas en línea. Los métodos tradicionales dependen del Reconocimiento Óptico de Caracteres (OCR) y modelos de lenguaje, mientras que los modelos multimodales de extremo a extremo ofrecen generación directa de JSON. Sin embargo, los esquemas específicos del dominio y los altos costos de anotación limitan su efectividad en VIE médica. Basamos nuestro enfoque en el marco de Aprendizaje por Refuerzo con Recompensas Verificables (RLVR, por sus siglas en inglés) para abordar estos desafíos utilizando solo 100 muestras anotadas. Nuestro enfoque garantiza diversidad en el conjunto de datos, un mecanismo de recompensa equilibrado entre precisión y exhaustividad para reducir alucinaciones y mejorar la cobertura de campos, y estrategias de muestreo innovadoras para potenciar las capacidades de razonamiento. Al ajustar Qwen2.5-VL-7B con nuestro método RLVR, logramos un rendimiento de vanguardia en tareas de VIE médica, mejorando significativamente las métricas F1, precisión y exhaustividad. Si bien nuestros modelos sobresalen en tareas similares a los conjuntos de datos médicos, su rendimiento disminuye en tareas disímiles, lo que resalta la necesidad de optimización específica del dominio. Estudios de caso demuestran además el valor del razonamiento durante el entrenamiento y la inferencia para VIE.
El equilibrio entre exploración y explotación es un objetivo central en el aprendizaje por refuerzo (RL, por sus siglas en inglés). A pesar de los avances recientes en la mejora del razonamiento de los modelos de lenguaje (LM, por sus siglas en inglés), la mayoría de los métodos tienden hacia la explotación y, cada vez más, se enfrentan a mesetas de rendimiento. En este trabajo, revisitamos la entropía —una señal de exploración en RL— y examinamos su relación con el razonamiento exploratorio en los LM. A través de un análisis empírico, descubrimos fuertes correlaciones positivas entre las regiones de alta entropía y tres tipos de acciones de razonamiento exploratorio: (1) tokens clave que determinan o conectan pasos lógicos, (2) acciones reflexivas como la autoverificación y la corrección, y (3) comportamientos raros poco explorados por los LM base. Motivados por esto, introducimos una modificación mínima al RL estándar con solo una línea de código: aumentamos la función de ventaja con un término basado en la entropía. A diferencia de los métodos tradicionales de máxima entropía, que fomentan la exploración promoviendo la incertidumbre, nosotros fomentamos la exploración promoviendo cadenas de razonamiento más largas y profundas. Cabe destacar que nuestro método logra ganancias significativas en la métrica Pass@K —un estimador del límite superior de las capacidades de razonamiento de los LM— incluso cuando se evalúa con valores de K extremadamente grandes, lo que empuja los límites del razonamiento de los LM.
Un desafío importante para la inteligencia artificial moderna es aprender a comprender el mundo y actuar principalmente mediante la observación. Este artículo explora un enfoque autosupervisado que combina datos de video a escala de internet con una pequeña cantidad de datos de interacción (trayectorias de robots), para desarrollar modelos capaces de comprender, predecir y planificar en el mundo físico. Primero, preentrenamos una arquitectura de predicción de incrustación conjunta sin acciones, V-JEPA 2, en un conjunto de datos de video e imágenes que comprende más de 1 millón de horas de video de internet. V-JEPA 2 logra un rendimiento sólido en la comprensión del movimiento (77.3 de precisión top-1 en Something-Something v2) y un rendimiento de vanguardia en la anticipación de acciones humanas (39.7 de recuperación a 5 en Epic-Kitchens-100), superando modelos anteriores específicos para tareas. Además, después de alinear V-JEPA 2 con un modelo de lenguaje grande, demostramos un rendimiento de vanguardia en múltiples tareas de respuesta a preguntas sobre video a escala de 8 mil millones de parámetros (por ejemplo, 84.0 en PerceptionTest, 76.9 en TempCompass). Finalmente, mostramos cómo el aprendizaje autosupervisado puede aplicarse a tareas de planificación robótica mediante el posentrenamiento de un modelo del mundo condicionado por acciones latentes, V-JEPA 2-AC, utilizando menos de 62 horas de videos de robots sin etiquetar del conjunto de datos Droid. Implementamos V-JEPA 2-AC de manera inmediata en brazos Franka en dos laboratorios diferentes y habilitamos la recogida y colocación de objetos utilizando planificación con objetivos de imagen. Notablemente, esto se logra sin recopilar ningún dato de los robots en estos entornos, y sin ningún entrenamiento o recompensa específica para la tarea. Este trabajo demuestra cómo el aprendizaje autosupervisado a partir de datos a escala web y una pequeña cantidad de datos de interacción robótica puede producir un modelo del mundo capaz de planificar en el mundo físico.
Los modelos basados en difusión y flujo han surgido como enfoques de vanguardia en modelado generativo, pero requieren muchos pasos de muestreo. Los modelos de consistencia pueden destilar estos modelos en generadores eficientes de un solo paso; sin embargo, a diferencia de los métodos basados en flujo y difusión, su rendimiento inevitablemente se degrada al aumentar el número de pasos, lo que demostramos tanto analítica como empíricamente. Los mapas de flujo generalizan estos enfoques al conectar cualquier dos niveles de ruido en un solo paso y mantienen su eficacia en todos los recuentos de pasos. En este artículo, introducimos dos nuevos objetivos de tiempo continuo para entrenar mapas de flujo, junto con técnicas de entrenamiento novedosas adicionales, generalizando los objetivos existentes de consistencia y emparejamiento de flujo. Además, demostramos que la autoguiada puede mejorar el rendimiento, utilizando un modelo de baja calidad para guiar durante la destilación, y se puede lograr un impulso adicional mediante el ajuste fino adversario, con una pérdida mínima en la diversidad de muestras. Validamos extensamente nuestros modelos de mapas de flujo, llamados Align Your Flow, en desafiantes benchmarks de generación de imágenes y alcanzamos un rendimiento de vanguardia en generación de pocos pasos tanto en ImageNet 64x64 como en 512x512, utilizando redes neuronales pequeñas y eficientes. Finalmente, mostramos modelos de mapas de flujo de texto a imagen que superan a todos los muestreadores de pocos pasos existentes no entrenados adversariamente en síntesis condicionada por texto.
Los avances recientes en los modelos de razonamiento de Cadena de Pensamiento Larga (CoT, por sus siglas en inglés) han mejorado el rendimiento en tareas complejas, pero sufren de un exceso de reflexión, lo que genera pasos de razonamiento redundantes, especialmente en preguntas simples. Este artículo revisa los patrones de razonamiento de los modelos de CoT Larga y Corta, observando que los patrones de CoT Corta ofrecen un razonamiento conciso de manera eficiente, mientras que los patrones de CoT Larga sobresalen en escenarios desafiantes donde los patrones de CoT Corta tienen dificultades. Para permitir que los modelos aprovechen ambos patrones, proponemos el Ajuste Fino sin Pregunta (QFFT, por sus siglas en inglés), un enfoque de ajuste fino que elimina la pregunta de entrada durante el entrenamiento y aprende exclusivamente de respuestas de CoT Larga. Este enfoque permite que el modelo emplee de manera adaptativa ambos patrones de razonamiento: prioriza los patrones de CoT Corta y activa los patrones de CoT Larga solo cuando es necesario. Los experimentos en diversos conjuntos de datos matemáticos demuestran que QFFT reduce la longitud promedio de las respuestas en más del 50\%, mientras logra un rendimiento comparable al Ajuste Fino Supervisado (SFT, por sus siglas en inglés). Además, QFFT exhibe un rendimiento superior en comparación con SFT en escenarios ruidosos, fuera de dominio y con recursos limitados.
Presentamos TestCase-Eval, un nuevo punto de referencia para la evaluación sistemática de LLMs en la generación de casos de prueba. TestCase-Eval incluye 500 problemas de algoritmos y 100,000 soluciones elaboradas por humanos de la plataforma Codeforces. Se centra en dos tareas fundamentales: (1) Cobertura de Fallos, que mide qué tan bien los conjuntos de pruebas generados por LLMs exploran diversos escenarios de entrada y cubren un amplio rango de modos de fallo potenciales. (2) Exposición de Fallos, que evalúa si los LLMs pueden elaborar una entrada de prueba específica que revele una implementación de código incorrecta. Ofrecemos una evaluación exhaustiva de 19 LLMs de última generación, tanto de código abierto como propietarios, en TestCase-Eval, proporcionando información sobre sus fortalezas y limitaciones en la generación de casos de prueba efectivos para problemas de algoritmos.
La tokenización impone una granularidad fija en el texto de entrada, congelando cómo un modelo de lenguaje opera sobre los datos y qué tan lejos en el futuro predice. La Codificación de Pares de Bytes (BPE, por sus siglas en inglés) y esquemas similares dividen el texto una vez, construyen un vocabulario estático y dejan al modelo atado a esa elección. Relajamos esta rigidez introduciendo una U-Net autorregresiva que aprende a incrustar sus propios tokens mientras se entrena. La red lee bytes sin procesar, los agrupa en palabras, luego en pares de palabras y hasta en grupos de 4 palabras, otorgándole una visión multiescala de la secuencia. En etapas más profundas, el modelo debe predecir más lejos en el futuro —anticipando las siguientes palabras en lugar del próximo byte—, por lo que las etapas más profundas se centran en patrones semánticos más amplios, mientras que las etapas iniciales manejan detalles finos. Al ajustar y controlar cuidadosamente el cómputo de preentrenamiento, las jerarquías superficiales igualan los sólidos baselines de BPE, y las jerarquías más profundas muestran una tendencia prometedora. Dado que la tokenización ahora reside dentro del modelo, el mismo sistema puede manejar tareas a nivel de caracteres y transferir conocimiento entre lenguajes de bajos recursos.
El ecosistema de hardware está evolucionando rápidamente, con un creciente interés en traducir programas de bajo nivel entre diferentes arquitecturas de conjunto de instrucciones (ISA) de manera rápida, flexible y correcta para mejorar la portabilidad y longevidad del código existente. Una clase particularmente desafiante de este problema de transpilación es la traducción entre arquitecturas de hardware complejas (CISC) y reducidas (RISC), debido a diferencias fundamentales en la complejidad de las instrucciones, los modelos de memoria y los paradigmas de ejecución. En este trabajo, presentamos GG (Guaranteed Guess), una canalización de transpilación centrada en ISA que combina el poder de traducción de modelos de lenguaje preentrenados (LLM) con el rigor de constructos establecidos de pruebas de software. Nuestro método genera traducciones candidatas utilizando un LLM de una ISA a otra, e integra dichas traducciones dentro de un marco de pruebas de software para construir una confianza cuantificable en la traducción. Evaluamos nuestro enfoque GG en dos conjuntos de datos diversos, aplicamos una alta cobertura de código (>98%) en pruebas unitarias y logramos una corrección funcional/semántica del 99% en programas HumanEval y del 49% en programas BringupBench, respectivamente. Además, comparamos nuestro enfoque con el marco de referencia Rosetta 2 en Apple Silicon, mostrando un rendimiento en tiempo de ejecución 1.73 veces más rápido, una eficiencia energética 1.47 veces mejor y un uso de memoria 2.41 veces mejor para nuestro código transpilado, demostrando la efectividad de GG para tareas de traducción CISC a RISC en el mundo real. Abriremos el código, los datos, los modelos y los puntos de referencia para establecer una base común en la investigación de traducción de código a nivel de ISA.
Los modelos Visión-Lenguaje-Acción (VLA), particularmente las arquitecturas basadas en difusión, demuestran un potencial transformador para la inteligencia encarnada, pero se ven severamente limitados por las altas demandas computacionales y de memoria derivadas de redundancias inherentes y en tiempo de inferencia. Si bien los esfuerzos existentes de aceleración suelen abordar ineficiencias aisladas, estas soluciones fragmentadas generalmente no logran abordar de manera integral los diversos cuellos de botella computacionales y de memoria en todo el pipeline VLA, limitando así su implementación práctica. Presentamos EfficientVLA, un marco de aceleración de inferencia estructurado y libre de entrenamiento que elimina sistemáticamente estas barreras al explotar de manera cohesiva las redundancias multifacéticas. EfficientVLA integra sinérgicamente tres estrategias específicas: (1) poda de capas funcionalmente irrelevantes en el módulo de lenguaje, guiada por un análisis de redundancias entre capas; (2) optimización de la ruta de procesamiento visual mediante una estrategia consciente de la tarea que selecciona un conjunto compacto y diverso de tokens visuales, equilibrando la criticidad de la tarea con la cobertura informativa; y (3) mitigación de la redundancia computacional temporal en la cabeza de acción basada en difusión iterativa mediante el almacenamiento en caché y la reutilización estratégica de características intermedias clave. Aplicamos nuestro método al modelo VLA estándar CogACT, logrando una aceleración de inferencia de 1.93X y reduciendo los FLOPs al 28.9%, con solo una caída del 0.6% en la tasa de éxito en el benchmark SIMPLER.
Los Modelos de Razonamiento a Gran Escala (LRMs, por sus siglas en inglés) han logrado un éxito notable, aunque a menudo presentan el problema de generar cadenas de razonamiento innecesarias y verbosas. Identificamos un aspecto central de este problema como "pensamiento inválido": los modelos tienden a verificar repetidamente su trabajo después de haber obtenido la respuesta correcta. Para abordar esta ineficiencia específica, vamos más allá de los principios generales de Eficacia y Eficiencia para proponer dos nuevos principios más detallados: Brevedad, que aboga por eliminar la redundancia, y Suficiencia, que asegura que se preserven los pasos críticos del razonamiento. Guiados por estos principios, presentamos LC-R1, un método de posentrenamiento basado en la Optimización de Política Relativa de Grupo (GRPO, por sus siglas en inglés). LC-R1 emplea una combinación novedosa de una Recompensa de Longitud para la concisión general y una Recompensa de Compresión diseñada específicamente para eliminar la porción inválida del proceso de pensamiento. Experimentos extensos en múltiples benchmarks de razonamiento demuestran que LC-R1 logra una reducción significativa en la longitud de las secuencias (~50%) con solo una caída marginal (~2%) en la precisión, alcanzando un punto favorable en la frontera de Pareto que prioriza una alta compresión. Nuestro análisis valida además la robustez de LC-R1 y proporciona insights valiosos para desarrollar LRMs más potentes y computacionalmente eficientes. Nuestro código está disponible en https://github.com/zxiangx/LC-R1.
Presentamos xbench, una suite de evaluación dinámica y alineada con las profesiones, diseñada para cerrar la brecha entre las capacidades de los agentes de IA y la productividad en el mundo real. Mientras que los puntos de referencia existentes suelen centrarse en habilidades técnicas aisladas, es posible que no reflejen con precisión el valor económico que los agentes aportan en entornos profesionales. Para abordar esto, xbench se enfoca en dominios de importancia comercial con tareas de evaluación definidas por profesionales de la industria. Nuestro marco crea métricas que se correlacionan fuertemente con el valor de la productividad, permite la predicción del Ajuste Tecnología-Mercado (TMF, por sus siglas en inglés) y facilita el seguimiento de las capacidades del producto a lo largo del tiempo. Como nuestras implementaciones iniciales, presentamos dos puntos de referencia: Reclutamiento y Marketing. Para Reclutamiento, recopilamos 50 tareas de escenarios empresariales reales de caza de talentos para evaluar las habilidades de los agentes en mapeo de empresas, recuperación de información y búsqueda de talento. Para Marketing, evaluamos la capacidad de los agentes para emparejar influencers con las necesidades de los anunciantes, analizando su desempeño en 50 requisitos de anunciantes utilizando un grupo seleccionado de 836 candidatos influencers. Presentamos los resultados iniciales de evaluación para los principales agentes contemporáneos, estableciendo una línea base para estos dominios profesionales. Nuestros conjuntos de evaluación y evaluaciones, actualizados continuamente, están disponibles en https://xbench.org.
La capacidad de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) para utilizar herramientas externas les ha permitido abordar una gama cada vez más diversa de tareas. Sin embargo, a medida que las tareas se vuelven más complejas y de largo alcance, el intrincado proceso de utilización de herramientas puede desencadenar diversos errores inesperados. Por lo tanto, cómo manejar efectivamente dichos errores, incluyendo su identificación, diagnóstico y recuperación, ha surgido como una dirección clave de investigación para avanzar en el aprendizaje de herramientas. En este trabajo, primero analizamos extensamente los tipos de errores encontrados durante el proceso de llamada a funciones en varios puntos de referencia competitivos para la evaluación de herramientas. Basándonos en ello, presentamos CRITICTOOL, un punto de referencia de evaluación crítica integral especializado para el aprendizaje de herramientas. Construido sobre una novedosa estrategia evolutiva para la creación de conjuntos de datos, CRITICTOOL contiene diversos errores en el uso de herramientas con diferentes niveles de complejidad, lo que refleja mejor los escenarios del mundo real. Realizamos experimentos extensos en CRITICTOOL y validamos la generalización y efectividad de nuestra estrategia de construcción de puntos de referencia. También proporcionamos un análisis en profundidad de la capacidad de reflexión sobre herramientas en varios LLMs, ofreciendo una nueva perspectiva en el campo del aprendizaje de herramientas en LLMs. El código está disponible en https://github.com/Shellorley0513/CriticTool{https://github.com/Shellorley0513/CriticTool}.
Demostramos cómo utilizar imágenes de baja calidad, sintéticas y fuera de distribución para mejorar la calidad de un modelo de difusión. Normalmente, los modelos de difusión se entrenan con conjuntos de datos curados que provienen de fuentes altamente filtradas, como la web y otros recursos. Mostramos que existe un valor inmenso en las imágenes de menor calidad que a menudo se descartan. Presentamos Ambient Diffusion Omni, un marco simple y fundamentado para entrenar modelos de difusión que pueden extraer señales de todas las imágenes disponibles durante el entrenamiento. Nuestro marco aprovecha dos propiedades de las imágenes naturales: la disminución de la potencia espectral según una ley de potencias y la localidad. Primero validamos nuestro marco entrenando con éxito modelos de difusión utilizando imágenes sintéticamente corrompidas por desenfoque gaussiano, compresión JPEG y desenfoque de movimiento. Luego, empleamos nuestro marco para alcanzar un estado del arte en FID en ImageNet, y mostramos mejoras significativas tanto en la calidad como en la diversidad de las imágenes en la generación de imágenes a partir de texto. La idea central es que el ruido atenúa el sesgo inicial entre la distribución de alta calidad deseada y la distribución mixta que realmente observamos. Proporcionamos una justificación teórica rigurosa de nuestro enfoque analizando el equilibrio entre aprender de datos sesgados versus datos no sesgados pero limitados a lo largo de los tiempos de difusión.
Estudiamos el desafío de lograr la recuperación teóricamente fundamentada de características utilizando Autoencoders Escasos (SAEs) para la interpretación de Modelos de Lenguaje a Gran Escala. Los algoritmos existentes de entrenamiento de SAEs a menudo carecen de garantías matemáticas rigurosas y sufren limitaciones prácticas como la sensibilidad a hiperparámetros y la inestabilidad. Para abordar estos problemas, primero proponemos un nuevo marco estadístico para el problema de recuperación de características, que incluye una nueva noción de identificabilidad de características al modelar características polisémicas como mezclas escasas de conceptos monosémicos subyacentes. Basándonos en este marco, introducimos un nuevo algoritmo de entrenamiento de SAEs basado en la "adaptación de sesgo", una técnica que ajusta adaptativamente los parámetros de sesgo de la red neuronal para garantizar una escasez de activación adecuada. Demostramos teóricamente que este algoritmo recupera correctamente todas las características monosémicas cuando los datos de entrada se muestrean a partir de nuestro modelo estadístico propuesto. Además, desarrollamos una variante empírica mejorada, la Adaptación de Sesgo Grupal (GBA), y demostramos su rendimiento superior frente a métodos de referencia cuando se aplica a modelos de lenguaje con hasta 1.500 millones de parámetros. Este trabajo representa un paso fundamental en la desmitificación del entrenamiento de SAEs al proporcionar el primer algoritmo de SAE con garantías teóricas de recuperación, avanzando así en el desarrollo de sistemas de IA más transparentes y confiables a través de una mayor interpretabilidad mecanicista.
El rápido surgimiento de diversos modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) ha impulsado el desarrollo de enrutadores de LLMs que asignan las consultas de los usuarios al modelo más adecuado. Sin embargo, los enrutadores de LLMs existentes suelen realizar un mapeo de una sola ronda y uno a uno (es decir, asignar cada consulta a un único modelo de forma aislada), lo que limita su capacidad para abordar tareas complejas que requieren las fortalezas complementarias de múltiples LLMs. En este artículo, presentamos Router-R1, un marco basado en aprendizaje por refuerzo (RL, por sus siglas en inglés) que formula el enrutamiento y la agregación de múltiples LLMs como un proceso de decisión secuencial. Router-R1 instancia el enrutador en sí como un LLM capaz, aprovechando su capacidad de razonamiento para intercalar acciones de "pensar" (deliberación interna) con acciones de "enrutar" (invocación dinámica de modelos), e integra cada respuesta en su contexto en evolución. Para guiar el aprendizaje, empleamos una recompensa basada en reglas livianas que incluye recompensas de formato, recompensas de resultado final y una novedosa recompensa de costo para la optimización del equilibrio entre rendimiento y costo, abriendo una vía hacia la optimización de este equilibrio mediante RL. Router-R1 también se condiciona únicamente en descriptores simples de modelos, como precios, latencia y ejemplos de rendimiento, lo que permite una fuerte generalización a la selección de modelos no vistos. Los experimentos en siete puntos de referencia generales y de preguntas y respuestas de múltiples saltos muestran que Router-R1 supera a varias líneas base sólidas, logrando un rendimiento superior mientras mantiene una generalización robusta y una gestión de costos eficiente. El código está disponible en https://github.com/ulab-uiuc/Router-R1.
La localización espacio-temporal es fundamental para interacciones precisas en diversos dominios, desde la investigación biológica hasta la navegación autónoma y las interfaces interactivas. Los enfoques actuales basados en video, aunque competentes en el seguimiento, carecen de las capacidades de razonamiento sofisticado de los modelos de lenguaje grandes, lo que limita su comprensión contextual y generalización. Presentamos VideoMolmo, un modelo multimodal grande diseñado para el señalamiento espacio-temporal de grano fino condicionado por descripciones textuales. Basado en la arquitectura Molmo, VideoMolmo incorpora un módulo temporal que utiliza un mecanismo de atención para condicionar cada fotograma en los fotogramas anteriores, asegurando la consistencia temporal. Además, nuestra novedosa canalización de fusión de máscaras temporales emplea SAM2 para la propagación bidireccional de puntos, mejorando significativamente la coherencia en las secuencias de video. Esta descomposición en dos pasos, es decir, primero usar el modelo de lenguaje grande (LLM) para generar coordenadas de señalamiento precisas y luego confiar en un módulo secuencial de fusión de máscaras para producir segmentaciones coherentes, no solo simplifica la tarea para el modelo de lenguaje sino que también mejora la interpretabilidad. Debido a la falta de conjuntos de datos adecuados, hemos creado un conjunto de datos integral que comprende 72k pares de video-caption anotados con 100k puntos de objetos. Para evaluar la generalización de VideoMolmo, presentamos VPoS-Bench, un punto de referencia desafiante fuera de distribución que abarca cinco escenarios del mundo real: Seguimiento de Células, Visión Egocéntrica, Conducción Autónoma, Interacción Video-GUI y Robótica. También evaluamos nuestro modelo en tareas de Segmentación de Objetos en Video Referenciado (Refer-VOS) y Razonamiento VOS. En comparación con los modelos existentes, VideoMolmo mejora sustancialmente la precisión del señalamiento espacio-temporal y la capacidad de razonamiento. Nuestro código y modelos están disponibles públicamente en https://github.com/mbzuai-oryx/VideoMolmo.
Presentamos AgentSynth, una pipeline escalable y rentable para sintetizar automáticamente tareas de alta calidad y conjuntos de datos de trayectorias para agentes generalistas de uso informático. Aprovechando la asimetría de información, AgentSynth construye subtareas que son simples durante la generación pero significativamente más desafiantes cuando se componen en tareas de largo horizonte, permitiendo la creación de más de 6,000 tareas diversas y realistas. Nuestra pipeline comienza con un proponente de tareas basado en un LLM guiado por una persona, seguido por un agente de ejecución que completa la tarea y registra la trayectoria. Este proceso se repite iterativamente para formar una secuencia de subtareas, que luego son resumidas por un agente separado en una tarea compuesta de dificultad controlable. Una fortaleza clave de AgentSynth es su capacidad para modular con precisión la complejidad de la tarea variando el número de subtareas. Las evaluaciones empíricas muestran que los agentes LLM de última generación experimentan una caída pronunciada en el rendimiento, del 18% de éxito en el nivel de dificultad 1 a solo el 4% en el nivel 6, destacando la dificultad y el poder discriminativo del benchmark. Además, nuestra pipeline logra un costo promedio bajo de \$0.60 por trayectoria, órdenes de magnitud más barato que las anotaciones humanas. Nuestro código y datos están disponibles públicamente en https://github.com/sunblaze-ucb/AgentSynth.
Presentamos Ring-lite, un modelo de lenguaje grande basado en Mixture-of-Experts (MoE) optimizado mediante aprendizaje por refuerzo (RL) para lograr capacidades de razonamiento eficientes y robustas. Construido sobre el modelo Ling-lite, disponible públicamente, un modelo de 16.8 mil millones de parámetros con 2.75 mil millones de parámetros activados, nuestro enfoque iguala el rendimiento de los modelos de razonamiento de pequeña escala más avanzados (SOTA) en benchmarks desafiantes (por ejemplo, AIME, LiveCodeBench, GPQA-Diamond) mientras activa solo un tercio de los parámetros requeridos por modelos comparables. Para lograrlo, introducimos una canalización de entrenamiento conjunta que integra la destilación con RL, revelando desafíos no documentados en el entrenamiento de RL con MoE. Primero, identificamos inestabilidad en la optimización durante el entrenamiento de RL y proponemos Constrained Contextual Computation Policy Optimization (C3PO), un enfoque novedoso que mejora la estabilidad del entrenamiento y aumenta el rendimiento computacional mediante una metodología de co-diseño algoritmo-sistema. Segundo, demostramos empíricamente que seleccionar puntos de control de destilación basados en la pérdida de entropía para el entrenamiento de RL, en lugar de métricas de validación, produce mejores compensaciones entre rendimiento y eficiencia en el entrenamiento de RL posterior. Finalmente, desarrollamos un paradigma de entrenamiento en dos etapas para armonizar la integración de datos multi-dominio, abordando conflictos de dominio que surgen en el entrenamiento con conjuntos de datos mixtos. Liberaremos el modelo, el conjunto de datos y el código.
La simulación de la movilidad humana desempeña un papel crucial en diversas aplicaciones del mundo real. Recientemente, para abordar las limitaciones de los enfoques tradicionales basados en datos, los investigadores han explorado el aprovechamiento del conocimiento de sentido común y las capacidades de razonamiento de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) para acelerar la simulación de la movilidad humana. Sin embargo, estos métodos presentan varias deficiencias críticas, incluyendo una modelización inadecuada de los espacios urbanos y una pobre integración tanto con los patrones de movilidad individual como con las distribuciones de movilidad colectiva. Para abordar estos desafíos, proponemos el marco **CityGPT-Powered Agentic framework for Mobility Simulation (CAMS)**, un marco agéntico que aprovecha el modelo de base urbana basado en lenguaje para simular la movilidad humana en el espacio urbano. CAMS consta de tres módulos principales: **MobExtractor**, para extraer patrones de movilidad plantilla y sintetizar nuevos basados en perfiles de usuario; **GeoGenerator**, para generar puntos de anclaje considerando el conocimiento colectivo y generar conocimiento geoespacial urbano candidato utilizando una versión mejorada de CityGPT; y **TrajEnhancer**, para recuperar conocimiento espacial basado en patrones de movilidad y generar trayectorias con alineación de preferencias de trayectorias reales mediante DPO. Los experimentos en conjuntos de datos del mundo real muestran que CAMS logra un rendimiento superior sin depender de información geoespacial proporcionada externamente. Además, al modelar holísticamente tanto los patrones de movilidad individual como las restricciones de movilidad colectiva, CAMS genera trayectorias más realistas y plausibles. En general, CAMS establece un nuevo paradigma que integra el marco agéntico con LLMs conocedores del entorno urbano para la simulación de la movilidad humana.
Estudiamos los jailbreaks basados en sufijos, una potente familia de ataques contra modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) que optimizan sufijos adversarios para eludir la alineación de seguridad. Centrándonos en el ampliamente utilizado ataque GCG (Zou et al., 2023), observamos que los sufijos varían en eficacia: algunos son notablemente más universales, generalizando a muchas instrucciones dañinas no vistas, que otros. Primero demostramos que la efectividad de GCG está impulsada por un mecanismo crítico y superficial, basado en el flujo de información desde el sufijo adversario hasta los tokens finales de la plantilla de chat antes de la generación. Al cuantificar la dominancia de este mecanismo durante la generación, encontramos que GCG secuestra de manera irregular y agresiva el proceso de contextualización. Es crucial destacar que vinculamos este secuestro al fenómeno de universalidad, donde los sufijos más universales son secuestradores más fuertes. Posteriormente, mostramos que estas observaciones tienen implicaciones prácticas: la universalidad de GCG puede mejorarse eficientemente (hasta 5 veces en algunos casos) sin costos computacionales adicionales, y también puede mitigarse quirúrgicamente, reduciendo al menos a la mitad el éxito del ataque con una pérdida mínima de utilidad. Publicamos nuestro código y datos en http://github.com/matanbt/interp-jailbreak.
Uno de los desafíos más profundos del aprendizaje automático moderno es obtener un buen rendimiento en la cola larga de características raras y subrepresentadas. Los modelos grandes de propósito general se entrenan para muchas tareas, pero funcionan mejor en casos de uso de alta frecuencia. Después del entrenamiento, es difícil adaptar un modelo para que funcione bien en casos de uso específicos que están subrepresentados en el corpus de entrenamiento. Depender de la ingeniería de prompts o ejemplos de pocos disparos para maximizar la calidad de la salida en un caso de prueba particular puede ser frustrante, ya que los modelos pueden ser altamente sensibles a pequeños cambios, reaccionar de maneras imprevistas o depender de un prompt de sistema fijo para mantener el rendimiento. En este trabajo, nos preguntamos: "¿Podemos optimizar nuestros protocolos de entrenamiento para mejorar tanto la controlabilidad como el rendimiento en casos de uso subrepresentados en el momento de la inferencia?" Revisamos la división entre las técnicas de entrenamiento e inferencia para mejorar el rendimiento en la cola larga, al mismo tiempo que proporcionamos a los usuarios un conjunto de palancas de control a las que el modelo está entrenado para responder. Creamos una taxonomía detallada de las características de los datos y la procedencia de las tareas para controlar explícitamente los atributos de generación y condicionar implícitamente las generaciones en el momento de la inferencia. Ajustamos un modelo base para inferir estos marcadores automáticamente, lo que los hace opcionales en el momento de la inferencia. Este enfoque fundamentado y flexible produce mejoras pronunciadas en el rendimiento, especialmente en ejemplos de la cola larga de la distribución de entrenamiento. Mientras observamos un aumento promedio del 5.7% en las tasas de victoria en la calidad de generación abierta con nuestros marcadores, vemos ganancias de más del 9.1% en dominios subrepresentados. También observamos aumentos relativos de hasta el 14.1% en tareas subrepresentadas como CodeRepair y mejoras absolutas del 35.3% en evaluaciones de seguimiento de instrucciones de longitud.
La alineación ya no es un lujo, es una necesidad. A medida que los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) ingresan en dominios de alto impacto como la educación, la salud, la gobernanza y el derecho, su comportamiento debe reflejar de manera confiable valores alineados con los humanos y restricciones de seguridad. Sin embargo, las evaluaciones actuales dependen en gran medida de proxies conductuales, como las tasas de rechazo, las puntuaciones G-Eval y los clasificadores de toxicidad, todos los cuales tienen puntos ciegos críticos. Los modelos alineados suelen ser vulnerables a jailbreaking, la estocasticidad de la generación y la falsificación de la alineación. Para abordar este problema, presentamos el Índice de Calidad de Alineación (AQI, por sus siglas en inglés). Esta métrica geométrica y invariante al prompt evalúa empíricamente la alineación de los LLMs al analizar la separación de activaciones seguras e inseguras en el espacio latente. Al combinar medidas como el Índice de Davies-Bouldin (DBS), el Índice de Dunn (DI), el Índice de Xie-Beni (XBI) y el Índice de Calinski-Harabasz (CHI) en diversas formulaciones, el AQI captura la calidad de agrupamiento para detectar desalineaciones ocultas y riesgos de jailbreaking, incluso cuando las salidas parecen cumplir con las expectativas. El AQI también sirve como una señal de alerta temprana para la falsificación de la alineación, ofreciendo una herramienta robusta e invariante a la decodificación para auditorías de seguridad independientes del comportamiento. Además, proponemos el conjunto de datos LITMUS para facilitar una evaluación robusta bajo estas condiciones desafiantes. Las pruebas empíricas en LITMUS con diferentes modelos entrenados bajo condiciones de DPO, GRPO y RLHF demuestran la correlación del AQI con evaluadores externos y su capacidad para revelar vulnerabilidades pasadas por alto por las métricas de rechazo. Hacemos nuestra implementación públicamente disponible para fomentar futuras investigaciones en esta área.
El aprendizaje por refuerzo en contexto (ICRL, por sus siglas en inglés) ha surgido como un paradigma prometedor para adaptar agentes de aprendizaje por refuerzo (RL) a tareas posteriores mediante el condicionamiento de indicaciones. Sin embargo, persisten dos desafíos notables para aprovechar plenamente el aprendizaje en contexto dentro de los dominios de RL: la multimodalidad intrínseca de los datos de estado-acción-recompensa y la naturaleza diversa y heterogénea de las tareas de decisión. Para abordar estos desafíos, proponemos T2MIR (Token- y Task-wise MoE para ICRL), un marco innovador que introduce avances arquitectónicos de la mezcla de expertos (MoE) en modelos de decisión basados en transformadores. T2MIR sustituye la capa de avance con dos capas paralelas: un MoE a nivel de token que captura semánticas distintas de los tokens de entrada a través de múltiples modalidades, y un MoE a nivel de tarea que dirige diversas tareas a expertos especializados para gestionar una amplia distribución de tareas con conflictos de gradiente mitigados. Para mejorar el enrutamiento a nivel de tarea, introducimos un método de aprendizaje contrastante que maximiza la información mutua entre la tarea y su representación de enrutador, permitiendo una captura más precisa de la información relevante para la tarea. Las salidas de los dos componentes MoE se concatenan y se alimentan a la siguiente capa. Experimentos exhaustivos muestran que T2MIR facilita significativamente la capacidad de aprendizaje en contexto y supera a varios tipos de líneas base. Llevamos el potencial y la promesa de MoE a ICRL, ofreciendo una mejora arquitectónica simple y escalable para acercar ICRL un paso más hacia los logros en las comunidades de lenguaje y visión. Nuestro código está disponible en https://github.com/NJU-RL/T2MIR.
Las enfermedades transmitidas por mosquitos representan un importante riesgo para la salud global, requiriendo la detección temprana y el control proactivo de los criaderos para prevenir brotes. En este artículo, presentamos VisText-Mosquito, un conjunto de datos multimodal que integra información visual y textual para apoyar la detección automatizada, la segmentación y el razonamiento en el análisis de criaderos de mosquitos. El conjunto de datos incluye 1,828 imágenes anotadas para la detección de objetos, 142 imágenes para la segmentación de superficies de agua y textos de razonamiento en lenguaje natural vinculados a cada imagen. El modelo YOLOv9s alcanza la mayor precisión de 0.92926 y un mAP@50 de 0.92891 para la detección de objetos, mientras que YOLOv11n-Seg logra una precisión de segmentación de 0.91587 y un mAP@50 de 0.79795. Para la generación de razonamiento, nuestro modelo BLIP ajustado alcanza una pérdida final de 0.0028, con un puntaje BLEU de 54.7, un BERTScore de 0.91 y un ROUGE-L de 0.87. Este conjunto de datos y marco de modelos enfatizan el tema "Prevenir es mejor que curar", demostrando cómo la detección basada en inteligencia artificial puede abordar proactivamente los riesgos de enfermedades transmitidas por mosquitos. El conjunto de datos y el código de implementación están disponibles públicamente en GitHub: https://github.com/adnanul-islam-jisun/VisText-Mosquito.
Este trabajo presenta un marco generalizable para transferir profundidad relativa a profundidad métrica. Los métodos actuales de estimación de profundidad monocular se dividen principalmente en estimación de profundidad métrica (MMDE) y estimación de profundidad relativa (MRDE). Los MMDE estiman la profundidad en escala métrica, pero a menudo están limitados a un dominio específico. Los MRDE generalizan bien en diferentes dominios, pero con escalas inciertas que dificultan las aplicaciones posteriores. Con este fin, nuestro objetivo es construir un marco para resolver la incertidumbre de escala y transferir la profundidad relativa a profundidad métrica. Métodos anteriores utilizaban el lenguaje como entrada y estimaban dos factores para realizar el reescalado. Nuestro enfoque, TR2M, utiliza tanto la descripción textual como la imagen como entradas y estima dos mapas de reescalado para transferir la profundidad relativa a profundidad métrica a nivel de píxel. Las características de las dos modalidades se fusionan con un módulo de atención cruzada para capturar mejor la información de escala. Se diseña una estrategia para construir y filtrar una pseudo profundidad métrica confiable para una supervisión más completa. También desarrollamos un aprendizaje contrastivo orientado a la escala para utilizar la distribución de profundidad como guía y reforzar el aprendizaje del modelo sobre el conocimiento intrínseco alineado con la distribución de escala. TR2M solo explota un pequeño número de parámetros entrenables para entrenar en conjuntos de datos de diversos dominios, y los experimentos no solo demuestran el gran rendimiento de TR2M en conjuntos de datos vistos, sino que también revelan capacidades superiores de cero-shot en cinco conjuntos de datos no vistos. Mostramos el gran potencial en la transferencia de profundidad relativa a profundidad métrica a nivel de píxel con asistencia del lenguaje. (El código está disponible en: https://github.com/BeileiCui/TR2M)
Los modelos de base de código abierto han experimentado una rápida adopción y desarrollo, permitiendo capacidades generales potentes en diversos dominios. Sin embargo, el ajuste fino de grandes modelos de base para tareas específicas de dominio o personalizadas sigue siendo prohibitivamente costoso para la mayoría de los usuarios debido al significativo sobrecargo de memoria más allá del requerido para la inferencia. Presentamos EMLoC, un marco de ajuste fino eficiente en memoria basado en emuladores con Corrección LoRA, que permite el ajuste fino del modelo dentro del mismo presupuesto de memoria requerido para la inferencia. EMLoC construye un emulador ligero específico para la tarea utilizando descomposición en valores singulares (SVD) consciente de la activación en un pequeño conjunto de calibración descendente. El ajuste fino se realiza entonces en este emulador ligero mediante LoRA. Para abordar la desalineación entre el modelo original y el emulador comprimido, proponemos un novedoso algoritmo de compensación para corregir el módulo LoRA ajustado, que así puede fusionarse con el modelo original para la inferencia. EMLoC admite ratios de compresión flexibles y flujos de entrenamiento estándar, lo que lo hace adaptable a una amplia gama de aplicaciones. Experimentos extensivos demuestran que EMLoC supera a otras líneas de base en múltiples conjuntos de datos y modalidades. Además, sin cuantización, EMLoC permite el ajuste fino de un modelo de 38B en una sola GPU de consumo de 24GB, llevando la adaptación eficiente y práctica del modelo a usuarios individuales.
La Generación Aumentada por Recuperación de Grafos (GraphRAG) mejora eficazmente las capacidades de integración de conocimiento externo al modelar explícitamente las relaciones de conocimiento, mejorando así la precisión factual y la calidad de generación de los Modelos de Lenguaje de Gran Escala (LLMs) en dominios especializados. Sin embargo, los métodos existentes presentan dos limitaciones inherentes: 1) Agregación de Información Ineficiente: Dependen de un único agente y patrones iterativos fijos, lo que dificulta la captura adaptativa de información textual, estructural y de grado a múltiples niveles dentro de los datos de grafos. 2) Mecanismo de Razonamiento Rígido: Utilizan esquemas de razonamiento preestablecidos, que no pueden ajustar dinámicamente la profundidad del razonamiento ni lograr una corrección semántica precisa. Para superar estas limitaciones, proponemos Graph Counselor, un método GraphRAG basado en la colaboración de múltiples agentes. Este método utiliza el Módulo de Extracción Adaptativa de Información de Grafos (AGIEM), donde los Agentes de Planificación, Pensamiento y Ejecución trabajan conjuntamente para modelar con precisión estructuras de grafos complejas y ajustar dinámicamente las estrategias de extracción de información, abordando los desafíos del modelado de dependencias a múltiples niveles y la profundidad de razonamiento adaptativa. Además, el módulo de Auto-Reflexión con Múltiples Perspectivas (SR) mejora la precisión y consistencia semántica de los resultados del razonamiento mediante mecanismos de auto-reflexión y razonamiento inverso. Los experimentos demuestran que Graph Counselor supera a los métodos existentes en múltiples tareas de razonamiento en grafos, exhibiendo una mayor precisión en el razonamiento y capacidad de generalización. Nuestro código está disponible en https://github.com/gjq100/Graph-Counselor.git.
La implementación de políticas grandes y complejas en el mundo real requiere la capacidad de dirigirlas para adaptarse a las necesidades de una situación. Los enfoques de dirección más comunes, como el condicionamiento por objetivos, requieren entrenar la política del robot con una distribución de objetivos en mente para el momento de la prueba. Para superar esta limitación, presentamos DynaGuide, un método de dirección para políticas de difusión que utiliza guía de un modelo de dinámica externa durante el proceso de eliminación de ruido de la difusión. DynaGuide separa el modelo de dinámica de la política base, lo que le otorga múltiples ventajas, incluyendo la capacidad de dirigirse hacia múltiples objetivos, mejorar comportamientos subrepresentados de la política base y mantener la robustez frente a objetivos de baja calidad. La señal de guía separada también permite que DynaGuide funcione con políticas de difusión preentrenadas disponibles comercialmente. Demostramos el rendimiento y las características de DynaGuide en comparación con otros enfoques de dirección en una serie de experimentos simulados y reales, mostrando un éxito promedio de dirección del 70% en un conjunto de tareas articuladas de CALVIN y superando al condicionamiento por objetivos en 5.4 veces cuando se dirige con objetivos de baja calidad. También dirigimos con éxito una política de robot real preentrenada para expresar preferencia por objetos particulares e incluso crear comportamientos novedosos. Videos y más información se pueden encontrar en el sitio web del proyecto: https://dynaguide.github.io.