Artículos de investigación en IA seleccionados diariamente con traducciones
El razonamiento es fundamental para que los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) destaquen en una amplia gama de tareas. Si bien métodos como el razonamiento de Cadena de Pensamiento (CoT, por sus siglas en inglés) mejoran el rendimiento de los LLMs al descomponer problemas en pasos intermedios, también conllevan un sobrecoste significativo en el uso de tokens, lo que resulta en costos más altos. Observamos que el proceso de razonamiento de los LLMs actuales es innecesariamente extenso y puede ser comprimido al incluir un presupuesto de tokens razonable en la indicación, pero la elección del presupuesto de tokens desempeña un papel crucial en la efectividad real de la compresión. Proponemos entonces un marco de razonamiento de LLM consciente del presupuesto de tokens, que estima dinámicamente los presupuestos de tokens para diferentes problemas basándose en la complejidad del razonamiento y utiliza los presupuestos de tokens estimados para guiar el proceso de razonamiento. Los experimentos muestran que nuestro método reduce efectivamente los costos de tokens en el razonamiento CoT con solo una ligera reducción en el rendimiento, ofreciendo una solución práctica para equilibrar la eficiencia y la precisión en el razonamiento de LLMs. Código: https://github.com/GeniusHTX/TALE.
En este trabajo, nuestro objetivo es desarrollar un MLLM que comprenda y resuelva preguntas aprendiendo a crear cada paso intermedio del razonamiento involucrado hasta llegar a la respuesta final. Con este fin, proponemos Búsqueda Colectiva Monte Carlo (CoMCTS), un nuevo método de aprendizaje para razonar en MLLMs, que introduce el concepto de aprendizaje colectivo en la "búsqueda en árbol" para una búsqueda y aprendizaje de trayectorias de razonamiento efectivas y eficientes. La idea central de CoMCTS es aprovechar el conocimiento colectivo de múltiples modelos para conjeturar, buscar e identificar colaborativamente trayectorias de razonamiento efectivas hacia respuestas correctas a través de cuatro operaciones iterativas que incluyen Expansión, Simulación y Posicionamiento del Error, Retropropagación y Selección. Utilizando CoMCTS, construimos Mulberry-260k, un conjunto de datos multimodal con un árbol de nodos de razonamiento ricos, explícitos y bien definidos para cada pregunta. Con Mulberry-260k, realizamos SFT colectivo para entrenar nuestro modelo, Mulberry, una serie de MLLMs con capacidades de Razonamiento y Reflexión paso a paso similares a o1. Experimentos extensos demuestran la superioridad de nuestros métodos propuestos en varios benchmarks. El código estará disponible en https://github.com/HJYao00/Mulberry
Presentamos un enfoque eficiente sin codificador para la comprensión de video-lenguaje que logra un rendimiento competitivo al reducir significativamente la carga computacional. Los modelos actuales de video-lenguaje suelen depender de codificadores de imágenes pesados (300M-1.1B parámetros) o codificadores de video (1B-1.4B parámetros), lo que genera una carga computacional sustancial al procesar videos de múltiples fotogramas. Nuestro método introduce un innovador Bloque de Alineación Espacio-Temporal (STAB) que procesa directamente las entradas de video sin necesidad de codificadores pre-entrenados, utilizando solo 45M parámetros para el procesamiento visual, al menos una reducción de 6.5 veces en comparación con los enfoques tradicionales. La arquitectura STAB combina Codificación Espacio-Temporal Local para la extracción de características detalladas, un muestreo espacial eficiente a través de atención aprendida y mecanismos separados para modelar las relaciones a nivel de fotograma y de video. Nuestro modelo logra un rendimiento comparable o superior a los enfoques basados en codificadores para la respuesta a preguntas de video abiertas en bancos de pruebas estándar. La evaluación detallada de respuesta a preguntas de video demuestra la efectividad de nuestro modelo, superando a los enfoques basados en codificadores Video-ChatGPT y Video-LLaVA en aspectos clave como la corrección y la comprensión temporal. Estudios de ablación extensos validan nuestras elecciones arquitectónicas y demuestran la efectividad de nuestro enfoque de modelado espacio-temporal, logrando velocidades de procesamiento 3-4 veces más rápidas que los métodos anteriores. El código está disponible en https://github.com/jh-yi/Video-Panda.
La radio sigue siendo un medio omnipresente para la difusión masiva de información, con estaciones de AM/FM alcanzando a más estadounidenses que las redes sociales basadas en teléfonos inteligentes o la televisión en vivo. Cada vez más, las emisiones radiofónicas también se transmiten en línea y se acceden a través de Internet. Presentamos WavePulse, un marco que graba, documenta y analiza contenido radiofónico en tiempo real. Si bien nuestro marco es generalmente aplicable, destacamos la eficacia de WavePulse en un proyecto colaborativo con un equipo de científicos políticos centrados en las Elecciones Presidenciales de 2024. Utilizamos WavePulse para monitorear las transmisiones en vivo de 396 estaciones de radio de noticias durante un período de tres meses, procesando cerca de 500,000 horas de transmisiones de audio. Estas transmisiones se convirtieron en transcripciones diarizadas con marca de tiempo y se analizaron para rastrear preguntas clave de ciencia política a nivel nacional y estatal. Nuestro análisis reveló cómo los problemas locales interactuaron con las tendencias nacionales, proporcionando información sobre el flujo de información. Nuestros resultados demuestran la eficacia de WavePulse en la captura y análisis de contenido de transmisiones de radio en vivo obtenidas de la Web. El código y el conjunto de datos están disponibles en https://wave-pulse.io.
La traducción simultánea de habla a texto (SimulST) traduce el habla en el idioma de origen a texto en el idioma de destino de manera concurrente con el discurso del hablante, garantizando una baja latencia para una mejor comprensión por parte del usuario. A pesar de su aplicación prevista en el habla ilimitada, la mayoría de las investigaciones se han centrado en el habla presegmentada por humanos, simplificando la tarea y pasando por alto desafíos significativos. Este enfoque estrecho, junto con las amplias inconsistencias terminológicas, está limitando la aplicabilidad de los resultados de la investigación a aplicaciones del mundo real, obstaculizando en última instancia el progreso en el campo. Nuestra extensa revisión de literatura de 110 trabajos no solo revela estos problemas críticos en la investigación actual, sino que también sirve como base para nuestras principales contribuciones. 1) Definimos los pasos y componentes principales de un sistema SimulST, proponiendo una terminología y taxonomía estandarizadas; 2) realizamos un análisis exhaustivo de las tendencias de la comunidad, y 3) ofrecemos recomendaciones concretas y futuras direcciones para cerrar las brechas en la literatura existente, desde marcos de evaluación hasta arquitecturas de sistemas, para avanzar en el campo hacia soluciones SimulST más realistas y efectivas.
Los péptidos terapéuticos, una importante clase de medicamentos, han logrado un éxito notable en enfermedades como la diabetes y el cáncer, con ejemplos destacados como los agonistas del receptor GLP-1 que han revolucionado el tratamiento de la diabetes tipo 2 y la obesidad. A pesar de su éxito, el diseño de péptidos que cumplan múltiples objetivos conflictivos, como la afinidad de unión al objetivo, la solubilidad y la permeabilidad de membrana, sigue siendo un desafío importante. El desarrollo de fármacos clásico y el diseño basado en la estructura son ineficaces para estas tareas, ya que no logran optimizar propiedades funcionales globales críticas para la eficacia terapéutica. Los marcos generativos existentes están en gran medida limitados a espacios continuos, salidas no condicionadas o guía de un solo objetivo, lo que los hace inadecuados para la optimización de secuencias discretas en múltiples propiedades. Para abordar esto, presentamos PepTune, un modelo de difusión discreta multiobjetivo para la generación y optimización simultánea de SMILES de péptidos terapéuticos. Basado en el marco del Modelo de Lenguaje Discreto Enmascarado (MDLM), PepTune garantiza estructuras de péptidos válidas con programaciones de enmascaramiento dependientes del estado y objetivos basados en penalizaciones. Para guiar el proceso de difusión, proponemos una estrategia basada en Búsqueda de Árbol de Monte Carlo (MCTS) que equilibra la exploración y la explotación para refinar de forma iterativa secuencias óptimas de Pareto. MCTS integra recompensas basadas en clasificadores con la expansión del árbol de búsqueda, superando los desafíos de estimación de gradiente y la escasez de datos inherentes a los espacios discretos. Utilizando PepTune, generamos péptidos diversificados y químicamente modificados optimizados para múltiples propiedades terapéuticas, incluida la afinidad de unión al objetivo, permeabilidad de membrana, solubilidad, hemólisis y características no adhesivas en varios objetivos relevantes para enfermedades. En total, nuestros resultados demuestran que la difusión discreta guiada por MCTS es un enfoque potente y modular para el diseño de secuencias multiobjetivo en espacios de estados discretos.