ChatPaper.aiChatPaper.ai
Inicio

arXiv

HuggingFace

PreciosCuentaEspacio de trabajo

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

1

Razonamiento LLM Consciente del Presupuesto de Tokens
Token-Budget-Aware LLM Reasoning

Dec 24
ByTingxu Han, Chunrong Fang, Shiyu Zhao, Shiqing Ma, Zhenyu Chen, Zhenting Wang
46
2

El razonamiento es fundamental para que los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) destaquen en una amplia gama de tareas. Si bien métodos como el razonamiento de Cadena de Pensamiento (CoT, por sus siglas en inglés) mejoran el rendimiento de los LLMs al descomponer problemas en pasos intermedios, también conllevan un sobrecoste significativo en el uso de tokens, lo que resulta en costos más altos. Observamos que el proceso de razonamiento de los LLMs actuales es innecesariamente extenso y puede ser comprimido al incluir un presupuesto de tokens razonable en la indicación, pero la elección del presupuesto de tokens desempeña un papel crucial en la efectividad real de la compresión. Proponemos entonces un marco de razonamiento de LLM consciente del presupuesto de tokens, que estima dinámicamente los presupuestos de tokens para diferentes problemas basándose en la complejidad del razonamiento y utiliza los presupuestos de tokens estimados para guiar el proceso de razonamiento. Los experimentos muestran que nuestro método reduce efectivamente los costos de tokens en el razonamiento CoT con solo una ligera reducción en el rendimiento, ofreciendo una solución práctica para equilibrar la eficiencia y la precisión en el razonamiento de LLMs. Código: https://github.com/GeniusHTX/TALE.

2

Morera: Potenciando MLLM con razonamiento y reflexión tipo o1 a través de la Búsqueda Colectiva del Árbol de Monte Carlo.
Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search

Dec 24
ByHuanjin Yao, Jiaxing Huang, Wenhao Wu, Jingyi Zhang, Yibo Wang, Shunyu Liu, Yingjie Wang, Yuxin Song, Haocheng Feng, Li Shen, Dacheng Tao
39
2

En este trabajo, nuestro objetivo es desarrollar un MLLM que comprenda y resuelva preguntas aprendiendo a crear cada paso intermedio del razonamiento involucrado hasta llegar a la respuesta final. Con este fin, proponemos Búsqueda Colectiva Monte Carlo (CoMCTS), un nuevo método de aprendizaje para razonar en MLLMs, que introduce el concepto de aprendizaje colectivo en la "búsqueda en árbol" para una búsqueda y aprendizaje de trayectorias de razonamiento efectivas y eficientes. La idea central de CoMCTS es aprovechar el conocimiento colectivo de múltiples modelos para conjeturar, buscar e identificar colaborativamente trayectorias de razonamiento efectivas hacia respuestas correctas a través de cuatro operaciones iterativas que incluyen Expansión, Simulación y Posicionamiento del Error, Retropropagación y Selección. Utilizando CoMCTS, construimos Mulberry-260k, un conjunto de datos multimodal con un árbol de nodos de razonamiento ricos, explícitos y bien definidos para cada pregunta. Con Mulberry-260k, realizamos SFT colectivo para entrenar nuestro modelo, Mulberry, una serie de MLLMs con capacidades de Razonamiento y Reflexión paso a paso similares a o1. Experimentos extensos demuestran la superioridad de nuestros métodos propuestos en varios benchmarks. El código estará disponible en https://github.com/HJYao00/Mulberry

3

Video-Panda: Alineación Eficiente de Parámetros para Modelos de Lenguaje de Video sin Codificador
Video-Panda: Parameter-efficient Alignment for Encoder-free Video-Language Models

Dec 24
ByJinhui Yi, Syed Talal Wasim, Yanan Luo, Muzammal Naseer, Juergen Gall
17
2

Presentamos un enfoque eficiente sin codificador para la comprensión de video-lenguaje que logra un rendimiento competitivo al reducir significativamente la carga computacional. Los modelos actuales de video-lenguaje suelen depender de codificadores de imágenes pesados (300M-1.1B parámetros) o codificadores de video (1B-1.4B parámetros), lo que genera una carga computacional sustancial al procesar videos de múltiples fotogramas. Nuestro método introduce un innovador Bloque de Alineación Espacio-Temporal (STAB) que procesa directamente las entradas de video sin necesidad de codificadores pre-entrenados, utilizando solo 45M parámetros para el procesamiento visual, al menos una reducción de 6.5 veces en comparación con los enfoques tradicionales. La arquitectura STAB combina Codificación Espacio-Temporal Local para la extracción de características detalladas, un muestreo espacial eficiente a través de atención aprendida y mecanismos separados para modelar las relaciones a nivel de fotograma y de video. Nuestro modelo logra un rendimiento comparable o superior a los enfoques basados en codificadores para la respuesta a preguntas de video abiertas en bancos de pruebas estándar. La evaluación detallada de respuesta a preguntas de video demuestra la efectividad de nuestro modelo, superando a los enfoques basados en codificadores Video-ChatGPT y Video-LLaVA en aspectos clave como la corrección y la comprensión temporal. Estudios de ablación extensos validan nuestras elecciones arquitectónicas y demuestran la efectividad de nuestro enfoque de modelado espacio-temporal, logrando velocidades de procesamiento 3-4 veces más rápidas que los métodos anteriores. El código está disponible en https://github.com/jh-yi/Video-Panda.

4

WavePulse: Análisis en Tiempo Real del Contenido de Transmisiones en Vivo de Radio
WavePulse: Real-time Content Analytics of Radio Livestreams

Dec 23
ByGovind Mittal, Sarthak Gupta, Shruti Wagle, Chirag Chopra, Anthony J DeMattee, Nasir Memon, Mustaque Ahamad, Chinmay Hegde
11
4

La radio sigue siendo un medio omnipresente para la difusión masiva de información, con estaciones de AM/FM alcanzando a más estadounidenses que las redes sociales basadas en teléfonos inteligentes o la televisión en vivo. Cada vez más, las emisiones radiofónicas también se transmiten en línea y se acceden a través de Internet. Presentamos WavePulse, un marco que graba, documenta y analiza contenido radiofónico en tiempo real. Si bien nuestro marco es generalmente aplicable, destacamos la eficacia de WavePulse en un proyecto colaborativo con un equipo de científicos políticos centrados en las Elecciones Presidenciales de 2024. Utilizamos WavePulse para monitorear las transmisiones en vivo de 396 estaciones de radio de noticias durante un período de tres meses, procesando cerca de 500,000 horas de transmisiones de audio. Estas transmisiones se convirtieron en transcripciones diarizadas con marca de tiempo y se analizaron para rastrear preguntas clave de ciencia política a nivel nacional y estatal. Nuestro análisis reveló cómo los problemas locales interactuaron con las tendencias nacionales, proporcionando información sobre el flujo de información. Nuestros resultados demuestran la eficacia de WavePulse en la captura y análisis de contenido de transmisiones de radio en vivo obtenidas de la Web. El código y el conjunto de datos están disponibles en https://wave-pulse.io.

5

VidTwin: VAE de Video con Estructura y Dinámicas Desacopladas
VidTwin: Video VAE with Decoupled Structure and Dynamics

Dec 23
ByYuchi Wang, Junliang Guo, Xinyi Xie, Tianyu He, Xu Sun, Jiang Bian
9
3

Los avances recientes en autoencoders de video (Video AEs) han mejorado significativamente la calidad y eficiencia de la generación de video. En este documento, proponemos un autoencoder de video novedoso y compacto, VidTwin, que desacopla el video en dos espacios latentes distintos: vectores latentes de Estructura, que capturan el contenido general y el movimiento global, y vectores latentes de Dinámica, que representan detalles detallados y movimientos rápidos. Específicamente, nuestro enfoque aprovecha una estructura Codificador-Decodificador, complementada con dos submódulos para extraer estos espacios latentes, respectivamente. El primer submódulo emplea un Q-Former para extraer tendencias de movimiento de baja frecuencia, seguido de bloques de submuestreo para eliminar detalles de contenido redundantes. El segundo promedia los vectores latentes a lo largo de la dimensión espacial para capturar el movimiento rápido. Experimentos extensos muestran que VidTwin logra una alta tasa de compresión del 0.20% con una alta calidad de reconstrucción (PSNR de 28.14 en el conjunto de datos MCL-JCV), y se desempeña de manera eficiente y efectiva en tareas generativas posteriores. Además, nuestro modelo demuestra explicabilidad y escalabilidad, allanando el camino para futuras investigaciones en representación latente y generación de video. Nuestro código ha sido publicado en https://github.com/microsoft/VidTok/tree/main/vidtwin.

6

¿Qué tan "real" es tu sistema de traducción de habla a texto simultánea en tiempo real?
How "Real" is Your Real-Time Simultaneous Speech-to-Text Translation System?

Dec 24
BySara Papi, Peter Polak, Ondřej Bojar, Dominik Macháček
9
2

La traducción simultánea de habla a texto (SimulST) traduce el habla en el idioma de origen a texto en el idioma de destino de manera concurrente con el discurso del hablante, garantizando una baja latencia para una mejor comprensión por parte del usuario. A pesar de su aplicación prevista en el habla ilimitada, la mayoría de las investigaciones se han centrado en el habla presegmentada por humanos, simplificando la tarea y pasando por alto desafíos significativos. Este enfoque estrecho, junto con las amplias inconsistencias terminológicas, está limitando la aplicabilidad de los resultados de la investigación a aplicaciones del mundo real, obstaculizando en última instancia el progreso en el campo. Nuestra extensa revisión de literatura de 110 trabajos no solo revela estos problemas críticos en la investigación actual, sino que también sirve como base para nuestras principales contribuciones. 1) Definimos los pasos y componentes principales de un sistema SimulST, proponiendo una terminología y taxonomía estandarizadas; 2) realizamos un análisis exhaustivo de las tendencias de la comunidad, y 3) ofrecemos recomendaciones concretas y futuras direcciones para cerrar las brechas en la literatura existente, desde marcos de evaluación hasta arquitecturas de sistemas, para avanzar en el campo hacia soluciones SimulST más realistas y efectivas.

7

PepTune: Generación De Novo de Péptidos Terapéuticos con Difusión Discreta Guiada por Múltiples Objetivos
PepTune: De Novo Generation of Therapeutic Peptides with Multi-Objective-Guided Discrete Diffusion

Dec 23
BySophia Tang, Yinuo Zhang, Pranam Chatterjee
5
2

Los péptidos terapéuticos, una importante clase de medicamentos, han logrado un éxito notable en enfermedades como la diabetes y el cáncer, con ejemplos destacados como los agonistas del receptor GLP-1 que han revolucionado el tratamiento de la diabetes tipo 2 y la obesidad. A pesar de su éxito, el diseño de péptidos que cumplan múltiples objetivos conflictivos, como la afinidad de unión al objetivo, la solubilidad y la permeabilidad de membrana, sigue siendo un desafío importante. El desarrollo de fármacos clásico y el diseño basado en la estructura son ineficaces para estas tareas, ya que no logran optimizar propiedades funcionales globales críticas para la eficacia terapéutica. Los marcos generativos existentes están en gran medida limitados a espacios continuos, salidas no condicionadas o guía de un solo objetivo, lo que los hace inadecuados para la optimización de secuencias discretas en múltiples propiedades. Para abordar esto, presentamos PepTune, un modelo de difusión discreta multiobjetivo para la generación y optimización simultánea de SMILES de péptidos terapéuticos. Basado en el marco del Modelo de Lenguaje Discreto Enmascarado (MDLM), PepTune garantiza estructuras de péptidos válidas con programaciones de enmascaramiento dependientes del estado y objetivos basados en penalizaciones. Para guiar el proceso de difusión, proponemos una estrategia basada en Búsqueda de Árbol de Monte Carlo (MCTS) que equilibra la exploración y la explotación para refinar de forma iterativa secuencias óptimas de Pareto. MCTS integra recompensas basadas en clasificadores con la expansión del árbol de búsqueda, superando los desafíos de estimación de gradiente y la escasez de datos inherentes a los espacios discretos. Utilizando PepTune, generamos péptidos diversificados y químicamente modificados optimizados para múltiples propiedades terapéuticas, incluida la afinidad de unión al objetivo, permeabilidad de membrana, solubilidad, hemólisis y características no adhesivas en varios objetivos relevantes para enfermedades. En total, nuestros resultados demuestran que la difusión discreta guiada por MCTS es un enfoque potente y modular para el diseño de secuencias multiobjetivo en espacios de estados discretos.

Dec 25
Dec 26
Dec 27