번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델(LLM)이 다양한 작업에서 뛰어날 수 있도록 하는 데 추론은 중요합니다. Chain-of-Thought (CoT) 추론과 같은 방법은 문제를 중간 단계로 분해하여 LLM의 성능을 향상시키지만, 이는 토큰 사용량을 크게 증가시켜 비용을 증가시킵니다. 현재 LLM의 추론 과정은 불필요하게 길다는 것을 발견하고, 적절한 토큰 예산을 프롬프트에 포함시킴으로써 압축할 수 있지만, 토큰 예산의 선택이 실제 압축 효과에 중요한 역할을 합니다. 이후 우리는 토큰 예산을 고려한 LLM 추론 프레임워크를 제안하는데, 이는 추론 복잡성에 기반하여 다른 문제에 대한 토큰 예산을 동적으로 추정하고 추정된 토큰 예산을 추론 과정을 안내하는 데 사용합니다. 실험 결과, 우리의 방법은 CoT 추론에서 토큰 비용을 효과적으로 줄이면서 성능 감소가 거의 없으며, LLM 추론에서 효율성과 정확성을 균형있게 제공하는 실용적인 해결책을 제공합니다. 코드: https://github.com/GeniusHTX/TALE.
본 연구에서는 각 중간 단계를 만들어가며 최종 답변까지 포함된 추론 과정을 이해하고 해결하는 MLLM을 개발하는 것을 목표로 합니다. 이를 위해, 효과적이고 효율적인 추론 경로 탐색과 학습을 위해 "트리 탐색"에 집단 학습 개념을 도입하는 MLLM을 위한 새로운 학습-추론 방법인 CoMCTS(집단 몬테카를로 트리 탐색)를 제안합니다. CoMCTS의 핵심 아이디어는 확장, 시뮬레이션 및 에러 위치 결정, 역전파, 그리고 선택을 포함한 네 가지 반복적 작업을 통해 올바른 답변으로의 효과적인 추론 경로를 공동으로 추측, 탐색 및 식별하기 위해 다중 모델로부터 집단 지식을 활용하는 것입니다. CoMCTS를 사용하여 각 질문에 대해 풍부하고 명확하며 명확하게 정의된 추론 노드 트리를 갖는 다중 모달 데이터셋인 Mulberry-260k를 구축합니다. Mulberry-260k를 사용하여 Mulberry라는 모델을 훈련시키기 위해 집단 SFT를 수행하며, Mulberry는 단계별 추론 및 반성 능력을 갖춘 일련의 MLLM입니다. 다양한 벤치마크에서 제안된 방법의 우수성을 입증하는 방대한 실험을 수행했습니다. 코드는 https://github.com/HJYao00/Mulberry에서 제공될 예정입니다.
우리는 비디오-언어 이해를 위한 효율적인 인코더 없는 접근 방식을 제시하며, 경쟁력 있는 성능을 달성하면서 계산 부담을 크게 줄였습니다. 현재의 비디오-언어 모델은 일반적으로 무거운 이미지 인코더(300M-1.1B 매개변수) 또는 비디오 인코더(1B-1.4B 매개변수)에 의존하는데, 이는 다중 프레임 비디오를 처리할 때 상당한 계산 부담을 초래합니다. 우리의 방법은 새로운 시공간 정렬 블록(STAB)을 도입하여, 사전 훈련된 인코더를 필요로 하지 않으면서 시각 처리를 위해 단 45M 매개변수만 사용합니다 - 기존 방법에 비해 최소 6.5배 이상의 감소입니다. STAB 아키텍처는 미세한 특징 추출을 위한 지역 시공간 인코딩, 학습된 주의를 통한 효율적인 공간 다운샘플링, 프레임 수준 및 비디오 수준 관계 모델링을 위한 별도의 메커니즘을 결합합니다. 우리의 모델은 표준 벤치마크에서 오픈엔드 비디오 질문 응답에 대해 인코더 기반 접근 방식과 비교 가능하거나 우수한 성능을 달성합니다. 미세한 비디오 질문 응답 평가는 우리 모델의 효과성을 입증하며, Video-ChatGPT 및 Video-LLaVA와 같은 인코더 기반 접근 방식을 정확성 및 시간적 이해와 같은 주요 측면에서 앞섭니다. 철저한 제거 연구는 우리의 아키텍처 선택을 검증하고, 이전 방법보다 3-4배 빠른 처리 속도를 달성하면서 우리의 시공간 모델링 접근 방식의 효과를 입증합니다. 코드는 https://github.com/jh-yi/Video-Panda에서 사용할 수 있습니다.
라디오는 대량 정보 전파를 위한 보편적 매체로 남아 있으며, AM/FM 방송국은 스마트폰 기반 소셜 네트워킹이나 실시간 텔레비전보다 더 많은 미국인에게 도달합니다. 점점 더 라디오 방송은 온라인으로 스트리밍되며 인터넷을 통해 접근됩니다. 저희는 라디오 콘텐츠를 실시간으로 기록, 문서화, 분석하는 WavePulse 프레임워크를 제시합니다. 저희의 프레임워크는 일반적으로 적용 가능하지만, 2024 대통령 선거에 초점을 맞춘 정치과학자 팀과의 협력 프로젝트에서 WavePulse의 효과성을 보여줍니다. 우리는 WavePulse를 사용하여 3개월 동안 396개의 뉴스 라디오 방송국의 라이브 스트림을 모니터링하고, 거의 50만 시간의 오디오 스트림을 처리했습니다. 이러한 스트림은 타임 스탬프가 찍힌 다이어라이즈된 트랜스크립트로 변환되어 국가 및 주별 정치과학 문제를 추적하는 데 분석되었습니다. 우리의 분석 결과는 지역 문제가 국가적 추세와 상호 작용하는 방식을 보여주며, 정보 흐름에 대한 통찰을 제공합니다. 우리의 결과는 웹에서 가져온 라디오 라이브 스트림의 콘텐츠를 캡처하고 분석하는 WavePulse의 효과를 입증합니다. 코드와 데이터셋은 https://wave-pulse.io에서 액세스할 수 있습니다.
동시 음성-텍스트 번역(SimulST)은 원천 언어 음성을 화자의 발화와 동시에 대상 언어 텍스트로 번역하여 사용자 이해를 높이기 위해 낮은 지연 시간을 보장합니다. 비록 이 기술이 무제한 발화에 적용되도록 의도되었지만, 대부분의 연구는 인간에 의해 사전 분할된 음성에 초점을 맞추어 작업을 단순화하고 중요한 도전 과제를 간과하고 있습니다. 이 좁은 초점은 널리 퍼져 있는 용어적 불일치와 결합되어, 연구 결과의 적용 가능성을 제한하고 궁극적으로 이 분야의 진전을 방해하고 있습니다. 우리의 110편의 논문을 포함한 방대한 문헌 검토는 현재 연구에서 이러한 중요한 문제를 밝혀냄과 동시에 우리의 주요 기여의 기초로 기능합니다. 우리는 1) SimulST 시스템의 단계와 핵심 구성 요소를 정의하고, 표준 용어 및 분류법을 제안합니다; 2) 커뮤니티 트렌드를 철저히 분석하며, 3) 평가 프레임워크부터 시스템 아키텍처에 이르기까지 기존 문헌의 간극을 메우기 위한 구체적인 권고사항과 미래 방향을 제시하여, 보다 현실적이고 효과적인 SimulST 솔루션으로 분야를 발전시키기 위한 발걸음을 내딛습니다.
펩타이드 치료제는 당뇨병과 암과 같은 질병에서 혁명적인 GLP-1 수용체 작용제와 같은 사례를 통해 주목할만한 성과를 거두었습니다. 그러나 성공에도 불구하고, 대상 결합 친화도, 용해도, 및 막 투과성과 같은 여러 상충하는 목표를 충족하는 펩타이드를 설계하는 것은 여전히 주요한 과제입니다. 이러한 작업에 대해 고전적인 약물 개발 및 구조 기반 설계는 치료 효과에 중요한 전역 기능적 특성을 최적화하지 못하여 비효과적입니다. 기존 생성 프레임워크는 주로 연속 공간, 조건 없는 출력 또는 단일 목적 가이드만을 다루어 여러 속성을 가로지르는 이산적인 시퀀스 최적화에는 적합하지 않습니다. 이에 대응하여 우리는 PepTune을 제시합니다. PepTune은 치료용 펩타이드 SMILES의 동시 생성 및 최적화를 위한 다중 목적 이산 확산 모델로, Masked Discrete Language Model (MDLM) 프레임워크 위에 구축되어 상태 의존적 마스킹 일정과 패널티 기반 목적을 보장합니다. 확산 과정을 안내하기 위해, 우리는 탐사와 개척을 균형있게 조절하는 몬테 카를로 트리 탐색(MCTS) 기반 전략을 제안하여 Pareto-최적 시퀀스를 반복적으로 정제합니다. MCTS는 분류기 기반 보상을 탐색 트리 확장과 통합하여, 이산 공간에 내재된 기울기 추정 도전과 데이터 희소성을 극복합니다. PepTune을 사용하여, 우리는 다양하고 화학적으로 수정된 펩타이드를 생성하여 여러 치료적 특성에 최적화하였습니다. 이를 통해 우리의 결과는 MCTS로 안내되는 이산 확산이 이산 상태 공간에서 다중 목적 시퀀스 설계에 강력하고 모듈식 접근 방식임을 입증합니다.