번역이 포함된 일일 선별된 AI 연구 논문
최근 연구에 따르면, 대형 언어 모델(LLM)은 외부 피드백을 받았을 때 응답을 개선할 수 있는 어느 정도의 능력을 보여줍니다. 그러나 이러한 모델이 외부 피드백을 얼마나 효과적이고 철저히 통합할 수 있는지는 여전히 명확하지 않습니다. 이상적인 시나리오에서, LLM이 거의 완벽하고 완전한 피드백을 받는다면, 모델은 피드백을 완전히 통합하여 잘못된 답변을 올바른 답변으로 변경할 것으로 기대할 수 있습니다. 본 논문에서는 통제된 실험 환경을 설계하여 LLM의 피드백 통합 능력을 체계적으로 조사합니다. 각 문제에 대해, 솔버 모델이 해결을 시도한 후, 거의 완전한 정답에 접근할 수 있는 피드백 생성기가 목표로 하는 피드백을 생성하고, 이후 솔버가 다시 시도합니다. 우리는 이 파이프라인을 수학적 추론, 지식 추론, 과학적 추론, 그리고 Claude 3.7(확장 사고 포함 및 미포함)과 같은 최신 언어 모델을 사용한 일반적인 다중 도메인 평가를 포함한 다양한 작업에 걸쳐 평가합니다. 놀랍게도, 이러한 거의 이상적인 조건 하에서도 솔버 모델은 피드백에 대해 일관적으로 저항성을 보이며, 우리는 이러한 한계를 '피드백 마찰(FEEDBACK FRICTION)'이라고 명명합니다. 이러한 한계를 완화하기 위해, 우리는 점진적인 온도 상승과 이전에 시도한 잘못된 답변의 명시적 거부와 같은 샘플링 기반 전략을 실험하여 개선을 이루었지만, 여전히 모델이 목표 성능에 도달하는 데는 실패했습니다. 또한, 우리는 피드백 마찰의 잠재적 원인에 대해 엄격한 탐구를 수행하며, 모델의 과도한 자신감과 데이터 친숙도와 같은 요인들을 배제했습니다. 우리는 LLM에서 이 문제를 강조하고 여러 명백한 원인을 배제함으로써 자기 개선에 대한 미래 연구에 도움이 되기를 바랍니다.
과제 지향적 LLM 기반 에이전트는 환불 자격이나 취소 규칙과 같이 엄격한 정책이 적용되는 영역에서 점점 더 많이 사용되고 있습니다. 여기서의 과제는 이러한 규칙과 정책을 에이전트가 일관되게 준수하고, 이를 위반하는 요청은 적절히 거부하면서도 도움이 되고 자연스러운 상호작용을 유지하는 데 있습니다. 이를 위해 악의적인 사용자 행동에 대비한 에이전트의 회복력을 보장하기 위한 맞춤형 설계 및 평가 방법론의 개발이 필요합니다. 우리는 개인적인 이익을 위해 정책 준수 에이전트를 악용하려는 적대적 사용자에 초점을 맞춘 새로운 위협 모델을 제안합니다. 이를 해결하기 위해, 우리는 고객 서비스 시나리오에서 정책 준수 에이전트를 약화시키기 위해 정책 인식 설득 전략을 활용하는 다중 에이전트 레드 팀 시스템인 CRAFT를 제시합니다. 이는 DAN 프롬프트, 감정 조작, 강압적 방법과 같은 기존의 탈옥 방법을 능가합니다. 기존의 tau-bench 벤치마크를 기반으로, 우리는 조작적인 사용자 행동에 대한 에이전트의 견고성을 엄격히 평가하기 위해 설계된 보완적 벤치마크인 tau-break를 소개합니다. 마지막으로, 우리는 몇 가지 간단하지만 효과적인 방어 전략을 평가합니다. 이러한 조치들은 일부 보호 기능을 제공하지만, 충분하지 않아 적대적 공격으로부터 정책 준수 에이전트를 보호하기 위한 더 강력한 연구 기반의 안전장치가 필요함을 강조합니다.
균일 상태 이산 확산 모델은 자가 수정 능력으로 인해 빠른 텍스트 생성을 가능케 할 잠재력을 지니고 있습니다. 그러나 이들은 일반적으로 자기회귀 모델과 마스크 확산 모델에 비해 성능이 떨어집니다. 본 연구에서는 이러한 성능 격차를 좁히기 위해 핵심 통찰을 활용합니다: 균일 상태 확산 과정은 근본적으로 가우시안 확산에서 자연스럽게 발생합니다. 우리의 방법인 Duo는 가우시안 확산의 강력한 기법을 전이하여 학습과 샘플링 모두를 개선합니다. 먼저, 가우시안 프로세스에 기반한 커리큘럼 학습 전략을 도입하여 분산을 줄임으로써 학습 속도를 두 배로 향상시킵니다. 커리큘럼 학습으로 훈련된 모델은 7개 벤치마크 중 3개에서 제로샷 복잡도 측면에서 자기회귀 모델을 능가합니다. 둘째, 연속 설정에서 이산 설정으로 일관성 증류를 적용한 이산 일관성 증류를 제시합니다. 이 알고리즘은 샘플링 속도를 두 배로 가속화함으로써 확산 언어 모델에서 소수 단계 생성을 가능하게 합니다. 프로젝트 페이지(http://s-sahoo.github.io/duo)에서 코드와 모델 체크포인트를 제공합니다.
본 논문에서는 워핑(warping)과 인페인팅(inpainting) 방법론을 통해 정렬된 새로운 시점의 이미지 및 기하학적 구조 생성을 수행하는 확산 기반 프레임워크를 소개한다. 기존의 방법들은 조밀한 포즈 이미지나 특정 도메인 내 시점으로 제한된 포즈 임베딩 생성 모델을 요구했던 반면, 본 방법은 오프더셸(off-the-shelf) 기하학적 예측기를 활용하여 참조 이미지에서 관측된 부분적 기하학적 구조를 예측하고, 새로운 시점 합성을 이미지와 기하학적 구조 모두에 대한 인페인팅 작업으로 공식화한다. 생성된 이미지와 기하학적 구조 간의 정확한 정렬을 보장하기 위해, 교차 모달 어텐션 증류(cross-modal attention distillation)를 제안한다. 이는 이미지 확산 분기에서의 어텐션 맵을 훈련 및 추론 과정에서 병렬 기하학적 확산 분기에 주입하는 방식으로, 다중 작업 접근법을 통해 기하학적으로 강건한 이미지 합성과 명확한 기하학적 예측을 가능하게 한다. 또한, 근접성 기반 메쉬 조건화(proximity-based mesh conditioning)를 도입하여 깊이와 법선 정보를 통합하고, 포인트 클라우드 간 보간을 수행하며 잘못 예측된 기하학적 구조가 생성 과정에 영향을 미치지 않도록 필터링한다. 실험적으로, 본 방법은 다양한 미지의 장면에서 이미지와 기하학적 구조 모두에 대해 고해상도의 외삽적 시점 합성을 달성하고, 보간 설정에서 경쟁력 있는 재구성 품질을 제공하며, 포괄적인 3D 완성을 위해 기하학적으로 정렬된 컬러 포인트 클라우드를 생성한다. 프로젝트 페이지는 https://cvlab-kaist.github.io/MoAI에서 확인할 수 있다.
최근 보고서에 따르면 대형 언어 모델(LLM)이 경쟁 프로그래밍 분야에서 엘리트 인간을 능가한다고 주장한다. 국제 알고리즘 대회 메달리스트 그룹의 지식을 바탕으로, 우리는 이 주장을 재검토하며 LLM이 인간 전문가와 어떻게 다른지, 그리고 여전히 남아 있는 한계는 어디에 있는지 살펴본다. 우리는 Codeforces, ICPC, IOI의 문제로 구성된 LiveCodeBench Pro라는 벤치마크를 소개한다. 이 벤치마크는 데이터 오염 가능성을 줄이기 위해 지속적으로 업데이트된다. 올림피아드 메달리스트 팀은 모든 문제를 알고리즘 범주별로 주석 처리하고, 모델이 생성한 실패한 제출물을 한 줄씩 분석한다. 이 새로운 데이터와 벤치마크를 사용하여 우리는 최첨단 모델들이 여전히 상당한 한계를 가지고 있음을 발견했다: 외부 도구 없이 최고의 모델은 중간 난이도 문제에서 53%의 pass@1을 달성했으며, 어려운 문제에서는 0%를 기록했다. 이는 인간 전문가들이 여전히 뛰어난 분야이다. 또한 우리는 LLM이 구현이 많이 필요한 문제에서는 성공하지만, 미묘한 알고리즘적 추론과 복잡한 사례 분석에서는 어려움을 겪으며, 종종 자신 있게 잘못된 정당화를 생성한다는 것을 발견했다. 높은 성과는 주로 구현 정밀도와 도구 보강에 의해 주도되는 것으로 보이며, 우수한 추론 능력 때문이 아니다. 따라서 LiveCodeBench Pro는 인간 그랜드마스터 수준과의 상당한 격차를 강조하면서, 코드 중심 LLM 추론의 미래 개선을 이끌기 위한 세분화된 진단을 제공한다.
대규모 언어 모델은 컨텍스트 길이가 증가함에 따라 키-값(KV) 캐시의 메모리 요구량이 증가하는 문제에 직면해 있습니다. 기존의 압축 방법들은 헤드 차원을 균일하게 처리하거나 주의 기반 토큰 제거에 의존하는 경우가 많아, 정확도를 희생하거나 계산 오버헤드를 초래하는 경우가 많습니다. 우리는 퓨리에 어텐션(FourierAttention)을 제안합니다. 이는 트랜스포머 헤드 차원의 이질적인 역할을 활용하는 훈련이 필요 없는 프레임워크로, 하위 차원은 지역 컨텍스트를 우선시하고 상위 차원은 장거리 의존성을 포착합니다. 장거리 컨텍스트에 민감하지 않은 차원을 직교 퓨리에 기저에 투영함으로써, 퓨리에 어텐션은 이들의 시간적 변화를 고정 길이 스펙트럼 계수로 근사합니다. LLaMA 모델에 대한 평가 결과, 퓨리에 어텐션은 LongBench와 Needle-In-A-Haystack(NIAH)에서 최고의 장거리 컨텍스트 정확도를 달성했습니다. 또한, 맞춤형 Triton 커널인 FlashFourierAttention은 간소화된 읽기-쓰기 연산을 통해 메모리를 최적화하여 성능 저하 없이 효율적인 배포를 가능하게 합니다.
강화 학습(Reinforcement Learning, RL)은 수학적 추론이나 코드 생성과 같이 도전적이면서도 쉽게 검증 가능한 작업을 사용하여 대규모 언어 모델(Large Language Models, LLMs)을 미세 조정하는 데 큰 효과를 보여왔습니다. 그러나 이러한 성공을 시각-언어 모델(Vision-Language Models, VLMs)의 시각 인식으로 확장하는 것은 동시에 도전적이고 명확하게 검증 가능한 시각 중심 작업의 부족으로 인해 방해받아 왔습니다. 이를 위해, 우리는 ViCrit(Visual Caption Hallucination Critic)을 소개합니다. ViCrit은 인간이 작성한 이미지 캡션의 단락에 주입된 미묘한 합성 시각적 환각을 지역화하도록 VLMs를 훈련시키는 RL 프록시 작업입니다. 200단어의 캡션에서 시작하여, 객체, 속성, 수량 또는 공간 관계를 변경하는 단일한 미묘한 시각적 설명 오류를 주입하고, 모델이 이미지와 수정된 캡션을 주어진 상태에서 손상된 범위를 정확히 찾아내도록 합니다. 이 공식은 완전한 인지적 난이도를 유지하면서도 계산하기 쉽고 명확한 이진 정확 일치 보상을 제공합니다. ViCrit 작업으로 훈련된 모델은 다양한 VL 벤치마크에서 상당한 향상을 보여줍니다. 특히, 이러한 개선은 자연 이미지 훈련 데이터를 넘어 추상 이미지 추론과 시각적 수학으로 전이되며, 단순히 본 객체를 기억하는 것이 아니라 인지하는 법을 배우는 가능성을 보여줍니다. 평가를 용이하게 하기 위해, 우리는 ViCrit-Bench를 추가로 소개합니다. ViCrit-Bench는 다양한 이미지 도메인과 오류 유형에 걸쳐 인식 오류를 체계적으로 탐색하는 범주 균형 진단 벤치마크입니다. 우리의 결과는 미세한 환각 비판이 VLMs의 시각 인식을 향상시키는 효과적이고 일반화 가능한 목표임을 보여줍니다.
대형 언어 모델은 임상 의사결정에서 유망한 가능성을 보여주고 있지만, 현재의 접근 방식은 추론 과정의 특정 단계에서 오류를 찾아내고 수정하는 데 어려움을 겪고 있습니다. 이러한 한계는 정확한 진단과 효과적인 환자 치료를 위해 추론 오류를 식별하고 해결하는 것이 필수적인 의학 분야에서 매우 중요합니다. 우리는 Med-PRM이라는 프로세스 보상 모델링 프레임워크를 소개합니다. 이 프레임워크는 검색 강화 생성(retrieval-augmented generation)을 활용하여 각 추론 단계를 확립된 의학 지식 기반과 대조하여 검증합니다. 임상 가이드라인과 문헌에서 검색된 증거를 통해 중간 추론 단계를 검증함으로써, 우리의 모델은 세밀한 방식으로 추론 품질을 정확하게 평가할 수 있습니다. 다섯 가지 의학 QA 벤치마크와 두 가지 개방형 진단 과제에 대한 평가 결과, Med-PRM은 최첨단 성능을 달성하며, 기본 모델의 성능을 최대 13.50%까지 향상시켰습니다. 또한, 우리는 Meerkat과 같은 강력한 정책 모델에 플러그 앤 플레이 방식으로 Med-PRM을 통합함으로써 그 일반성을 입증했습니다. 이를 통해 80억 개의 파라미터를 가진 소규모 모델을 사용하여 MedQA에서 처음으로 80% 이상의 정확도를 달성했습니다. 우리의 코드와 데이터는 https://med-prm.github.io/에서 확인할 수 있습니다.
검증 가능한 보상을 활용한 강화 학습(Reinforcement Learning with Verifiable Rewards, RLVR)은 수학 문제 해결과 같은 복잡한 추론 과제에서 대규모 언어 모델(Large Language Models, LLMs)을 훈련하는 데 효과적인 것으로 입증되었습니다. RLVR의 확장성을 위해서는 정확하고 검증 가능한 답변이 포함된 고품질 문제 세트가 필수적입니다. 그러나 기존의 증류 중심 합성 데이터셋에는 잘 구성된 인간 라벨링 수학 문제와 제한된 검증 가능한 답변이 부족하여 RL에서의 효과가 제한적입니다. 또한, 대부분의 문제 합성 전략은 모델의 능력을 고려하지 않고 무분별하게 문제 세트를 확장하여 유용한 질문을 생성하는 데 있어 효율성이 낮습니다. 이러한 문제를 완화하기 위해, 우리는 모델의 결함을 체계적으로 식별하고 이를 문제 증강에 활용하는 자기 인식 약점 기반 문제 합성 프레임워크(Self-aware Weakness-driven problem Synthesis framework, SwS)를 소개합니다. 구체적으로, 우리는 RL 훈련 중 반복적 샘플링을 통해 모델이 지속적으로 학습하지 못하는 질문을 약점으로 정의합니다. 그런 다음 이러한 실패 사례에서 핵심 개념을 추출하고 새로운 문제를 합성하여 후속 증강 훈련에서 모델의 약점을 강화함으로써 모델이 자신의 약점에 집중하고 점차 극복할 수 있도록 합니다. 외부 지식 증류에 의존하지 않고, 우리의 프레임워크는 모델이 RL에서 스스로 약점을 식별하고 해결할 수 있도록 함으로써 견고한 일반화를 가능하게 하며, 7B 및 32B 모델에서 8개의 주요 추론 벤치마크에서 평균 10.0% 및 7.7%의 성능 향상을 달성합니다.
Foundation Vision Encoder는 다양한 고밀도 비전 작업에서 필수적인 요소가 되었습니다. 그러나 이러한 인코더의 저해상도 공간 특징 출력은 다운스트림 작업에 필요한 고해상도 모달리티를 생성하기 위해 특징 업샘플링을 필요로 합니다. 본 연구에서는 JAFAR를 소개합니다. JAFAR는 어떤 Foundation Vision Encoder의 시각적 특징이라도 임의의 목표 해상도로 향상시킬 수 있는 가볍고 유연한 특징 업샘플러입니다. JAFAR는 저수준 이미지 특징에서 파생된 고해상도 쿼리와 의미적으로 풍부한 저해상도 키 간의 의미적 정렬을 촉진하기 위해 설계된 어텐션 기반 모듈을 사용하며, Spatial Feature Transform(SFT) 변조를 활용합니다. 특히, 고해상도 감독이 없음에도 불구하고, 저업샘플링 비율과 해상도에서의 학습이 상당히 높은 출력 스케일로도 탁월하게 일반화됨을 입증합니다. 광범위한 실험을 통해 JAFAR가 미세한 공간 세부 사항을 효과적으로 복구하고 다양한 다운스트림 작업에서 기존의 특징 업샘플링 방법들을 일관되게 능가함을 보여줍니다. 프로젝트 페이지는 https://jafar-upsampler.github.io에서 확인할 수 있습니다.
최근 연구들은 강화 학습(RL) 기반 사후 훈련이 대규모 언어 모델(LLMs)의 추론 능력을 향상시키는 데 효과적임을 입증했습니다. 특히, 그룹 기반 정규화 보상을 사용하는 PPO 스타일 강화 알고리즘을 적용한 Group Relative Policy Optimization(GRPO)이 인상적인 성공을 거두었습니다. 그러나 GRPO를 비디오 대규모 언어 모델(Video LLMs)에 적용한 연구는 상대적으로 부족한 상황입니다. 본 논문에서는 GRPO를 비디오 LLMs에 적용하고, 그 효과적인 학습을 방해하는 두 가지 주요 문제를 확인했습니다: (1) 안전장치에 대한 의존성, (2) 이점 소실 문제. 이러한 문제를 해결하기 위해 우리는 Reg-GRPO(Regressive GRPO)와 난이도 인지 데이터 증강 전략을 통해 훈련된 비디오 대규모 언어 모델인 DeepVideo-R1을 제안합니다. Reg-GRPO는 GRPO 목표를 회귀 작업으로 재구성하여 GRPO의 이점을 직접 예측합니다. 이 설계는 클리핑 및 최소 함수와 같은 안전장치의 필요성을 제거함으로써 모델을 이점 값과 정렬하여 더 직접적인 정책 지도를 가능하게 합니다. 또한, 우리는 해결 가능한 난이도 수준에서 훈련 샘플을 동적으로 증강하는 난이도 인지 데이터 증강 전략을 설계하여 다양하고 유익한 보상 신호를 촉진합니다. 포괄적인 실험을 통해 DeepVideo-R1이 여러 비디오 추론 벤치마크에서 비디오 추론 성능을 크게 향상시킴을 확인했습니다.
최근 xLSTM 및 Mamba와 같은 현대적인 순환 아키텍처가 언어 모델링 분야에서 Transformer에 도전하고 있습니다. 그러나 이러한 아키텍처의 구조는 시퀀스에만 적용되도록 제한하거나 이미지나 분자 그래프와 같은 다차원 데이터 구조를 미리 정의된 순차적 순서로 처리해야 한다는 한계를 가지고 있습니다. 이와 대조적으로, 다차원 RNN(MDRNN)은 2D 그리드, 트리, 방향성 비순환 그래프(DAG)와 같은 더 높은 수준의 구조를 가진 데이터에 적합합니다. 본 연구에서는 이러한 다차원성 개념을 선형 RNN으로 확장합니다. 일반적인 DAG의 라인 그래프에 작용하는 소스(Source), 전이(Transition), 마크(Mark) 게이트를 사용하여 병렬화 가능한 선형 소스 전이 마크 네트워크(pLSTM)를 소개합니다. 이를 통해 DAG에 대해 병렬 연관 스캔 및 순차적 선형 RNN의 청크 단위 순환 형태와 유사한 병렬화가 가능해집니다. 이미지와 같은 규칙적인 그리드(1D 및 2D)의 경우, 이 방식은 einsum 연산, 연결(concatenation), 패딩을 사용하여 로그 시간 내에 효율적으로 구현될 수 있습니다. pLSTM은 DAG에서 장거리에서 발생하는 활성화/기울기 소실/폭주 문제를 두 가지 모드로 해결합니다: 방향성 전파 모드(P-mode)와 확산 분포 모드(D-mode). pLSTM의 장거리 능력을 입증하기 위해, 장거리 방향 정보를 포함하는 합성 컴퓨터 비전 작업으로 화살표 지시 외삽(arrow-pointing extrapolation)을 도입합니다. pLSTM이 더 큰 이미지 크기로 잘 일반화되는 반면, Transformer는 외삽에 어려움을 겪는 것을 보여줍니다. 확립된 분자 그래프 및 컴퓨터 비전 벤치마크에서도 pLSTM은 강력한 성능을 보입니다. 코드와 데이터셋은 https://github.com/ml-jku/plstm_experiments에서 확인할 수 있습니다.
트랜스포머(Transformer)는 대규모 언어 모델과 다양한 도메인에서의 다운스트림 작업을 위한 사실상의 표준이 되었습니다. 고유한 학습 병렬성과 같은 수많은 장점에도 불구하고, 트랜스포머는 고정된 컨텍스트 윈도우를 초과하는 시퀀스를 효과적으로 처리하지 못하고, 어텐션 메커니즘의 이차 복잡성으로 인해 주요한 과제에 직면해 있습니다. 이러한 과제는 시퀀스 길이에 대해 선형적으로 확장되고 장거리 의존성을 더 잘 처리할 수 있는 RNN(Recurrent Neural Network)과 같은 아키텍처에 대한 관심을 다시 불러일으켰습니다. 비록 RNN은 고유한 순환 특성으로 인해 병렬성이 제한되지만, 이러한 장점은 여전히 매력적입니다. 본 논문에서는 어텐션과 순환 구조 모두에서 벗어난 새로운 신경 기반 아키텍처인 Avey를 제안합니다. Avey는 랭커(ranker)와 자기회귀 신경 프로세서(autoregressive neural processor)로 구성되어 있으며, 이들은 협력하여 시퀀스 내 위치에 관계없이 주어진 토큰에 대해 가장 관련성이 높은 토큰만 식별하고 컨텍스트화합니다. 특히, Avey는 시퀀스 길이를 컨텍스트 너비와 분리함으로써 임의로 긴 시퀀스를 효과적으로 처리할 수 있도록 합니다. 실험 결과는 Avey가 다양한 표준 단거리 NLP 벤치마크에서 트랜스포머와 비교하여 우수한 성능을 보이며, 특히 장거리 의존성을 포착하는 데 뛰어난 성과를 보여줍니다.
확산 모델을 활용한 비디오 편집은 고품질의 비디오 편집물을 생성하는 데 있어 뛰어난 성과를 거두었습니다. 그러나 현재의 방법들은 대규모 사전 학습에 의존하는 경우가 많아, 특정 편집에 대한 유연성이 제한됩니다. 첫 번째 프레임을 기반으로 한 편집은 첫 프레임에 대한 제어를 제공하지만, 이후 프레임들에 대한 유연성이 부족합니다. 이를 해결하기 위해, 우리는 사전 학습된 이미지-투-비디오(I2V) 모델을 유연한 비디오 편집에 적응시키는 마스크 기반 LoRA(Low-Rank Adaptation) 튜닝 방법을 제안합니다. 우리의 접근 방식은 배경 영역을 보존하면서도 제어 가능한 편집 전파를 가능하게 합니다. 이 솔루션은 모델 구조를 변경하지 않고도 효율적이고 적응 가능한 비디오 편집을 제공합니다. 이 과정을 더 잘 조종하기 위해, 우리는 대체 시점이나 대표적인 장면 상태와 같은 추가 참조를 통합하여, 콘텐츠가 어떻게 전개되어야 하는지에 대한 시각적 앵커 역할을 하도록 합니다. 우리는 사전 학습된 이미지-투-비디오 모델을 편집 컨텍스트에 적응시키는 마스크 기반 LoRA 튜닝 전략을 사용하여 제어 문제를 해결합니다. 모델은 두 가지 구별되는 소스로부터 학습해야 합니다: 입력 비디오는 공간 구조와 모션 단서를 제공하고, 참조 이미지는 외관 지침을 제공합니다. 공간 마스크는 모델이 주의를 기울이는 것을 동적으로 조절함으로써 영역별 학습을 가능하게 하여, 각 영역이 적절한 소스로부터 정보를 얻도록 합니다. 실험 결과는 우리의 방법이 최신 기술과 비교하여 우수한 비디오 편집 성능을 달성함을 보여줍니다.
대규모 다중모달 모델(Large Multimodal Models, LMMs)의 최근 발전은 다중모달 이해 및 생성 능력을 크게 향상시켰다. 그러나 이러한 모델들은 여전히 긴밀하게 교차된 이미지-텍스트 출력을 생성하는 데 어려움을 겪고 있으며, 이는 주로 현재의 훈련 데이터셋의 제한된 규모, 품질 및 지시의 풍부성 때문이다. 이를 해결하기 위해, 우리는 Self-Evaluation with Iterative Refinement(SEIR) 방법을 사용하여 구축한 대규모 다중모달 데이터셋인 InterSyn을 소개한다. InterSyn은 다중 턴의 지시 기반 대화와 긴밀하게 교차된 이미지-텍스트 응답을 특징으로 하며, 풍부한 객체 다양성과 엄격한 자동 품질 개선을 제공하여 차세대 지시 수행 LMMs 훈련에 적합하다. 또한, 교차된 다중모달 출력을 평가할 수 있는 신뢰할 만한 평가 도구의 부족을 해결하기 위해, 우리는 텍스트 내용, 이미지 내용, 이미지 품질, 이미지-텍스트 시너지라는 네 가지 차원에서 다중모달 출력을 정량적으로 평가하도록 설계된 자동 평가 모델인 SynJudge를 소개한다. 실험 연구는 SEIR 방법이 개선 없이 동일한 프로세스에 비해 데이터셋 품질을 크게 향상시킨다는 것을 보여준다. 또한, InterSyn으로 훈련된 LMMs는 모든 평가 지표에서 균일한 성능 향상을 달성하여 다중모달 시스템 발전을 위한 InterSyn의 유용성을 확인한다.
휴머노이드 로봇은 인간과 유사한 형태와 유연성 덕분에 다양한 환경에서 일상적인 작업을 수행하는 데 상당한 잠재력을 지니고 있습니다. 최근 연구들은 최적 제어나 강화 학습을 활용하여 휴머노이드 전신 제어 및 이동-조작(loco-manipulation) 분야에서 상당한 진전을 이루었습니다. 그러나 이러한 방법들은 각 작업에 대해 만족스러운 행동을 달성하기 위해 지루한 작업별 튜닝을 필요로 하며, 이는 일상 시나리오에서 다양한 작업에 대한 다용성과 확장성을 제한합니다. 이를 위해 우리는 다용도 휴머노이드 이동-조작을 위한 새로운 계층적 강화 학습 프레임워크인 SkillBlender를 소개합니다. SkillBlender는 먼저 목표 조건에 따라 작업에 구애받지 않는 기본 스킬들을 사전 학습한 후, 이러한 스킬들을 동적으로 혼합하여 복잡한 이동-조작 작업을 최소한의 작업별 보상 설계로 수행합니다. 또한, 우리는 세 가지 구현체, 네 가지 기본 스킬, 그리고 여덟 가지 도전적인 이동-조작 작업을 포함하며 정확성과 실현 가능성을 균형 있게 평가하는 과학적 평가 지표를 갖춘 SkillBench라는 병렬적, 교차 구현체, 다양한 시뮬레이션 벤치마크를 소개합니다. 광범위한 시뮬레이션 실험을 통해 우리의 방법이 모든 기준선을 크게 능가하며, 보장 해킹을 피하기 위해 행동을 자연스럽게 규제함으로써 일상 시나리오에서 다양한 이동-조작 작업에 대해 더 정확하고 실현 가능한 움직임을 달성함을 보여줍니다. 우리의 코드와 벤치마크는 향후 연구를 촉진하기 위해 커뮤니티에 공개될 것입니다. 프로젝트 페이지: https://usc-gvl.github.io/SkillBlender-web/.
테스트 시간 스케일링은 추론 시 추가적인 계산 자원을 활용하여 언어 모델의 성능을 향상시키는 효과적인 접근법으로 부상했다. 최근 연구들은 사고 종료 토큰을 재정의함으로써(예: "</think>"를 "Wait"로 대체) 추론 단계를 연장하고 정확도를 개선할 수 있음을 보여주었다. 본 연구에서는 전용의 계속 사고 토큰을 학습시켜 확장된 추론을 유발할 수 있는지 탐구한다. 우리는 DeepSeek-R1의 증류 버전에 단일 학습된 "<|continue-thinking|>" 토큰을 추가하고, 모델 가중치는 고정한 채로 강화 학습을 통해 해당 토큰의 임베딩만을 학습시켰다. 실험 결과, 이 학습된 토큰은 기준 모델 및 고정 토큰(예: "Wait")을 사용한 테스트 시간 스케일링 접근법과 비교하여 표준 수학 벤치마크에서 향상된 정확도를 달성했다. 특히, 고정 토큰 접근법이 기준 모델의 정확도를 개선하는 경우, 우리의 방법은 더 큰 개선을 보였다. 예를 들어, GSM8K 벤치마크에서 고정 토큰 접근법은 정확도에서 1.3%의 절대적 개선을 가져왔으나, 학습된 토큰 방법은 예산 강제를 사용하지 않는 기준 모델 대비 4.2%의 개선을 달성했다.
대규모 언어 모델(LLMs)이 일상적 및 고위험 영역에서 안정적으로 활용되기 위해서는, 올바르게 답변하는 것만큼이나 언제 답변하지 않아야 하는지를 아는 것이 중요합니다. 현실 세계의 사용자 질문은 불완전하게 명시되거나, 잘못 제기되거나, 근본적으로 답변할 수 없는 경우가 많기 때문에, LLMs는 불확실성에 대해 추론하고 선택적으로 자제(즉, 명확히 답변하지 않기)할 수 있어야 합니다. 그러나 자제에 대한 연구는 여전히 부족하며, 현대 LLMs를 체계적으로 평가할 수 있는 프레임워크가 마련되어 있지 않습니다. 본 연구에서는 AbstentionBench를 소개합니다. 이는 알려지지 않은 답변, 불완전한 명세, 잘못된 전제, 주관적 해석, 그리고 구식 정보를 포함한 20가지 다양한 데이터셋에 걸쳐 자제를 종합적으로 평가하기 위한 대규모 벤치마크입니다. 20개의 최신 LLMs를 평가한 결과, 자제는 아직 해결되지 않은 문제이며, 모델 규모 확장이 거의 도움이 되지 않는 것으로 나타났습니다. 최근 추론 LLMs가 복잡한 문제 해결에서 인상적인 성과를 보였음에도 불구하고, 놀랍게도 추론 미세 조정은 자제 능력을 저하시키는 것으로 나타났습니다(평균 24% 감소). 이는 추론 모델이 명시적으로 훈련된 수학 및 과학 영역에서도 마찬가지였습니다. 신중하게 설계된 시스템 프롬프트가 실제로 자제를 개선할 수는 있지만, 모델의 불확실성에 대한 근본적인 추론 능력 부족을 해결하지는 못하는 것으로 나타났습니다. 우리는 LLM 신뢰성 향상을 위한 연구를 촉진하기 위해 AbstentionBench를 공개합니다.
레이블이 없는 데이터셋만을 사용하여 ASR 성능을 향상시키는 자가 정제 프레임워크를 제안한다. 이 과정은 기존 ASR 모델이 레이블이 없는 음성 데이터에 대해 의사 레이블(pseudo-label)을 생성하는 것으로 시작하며, 이 의사 레이블은 고품질 텍스트-투-스피치(TTS) 시스템을 학습하는 데 사용된다. 이후, 합성된 음성-텍스트 쌍이 원래 ASR 시스템에 부트스트랩되어 폐쇄형 자가 개선 사이클을 완성한다. 본 프레임워크의 효과를 대만 표준 중국어 음성 데이터를 통해 입증하였다. 6,000시간 분량의 레이블 없는 음성 데이터, 적당량의 텍스트 데이터, 그리고 AI 모델에서 생성된 합성 콘텐츠를 활용하여 Whisper-large-v2를 특화된 모델인 Twister로 적응시켰다. Twister는 Whisper 대비 중국어에서 최대 20%, 중국어-영어 코드 스위칭 벤치마크에서 최대 50%의 오류율 감소를 달성하였다. 이러한 결과는 본 프레임워크가 의사 레이블링 자기 증류(self-distillation) 접근법에 대한 강력한 대안임을 보여주며, 저자원 또는 도메인 특화 환경에서 ASR 성능을 개선하기 위한 실용적인 경로를 제공한다.
본 연구는 텍스트 인코더의 한계점에 주목합니다: 임베딩이 의미론 내에서 세밀한 개체나 사건을 인식하지 못해, 단순한 경우에도 밀집 검색(dense retrieval)이 실패할 수 있다는 점입니다. 이러한 현상을 조사하기 위해, 우리는 먼저 중국어로 된 새로운 평가 데이터셋인 CapRetrieval을 소개합니다. 이 데이터셋의 문단은 이미지 캡션이며, 쿼리는 다양한 형태로 개체나 사건을 질의하는 구문들로 구성됩니다. 제로샷(zero-shot) 평가 결과, 인코더는 학습 데이터 소스나 모델 크기와 관계없이 이러한 세밀한 매칭에서 실패할 수 있음이 나타났습니다. 이를 개선하기 위해, 우리는 제안된 데이터 생성 전략을 통해 인코더를 미세 조정(finetune)하였고, 이는 CapRetrieval에서 최고의 성능을 달성했습니다. 이 과정에서 우리는 세밀성 딜레마(granularity dilemma)라는 문제를 추가로 발견했습니다. 이는 임베딩이 전체 의미론과 일치하면서도 세밀한 중요성을 표현해야 하는 과제입니다. 본 연구의 데이터셋, 코드 및 모델은 https://github.com/lxucs/CapRetrieval에서 공개되었습니다.
최근 멀티모달 대형 언어 모델(MLLM)을 GUI 에이전트로 활용하려는 시도가 유망한 결과를 보여주고 있습니다. 그러나 이러한 에이전트들은 여전히 온라인 환경에서 장기적인 작업을 수행하는 데 어려움을 겪고 있으며, 이는 주로 지식 부족과 오프라인 및 온라인 도메인 간의 고유한 간극 때문입니다. 본 논문에서는 인간이 개방형 환경에서 지식을 일반화하는 방식에서 영감을 받아, 지식 부족 문제를 해결하기 위해 계층적 멀티모달 스킬(HMS) 모듈을 제안합니다. 이 모듈은 궤적을 실행 스킬, 핵심 스킬, 그리고 궁극적으로 메타 스킬로 점진적으로 추상화하여 장기적인 작업 계획을 위한 계층적 지식 구조를 제공합니다. 도메인 간 간극을 해소하기 위해, 오프라인 환경에서 습득한 스킬을 효율적으로 활용하여 온라인 트리 탐색 중 액션 검색 공간을 줄이는 스킬-증강 몬테카를로 트리 탐색(SA-MCTS) 알고리즘을 제안합니다. HMS를 기반으로, 우리는 멀티모달, 크로스 플랫폼, 플러그 앤 플레이 GUI 에이전트인 Mirage-1을 제안합니다. Mirage-1의 실세계 장기 시나리오에서의 성능을 검증하기 위해 새로운 벤치마크인 AndroidLH를 구축했습니다. 실험 결과, Mirage-1은 AndroidWorld, MobileMiniWob++, Mind2Web-Live, 그리고 AndroidLH에서 각각 32%, 19%, 15%, 79%의 성능 향상을 보였습니다. 프로젝트 페이지: https://cybertronagent.github.io/Mirage-1.github.io/
대형 언어 모델(LLMs)은 실제 응용 프로그램에서 강력한 성능을 보여주지만, 기존의 오픈소스 명령어 데이터셋은 수학이나 코딩과 같은 좁은 영역에 집중되어 있어 일반화를 제한하고 독점 모델과의 격차를 더욱 벌리고 있다. 이러한 격차를 해소하기 위해, 우리는 두 단계 파이프라인을 통해 LLMs의 기초 및 채팅 능력을 향상시키기 위해 설계된 고품질 명령어 데이터셋인 Infinity-Instruct를 소개한다. 1단계에서는 하이브리드 데이터 선택 기술을 사용하여 1억 개 이상의 샘플 중에서 740만 개의 고품질 기초 명령어(InfInstruct-F-7.4M)를 선별한다. 2단계에서는 명령어 선택, 진화 및 진단 필터링을 포함한 두 단계 프로세스를 통해 150만 개의 고품질 채팅 명령어(InfInstruct-G-1.5M)를 합성한다. 우리는 Mistral, LLaMA, Qwen, Yi 등 여러 오픈소스 모델을 미세 조정하여 Infinity-Instruct를 실증적으로 평가하고, 기초 및 명령어 수행 벤치마크에서 상당한 성능 향상을 관찰하며, 공식적으로 명령어 조정된 모델들을 일관적으로 능가하는 결과를 얻었다. 특히, InfInstruct-LLaMA3.1-70B는 명령어 수행 작업에서 GPT-4-0314를 8.6% 앞서며, 기초 성능에서도 비슷한 수준을 달성했다. 이러한 결과는 기초 및 채팅 훈련 간의 시너지를 강조하며, 전체적인 LLM 개발에 대한 새로운 통찰을 제공한다. 우리의 데이터셋(https://huggingface.co/datasets/BAAI/Infinity-Instruct)과 코드(https://gitee.com/li-touch/infinity-instruct)는 공개적으로 제공되었다.
유해한 밈을 탐지하는 것은 온라인 환경의 무결성을 유지하는 데 필수적입니다. 그러나 현재의 접근 방식들은 자원 효율성, 유연성 또는 설명 가능성 측면에서 어려움을 겪으며, 콘텐츠 관리 시스템에서의 실질적인 배포를 제한하고 있습니다. 이러한 문제를 해결하기 위해, 우리는 유해한 밈 탐지를 위한 새로운 프레임워크인 U-CoT+를 소개합니다. 다중 모달 모델의 프롬프팅이나 미세 조정에만 의존하는 대신, 우리는 먼저 시각적 밈을 세부 사항을 보존하는 텍스트 설명으로 변환하는 고품질의 밈-텍스트 파이프라인을 개발합니다. 이 설계는 밈 해석과 밈 분류를 분리함으로써 복잡한 원시 시각적 콘텐츠에 대한 즉각적인 추론을 피하고, 일반적인 대규모 언어 모델(LLM)을 사용하여 자원 효율적인 유해 밈 탐지를 가능하게 합니다. 이러한 텍스트 설명을 기반으로, 우리는 추가적으로 대상화된, 해석 가능한 인간이 작성한 지침을 통합하여 제로샷 CoT 프롬프팅 하에서 모델의 추론을 안내합니다. 이 프레임워크는 플랫폼, 지역, 시간에 걸쳐 다양한 유해성 탐지 기준에 쉽게 적응할 수 있도록 하여 높은 유연성과 설명 가능성을 제공합니다. 7개의 벤치마크 데이터셋에 대한 광범위한 실험을 통해 우리 프레임워크의 효과성을 검증하였으며, 소규모 LLM을 사용한 설명 가능하고 저자원 유해 밈 탐지의 잠재력을 강조합니다. 코드와 데이터는 https://anonymous.4open.science/r/HMC-AF2B/README.md에서 확인할 수 있습니다.
대규모 언어 모델(LLMs)을 통해 코딩 작업을 해결하기 위한 표준 패러다임은 프로그램을 생성한 후 순위를 매기는 방식으로, 후자의 단계에서는 검증기를 사용하여 순위를 매깁니다. 현재의 일반적인 견해는 가능한 경우 결과 보상 모델(ORM)보다는 포괄적인 검증기(예: 전체 테스트 스위트)를 우선시해야 한다는 것이며, 이 과정에서 발생하는 트레이드오프는 거의 고려되지 않습니다. 우리는 이러한 가정에 도전하기 위해 속도와 정확성 사이의 트레이드오프를 체계적으로 탐구하고자 합니다. 우리는 ORM이 정확성을 속도와 교환함으로써 검증을 확장하는 데 중요한 역할을 한다는 것을 발견했으며, 이는 포괄적인 검증기가 사용 가능한 경우에도 마찬가지입니다. ORM의 가치는 특히 생성-제거-후-순위 매기기 접근법에서 두드러지는데, 이 접근법에서는 더 빠르지만 덜 정확한 검증기가 순위를 매기기 전에 잘못된 해결책을 제거함으로써 전체 테스트 스위트보다 11.65배 빠르면서도 정확도는 단 8.33%만 낮은 시스템을 구현할 수 있습니다. 우리는 생성-제거-후-순위 매기기 접근법을 분석하고, 이 방법이 잘못되었지만 높은 순위를 받은 해결책을 필터링함으로써 작동한다는 것을 보여줍니다. 이러한 발견은 확장 가능하고 정확한 프로그램 순위 매기기 시스템을 설계하는 데 기여합니다.
우리는 학습된 이진 어텐션 마스크를 사용하여 예측에 영향을 미치는 영역을 오직 어텐션이 적용된 이미지 영역으로 제한하는 어텐션 기반 방법을 소개한다. 컨텍스트는 객체 인식에 강력한 영향을 미칠 수 있으며, 특히 객체가 분포 외 배경에 나타날 때 편향된 표현을 초래할 수 있다. 동시에, 많은 이미지 수준의 객체 중심 작업은 관련 영역을 식별해야 하며, 이는 종종 컨텍스트를 필요로 한다. 이러한 딜레마를 해결하기 위해, 우리는 두 단계 프레임워크를 제안한다: 첫 번째 단계는 전체 이미지를 처리하여 객체 부분을 발견하고 작업 관련 영역을 식별하며, 두 번째 단계는 입력 어텐션 마스킹을 활용하여 수용 영역을 이러한 영역으로 제한함으로써 잠재적으로 잘못된 정보를 걸러내고 집중적인 분석을 가능하게 한다. 두 단계는 공동으로 학습되어 두 번째 단계가 첫 번째 단계를 개선할 수 있도록 한다. 다양한 벤치마크에서의 광범위한 실험을 통해 우리의 접근법이 잘못된 상관관계와 분포 외 배경에 대한 견고성을 크게 향상시킨다는 것을 입증한다.
최근 대형 언어 모델(LLMs)은 데이터 주석 작업에서 상당한 잠재력을 보여주며, 다운스트림 애플리케이션과 관련된 노동 비용을 현저히 줄이고 있습니다. 그러나 기존 방법들은 대부분 공격적인 전략을 채택하여 LLM이 각각의 레이블이 없는 샘플에 대해 단일 골드 레이블을 결정하도록 유도합니다. LLM 내재된 불확실성으로 인해, 어려운 샘플에 대해 종종 잘못된 레이블을 생성하여 다운스트림 애플리케이션의 데이터 품질을 심각하게 저하시킵니다. 인간 행동에서의 모호성 회피 현상에 동기를 받아, 우리는 불확실성이 발생할 때 대형 언어 모델이 가능한 모든 레이블을 출력하도록 유도하는 새로운 후보 주석 패러다임을 제안합니다. 다운스트림 작업을 위해 고유한 레이블을 제공하기 위해, 우리는 소형 언어 모델(SLM)을 사용하여 후보 주석을 정제하는 교사-학생 프레임워크인 CanDist를 개발했습니다. 또한, 교사 LLM으로부터 후보 주석을 정제하는 것이 단일 주석을 직접 사용하는 것보다 우수한 이론적 보장을 제공한다는 엄밀한 근거를 제시합니다. 여섯 가지 텍스트 분류 작업에 걸친 광범위한 실험을 통해 우리가 제안한 방법의 효과성을 검증했습니다. 소스 코드는 https://github.com/MingxuanXia/CanDist에서 확인할 수 있습니다.
인공지능 정렬을 위한 인간 피드백 모델, 예를 들어 직접 선호 최적화(Direct Preference Optimization, DPO)를 기반으로 하는 모델들은 종종 단일적이고 정적인 선호 집합을 내포함으로써 적응성을 제한한다. 본 논문은 이러한 단일적 선호 가정에 도전하며, 언어 모델이 명시적이고 인간이 해석 가능한 지시에 따라 동적으로 행동을 조정할 수 있는 능력을 부여하는 새로운 프레임워크인 구성 가능 선호 조정(Configurable Preference Tuning, CPT)을 소개한다. CPT는 원하는 속성(예: 글쓰기 스타일)을 정의하는 구조화되고 세분화된 루브릭에서 도출된 시스템 프롬프트에 조건화된 합성 선호 데이터를 활용한다. 이러한 루브릭 기반 선호를 통해 미세 조정함으로써, 대형 언어 모델(LLM)은 재학습 없이도 추론 시 시스템 프롬프트에 따라 출력을 조절하는 방법을 학습한다. 이 접근법은 세밀한 제어를 제공할 뿐만 아니라, 더욱 세밀하고 문맥 의존적인 인간 피드백을 모델링하는 메커니즘을 제공한다. 학습 코드, 생성된 데이터셋, 미세 조정된 모델과 같은 여러 실험 결과물은 https://github.com/vicgalle/configurable-preference-tuning에서 공개되었다.