번역이 포함된 일일 선별된 AI 연구 논문
검증 가능한 보상을 활용한 강화 학습(Reinforcement Learning with Verifiable Rewards, RLVR)은 최근 LLM(대형 언어 모델)의 수학 및 프로그래밍 과제에서의 추론 능력을 향상시키는 데 있어 주목할 만한 성과를 보여주었습니다. 일반적으로 RLVR은 LLM이 지속적으로 자기 개선을 통해 기본 모델의 능력을 뛰어넘는 새로운 추론 능력을 획득할 수 있게 한다고 여겨집니다. 그러나 본 연구에서는 이러한 가정을 비판적으로 재검토하기 위해, 다양한 모델 패밀리와 벤치마크에 걸쳐 모델의 추론 능력 한계를 탐구하기 위해 큰 k 값으로 pass@k 지표를 측정했습니다. 놀랍게도, 강화 학습은 근본적으로 새로운 추론 패턴을 이끌어내지 못했습니다. 강화 학습으로 훈련된 모델은 작은 k 값(예: k=1)에서 기본 모델을 능가하지만, 큰 k 값에서는 기본 모델이 강화 학습 모델과 비슷하거나 더 높은 pass@k 점수를 달성할 수 있었습니다. 강화 학습 모델이 생성한 추론 경로는 이미 기본 모델의 샘플링 분포에 포함되어 있으며, 이는 강화 학습 모델에서 나타나는 대부분의 추론 능력이 기본 모델에서 이미 획득된 것임을 시사합니다. 추가 분석에 따르면, 강화 학습 훈련은 모델의 출력 분포를 보상 확률이 높은 경로로 편향시켜 성능을 향상시키지만, 이는 기본 모델에 비해 더 좁은 추론 능력 한계를 초래합니다. RLVR로 훈련된 시각적 추론 과제에서도 유사한 결과가 관찰되었습니다. 또한, 증류(distillation)는 RLVR과 달리 모델에 진정으로 새로운 지식을 도입할 수 있음을 발견했습니다. 이러한 결과는 LLM의 추론 능력을 발전시키는 데 있어 RLVR의 중요한 한계를 강조하며, 추론 LLM에서의 강화 학습 훈련의 영향과 더 나은 패러다임의 필요성을 근본적으로 재고할 것을 요구합니다. 프로젝트 페이지: https://limit-of-RLVR.github.io
검색 강화 생성(Retrieval-augmented generation, RAG)은 대규모 언어 모델이 외부 및 개인 코퍼스에 접근할 수 있도록 하여 특정 도메인에서 사실적으로 일관된 응답을 가능하게 합니다. 그래프 기반 RAG 방법은 코퍼스의 내재적 구조를 활용하여 지식 그래프 인덱스를 구축하고 그래프의 구조적 특성을 활용함으로써 이 과정을 더욱 풍부하게 합니다. 그러나 현재의 그래프 기반 RAG 접근법은 그래프 구조 설계에 거의 주의를 기울이지 않습니다. 부적절하게 설계된 그래프는 다양한 그래프 알고리즘의 원활한 통합을 방해할 뿐만 아니라 워크플로우의 불일치와 성능 저하를 초래합니다. 그래프의 잠재력을 RAG에서 더욱 발휘하기 위해, 우리는 NodeRAG를 제안합니다. 이는 그래프 중심의 프레임워크로, 이종 그래프 구조를 도입하여 그래프 기반 방법론을 RAG 워크플로우에 원활하고 전체적으로 통합할 수 있게 합니다. 이 프레임워크는 LLM의 기능과 긴밀하게 조율되어 완전히 통합되고 효율적인 엔드투엔드 프로세스를 보장합니다. 광범위한 실험을 통해, 우리는 NodeRAG가 인덱싱 시간, 쿼리 시간, 저장 효율성뿐만 아니라 멀티홉 벤치마크와 최소 검색 토큰을 사용한 개방형 헤드투헤드 평가에서도 이전의 GraphRAG 및 LightRAG 방법보다 우수한 질문-응답 성능을 보인다는 것을 입증했습니다. 우리의 GitHub 저장소는 https://github.com/Terry-Xu-666/NodeRAG에서 확인할 수 있습니다.
데이터 품질과 다양성은 효과적인 지시 튜닝 데이터셋 구축의 핵심 요소입니다. 오픈소스 지시 튜닝 데이터셋의 가용성이 증가함에 따라, 방대한 양의 데이터에서 고품질이고 다양한 부분집합을 자동으로 선택하는 것이 유리합니다. 기존 방법들은 일반적으로 인스턴스 품질을 우선시하고 휴리스틱 규칙을 사용하여 다양성을 유지합니다. 그러나 이러한 방식은 전체 데이터셋에 대한 포괄적인 관점이 부족하여 종종 차선의 결과를 초래합니다. 또한, 휴리스틱 규칙은 일반적으로 임베딩 공간 내의 거리나 클러스터링에 초점을 맞추는데, 이는 복잡한 지시문의 의도를 의미 공간에서 정확히 포착하지 못합니다. 이러한 격차를 해소하기 위해, 우리는 데이터셋의 정보 내용을 정량화하는 통합 방법을 제안합니다. 이 방법은 레이블 그래프를 구성하여 의미 공간을 모델링하고, 그래프 내 정보 분포를 기반으로 다양성을 정량화합니다. 이러한 측정을 바탕으로, 우리는 의미 공간에서 정보 이득(Maximize the Information Gain, MIG)을 극대화하기 위해 데이터 샘플을 반복적으로 선택하는 효율적인 샘플링 방법을 추가로 소개합니다. 다양한 데이터셋과 기본 모델에 대한 실험 결과, MIG는 최신 방법들을 지속적으로 능가하는 것으로 나타났습니다. 특히, MIG로 샘플링된 5%의 Tulu3 데이터로 미세 조정된 모델은 전체 데이터셋으로 학습된 공식 SFT 모델과 비슷한 성능을 달성하며, AlpacaEval에서 +5.73%, Wildbench에서 +6.89%의 성능 향상을 보였습니다.
기존 연구에 따르면, 대형 언어 모델은 상당한 "영어 편향"을 보이며, 즉 영어로 제시된 작업에서 더 나은 성능을 보이는 경향이 있습니다. 흥미롭게도, 우리는 추론 작업에서 특정 다른 언어를 사용할 경우 영어보다 더 나은 성능을 보이는 현상을 관찰했습니다. 그러나 이 현상은 아직 충분히 탐구되지 않았습니다. 본 논문에서는 추론 작업에서 다국어 활용의 상한선을 탐구하며, 다국어 추론이 영어만 사용한 추론보다 상당히(약 10 Acc@k 포인트) 그리고 견고하게(번역 품질과 언어 선택의 변동에 대한 내성) 더 높은 상한선을 약속한다는 점을 제시합니다. 상한선의 원인과 이를 달성하는 데 있어서의 과제를 분석하는 것 외에도, 일반적인 답변 선택 방법이 그 한계와 편향으로 인해 이 상한선을 달성할 수 없다는 점을 발견했습니다. 이러한 통찰력은 LLM에서 다국어 추론의 잠재력을 완전히 활용하기 위한 미래 연구의 길을 열어줄 수 있습니다.
지상 및 항공 뷰가 혼합된 이미지의 기하학적 재구성 작업을 탐구합니다. 현재 최첨단 학습 기반 접근법은 항공-지상 이미지 쌍 간의 극단적인 시점 변화를 처리하지 못합니다. 우리는 이러한 실패의 주요 원인이 고품질의 동기화된 항공-지상 데이터셋의 부재라고 가정합니다. 이러한 데이터는 확장 가능한 방식으로 재구성하기 어렵기 때문에 수집하기가 어렵습니다. 이 문제를 극복하기 위해, 우리는 3D 도시 전체 메시(예: Google Earth)에서의 가상 합성 렌더링과 실제 지상 크라우드소싱 이미지(예: MegaDepth)를 결합한 확장 가능한 프레임워크를 제안합니다. 가상 합성 데이터는 다양한 항공 시점을 시뮬레이션하고, 실제 크라우드소싱 이미지는 메시 기반 렌더링이 충분한 디테일을 제공하지 못하는 지상 이미지의 시각적 충실도를 개선하여, 실제 이미지와 가상 합성 렌더링 간의 도메인 격차를 효과적으로 해소합니다. 이 하이브리드 데이터셋을 사용하여 여러 최첨단 알고리즘을 미세 조정하고, 실제 세계의 제로샷 항공-지상 작업에서 상당한 개선을 달성합니다. 예를 들어, 기준선 DUSt3R은 5도 이내의 카메라 회전 오차로 항공-지상 쌍의 5% 미만을 정확히 위치시키는 반면, 우리의 데이터로 미세 조정하면 정확도가 거의 56%로 향상되어, 큰 시점 변화를 처리하는 주요 실패 지점을 해결합니다. 카메라 추정 및 장면 재구성 외에도, 우리의 데이터셋은 도전적인 항공-지상 시나리오에서의 새로운 뷰 합성과 같은 하위 작업의 성능도 개선하여, 실제 응용 프로그램에서 우리 접근법의 실용적 가치를 입증합니다.
효율적이고 효과적인 아키텍처 백본 설계는 파운데이션 모델의 능력을 향상시키기 위한 연구 노력의 핵심이 되어 왔습니다. 인간의 인지 현상인 주의 편향(attentional bias) - 특정 사건이나 자극을 우선적으로 처리하는 자연스러운 경향 - 에 영감을 받아, 우리는 트랜스포머, 타이탄, 현대적인 선형 순환 신경망을 포함한 신경 아키텍처를 키와 값의 매핑을 학습하는 연관 메모리 모듈로 재개념화했습니다. 이때 내부 목표로 주의 편향을 사용합니다. 놀랍게도, 우리는 대부분의 기존 시퀀스 모델이 (1) 내적 유사성(dot-product similarity) 또는 (2) L2 회귀 목표를 주의 편향으로 활용하고 있음을 관찰했습니다. 이러한 목표를 넘어서서, 우리는 훈련 과정을 안정화하기 위한 효과적인 근사와 함께 대체 주의 편향 구성을 제시합니다. 그런 다음, 현대 딥러닝 아키텍처에서의 망각 메커니즘을 보유 정규화(retention regularization)의 한 형태로 재해석하여, 시퀀스 모델을 위한 새로운 망각 게이트(forget gate) 세트를 제공합니다. 이러한 통찰을 바탕으로, 우리는 (i) 연관 메모리 아키텍처, (ii) 주의 편향 목표, (iii) 보유 게이트, (iv) 메모리 학습 알고리즘의 네 가지 선택을 기반으로 딥러닝 아키텍처를 설계하는 일반 프레임워크인 Miras를 제시합니다. 우리는 기존의 선형 RNN의 성능을 넘어서면서도 빠르고 병렬화 가능한 훈련 과정을 유지하는 세 가지 새로운 시퀀스 모델 - Moneta, Yaad, Memora - 를 소개합니다. 우리의 실험은 Miras의 다양한 설계 선택이 각기 다른 강점을 가진 모델을 만들어냄을 보여줍니다. 예를 들어, Miras의 특정 인스턴스는 언어 모델링, 상식 추론, 회고 집중 작업과 같은 특수 작업에서 트랜스포머 및 기타 현대적인 선형 순환 모델을 능가하는 탁월한 성능을 달성합니다.
LLM의 지식 경계를 이해하는 것은 환각(hallucination)을 방지하기 위해 중요하지만, LLM의 지식 경계에 대한 연구는 주로 영어에 초점이 맞춰져 왔습니다. 본 연구에서는 다양한 언어로 알려진 질문과 알려지지 않은 질문을 처리할 때 LLM의 내부 표현을 탐구함으로써, LLM이 어떻게 다국어 간 지식 경계를 인식하는지 분석하는 첫 번째 연구를 제시합니다. 우리의 실험 연구는 세 가지 주요 발견을 보여줍니다: 1) LLM의 지식 경계 인식은 다양한 언어에서 중간에서 중상위 층에 인코딩됩니다. 2) 지식 경계 인식의 언어적 차이는 선형 구조를 따르며, 이는 훈련 없이도 언어 간 지식 경계 인식 능력을 효과적으로 전이할 수 있는 방법을 제안하는 동기가 되었습니다. 이를 통해 저자원 언어에서의 환각 위험을 줄이는 데 도움이 됩니다. 3) 이중 언어 질문 쌍 번역에 대한 미세 조정은 언어 간 지식 경계 인식을 더욱 향상시킵니다. 다국어 지식 경계 분석을 위한 표준 테스트베드가 부재한 상황에서, 우리는 세 가지 대표적인 유형의 지식 경계 데이터로 구성된 다국어 평가 도구를 구축했습니다. 우리의 코드와 데이터셋은 https://github.com/DAMO-NLP-SG/LLM-Multilingual-Knowledge-Boundaries에서 공개적으로 이용 가능합니다.
대형 언어 모델의 첫 번째 세대, 즉 생성형 AI의 '1막'(2020-2023)은 방대한 파라미터와 데이터 스케일링을 통해 놀라운 성과를 거두었지만, 지식 지연, 피상적 추론, 제한된 인지 과정 등 근본적인 한계를 보여주었습니다. 이 시기에는 프롬프트 엔지니어링이 AI와의 주요 인터페이스로 부상하며 자연어를 통한 대화 수준의 소통이 가능해졌습니다. 이제 우리는 '2막'(2024-현재)의 등장을 목격하고 있습니다. 이 단계에서 모델들은 잠재 공간 내의 지식 검색 시스템에서 테스트 타임 스케일링 기법을 통한 사고 구성 엔진으로 전환하고 있습니다. 이 새로운 패러다임은 언어 기반 사고를 통해 AI와 마음 수준의 연결을 구축합니다. 본 논문에서는 인지 엔지니어링의 개념적 기반을 명확히 하고, 이 순간이 그 발전에 있어 왜 중요한지를 설명합니다. 또한, 포괄적인 튜토리얼과 최적화된 구현을 통해 이러한 고급 접근법을 체계적으로 분해함으로써 인지 엔지니어링에 대한 접근을 민주화하고 모든 실무자가 AI의 두 번째 막에 참여할 수 있도록 합니다. 테스트 타임 스케일링에 관한 논문 컬렉션을 GitHub 저장소에서 정기적으로 업데이트하고 있습니다: https://github.com/GAIR-NLP/cognition-engineering
상충하는 가치를 포함한 고위험 딜레마를 탐색하는 것은 인간에게도 어려운 과제이며, AI에게는 더욱 그러하다. 그럼에도 불구하고, 대규모 언어 모델(LLM)의 추론 능력을 평가한 기존 연구는 일상적인 시나리오에 국한되어 있었다. 이러한 격차를 해소하기 위해, 본 연구는 먼저 CLASH(Character perspective-based LLM Assessments in Situations with High-stakes)를 소개한다. 이는 345개의 고위험 딜레마와 다양한 가치를 반영한 3,795개의 개별 관점으로 구성된 신중하게 선별된 데이터셋이다. 특히, 우리는 CLASH를 설계함에 있어 기존 연구에서 누락된 가치 기반 의사결정 과정의 중요한 측면을 연구할 수 있도록 하였다. 이는 의사결정의 양가성과 심리적 불편함을 이해하고, 등장인물의 관점에서 가치의 시간적 변화를 포착하는 것을 포함한다. 10개의 오픈 및 클로즈드 프론티어 모델을 벤치마킹함으로써, 우리는 몇 가지 주요 발견을 도출했다. (1) GPT-4o와 Claude-Sonnet과 같은 가장 강력한 모델들조차도 의사결정이 양가적이어야 하는 상황을 식별하는 데 있어 50% 미만의 정확도를 보였으며, 명확한 시나리오에서는 훨씬 더 나은 성능을 보였다. (2) LLM은 인간이 표시한 심리적 불편함을 합리적으로 예측하지만, 가치 변화를 포함한 관점을 충분히 이해하지 못해 복잡한 가치에 대한 추론이 필요함을 나타냈다. (3) 우리의 실험은 또한 LLM의 가치 선호도와 주어진 가치에 대한 조종 가능성 사이에 상당한 상관관계가 있음을 보여주었다. (4) 마지막으로, LLM은 제3자 관점에서 가치 추론을 수행할 때, 1인칭 설정에 비해 더 큰 조종 가능성을 보였으나, 특정 가치 쌍은 1인칭 프레임에서 독특한 이점을 얻었다.
장면 수준의 3D 생성은 멀티미디어 및 컴퓨터 그래픽 분야에서 중요한 전선을 이루고 있지만, 기존 접근법들은 제한된 객체 범주를 가지거나 인터랙티브 애플리케이션을 위한 편집 유연성이 부족한 문제를 안고 있습니다. 본 논문에서는 2D 이미지 생성과 3D 객체 생성 간의 격차를 메우고 구성적 정체성과 미적 장면 콘텐츠를 갖춘 고품질 장면을 제공하는 새로운 계층적 프레임워크인 HiScene을 제안합니다. 우리의 핵심 통찰은 장면을 등각 투영 하에서 계층적 "객체"로 취급하는 것으로, 방을 조작 가능한 항목으로 더 분해할 수 있는 복잡한 객체로 기능하게 합니다. 이 계층적 접근법은 2D 표현과 일치하면서도 구성적 구조를 유지하는 3D 콘텐츠를 생성할 수 있게 합니다. 각 분해된 인스턴스의 완전성과 공간적 정렬을 보장하기 위해, 우리는 객체 간의 오클루전과 그림자를 효과적으로 처리하는 비디오-디퓨전 기반의 아모달 완성 기술을 개발하고, 장면 내에서 공간적 일관성을 보장하기 위해 형태 사전 주입을 도입했습니다. 실험 결과는 우리의 방법이 물리적 타당성을 유지하고 사용자 입력과 정렬된 상태에서 인터랙티브 애플리케이션에 적합한 더 자연스러운 객체 배열과 완전한 객체 인스턴스를 생성함을 보여줍니다.
안개 제거 작업에는 전역적인 문맥 정보와 지역적인 세부 특징이 필수적입니다. 딥러닝 모델은 작고 저해상도의 이미지에서는 잘 작동하지만, GPU 메모리 제약으로 인해 크고 고해상도의 이미지에서는 어려움을 겪습니다. 이를 타협하기 위해 종종 이미지 슬라이싱이나 다운샘플링을 사용합니다. 전자는 전역 정보를 감소시키고, 후자는 고주파 세부 정보를 버리게 됩니다. 이러한 문제를 해결하기 위해, 우리는 DehazeXL을 제안합니다. 이는 전역 문맥과 지역 특징 추출을 효과적으로 균형 잡아, 주류 GPU 하드웨어에서 대형 이미지의 종단 간 모델링을 가능하게 합니다. 또한, 안개 제거 성능에서 전역 문맥 활용의 효율성을 평가하기 위해, 안개 제거 작업의 특성에 맞춘 시각적 귀속 방법을 설계했습니다. 마지막으로, 대형 이미지에서의 안개 제거를 위한 벤치마크 데이터셋이 부족함을 인식하고, 모델 학습과 테스트를 지원하기 위해 초고해상도 안개 제거 데이터셋(8KDehaze)을 개발했습니다. 이 데이터셋은 8192x8192 픽셀 크기의 10000쌍의 맑은 이미지와 안개 낀 원격 감지 이미지를 포함합니다. 광범위한 실험 결과, DehazeXL은 단 21GB의 메모리로 최대 10240x10240 픽셀의 이미지를 추론할 수 있으며, 평가된 모든 방법 중 최첨단 결과를 달성했습니다. 소스 코드와 실험 데이터셋은 https://github.com/CastleChen339/DehazeXL에서 확인할 수 있습니다.
최근 대규모 추론 모델(Large Reasoning Models, LRMs)의 발전은 테스트 시간 계산을 확장하여 다양한 작업에서 추론 능력을 향상시키는 효과를 입증했습니다. 그러나 LRMs는 일반적으로 "과도한 사고(overthinking)" 문제를 겪는데, 이는 모델이 성능 향상에 비해 상당히 중복된 추론 단계를 생성하는 현상을 말합니다. 기존 연구는 이러한 과도한 사고를 완화하기 위해 미세 조정(fine-tuning)에 의존하지만, 이는 추가 데이터, 비전통적인 학습 설정, 안전성 불일치 위험, 그리고 낮은 일반화 성능을 요구합니다. 우리는 실증적 분석을 통해 LRM의 중요한 행동 특성을 발견했습니다. 더 작은 모델에 의해 생성된 외부 사고 사슬(CoTs)을 사고 토큰(<think>과 </think>) 사이에 배치하면 모델이 더 적은 사고를 생성하도록 효과적으로 조작할 수 있습니다. 이러한 통찰을 바탕으로, 우리는 LRM이 불필요한 중간 단계를 우회하고 계산 비용을 크게 줄일 수 있도록 하는 간단하면서도 효율적인 파이프라인인 ThoughtMani를 제안합니다. 우리는 ThoughtMani의 유용성과 효율성을 검증하기 위해 광범위한 실험을 수행했습니다. 예를 들어, LiveBench/Code 데이터셋에서 QwQ-32B에 ThoughtMani를 적용했을 때, 원래의 성능을 유지하면서 출력 토큰 수를 약 30% 줄였으며, CoT 생성기의 오버헤드는 거의 없었습니다. 또한, ThoughtMani는 안전성 정렬을 평균 10% 향상시키는 것으로 나타났습니다. 모델 공급업체는 일반적으로 다양한 크기의 모델을 동시에 제공하므로, ThoughtMani는 실제 애플리케이션을 위해 더 효율적이고 접근 가능한 LRM을 구축하는 효과적인 방법을 제공합니다.
경제 전반에 걸친 AI 시스템의 광범위한 채택은 그 추론 비용을 상회하는 경제적 가치를 창출할 수 있는 능력에 달려 있습니다. 이러한 상충 관계를 평가하기 위해서는 성능과 비용을 모두 고려한 지표가 필요합니다. 우리는 정확도와 추론 비용을 결합하여 언어 모델을 평가하기 위해 생산 이론에 기반한 프레임워크를 제안합니다. 여기서 "통과 비용(cost-of-pass)"이란 올바른 해결책을 생성하는 데 드는 예상 금전적 비용을 의미합니다. 또한, "최적 통과 비용(frontier cost-of-pass)"을 사용 가능한 모델들 간에 달성 가능한 최소 통과 비용 또는 전문가를 고용하는 데 드는 대략적인 비용으로 정의합니다. 우리의 분석은 뚜렷한 경제적 통찰을 제공합니다. 첫째, 기본적인 정량적 작업에는 경량 모델이 가장 비용 효율적이며, 지식 집약적 작업에는 대형 모델이, 복잡한 정량적 문제에는 추론 모델이 더 높은 토큰당 비용에도 불구하고 적합합니다. 둘째, 지난해 동안 이 최적 통과 비용을 추적한 결과, 특히 복잡한 정량적 작업에서 비용이 몇 달마다 대략 절반으로 감소하는 등 상당한 진전이 있었음을 확인했습니다. 셋째, 이러한 진전을 주도한 주요 혁신을 추적하기 위해, 특정 모델 클래스가 없을 경우의 비용 효율성을 추정한 대안적 최적선(counterfactual frontiers)을 검토합니다. 이를 통해 경량 모델, 대형 모델, 추론 모델의 혁신이 각각 기본 정량적, 지식 집약적, 복잡한 정량적 작업에서 최적선을 밀어붙이는 데 필수적이었음을 발견했습니다. 마지막으로, 다수결 투표(majority voting)와 자기 개선(self-refinement)과 같은 일반적인 추론 시 기법들이 제공하는 비용 절감 효과를 평가한 결과, 이들의 한계 정확도 향상이 비용을 정당화하기는 어려운 것으로 나타났습니다. 우리의 연구 결과는 상호 보완적인 모델 수준의 혁신이 비용 효율성의 주요 동력임을 강조하며, 우리의 경제적 프레임워크는 이러한 진전을 측정하고 배포를 안내하는 원칙적인 도구를 제공합니다.
대형 비디오 언어 모델(LVLMs)의 최근 발전에도 불구하고, 이러한 모델들은 여전히 세밀한 시간적 이해에 어려움을 겪고, 환각(hallucination)을 일으키며, 심지어 단순한 비디오 질의응답 작업에서도 간단한 실수를 자주 저지릅니다. 이러한 문제들은 실제 애플리케이션에서 LVLMs의 안전하고 신뢰할 수 있는 배포에 상당한 도전을 제기합니다. 이러한 한계를 해결하기 위해, 우리는 LVLMs가 스스로의 오류로부터 학습할 수 있도록 하는 자기 정렬(self-alignment) 프레임워크를 제안합니다. 우리가 제안한 프레임워크는 먼저 선호되는 응답과 비선호되는 응답 쌍으로 구성된 훈련 데이터셋을 구축합니다. 여기서 비선호되는 응답은 부적절한 시공간적 이해, 동시 발생 개념 간의 허위 상관관계, 그리고 시각적 모달리티를 무시한 채 언어적 단서에 지나치게 의존하는 등 자주 발생하는 일반적인 오류 패턴을 반영하여 생성됩니다. 이러한 선호 및 비선호 응답 쌍을 통해 LVLMs의 자기 정렬을 촉진하기 위해, 우리는 Refined Regularized Preference Optimization (RRPO)이라는 새로운 선호 최적화 방법을 도입합니다. RRPO는 하위 시퀀스 수준의 정제된 보상과 토큰 단위의 KL 정규화를 활용하여 Direct Preference Optimization (DPO)의 한계를 해결합니다. 우리는 RRPO가 DPO에 비해 더 정확한 정렬과 더 안정적인 훈련을 달성함을 입증합니다. 우리의 실험과 분석은 비디오 환각, 짧은 및 긴 비디오 이해, 그리고 세밀한 시간적 추론을 포함한 다양한 비디오 작업에서 우리의 접근 방식의 효과성을 검증합니다.
언어 모델(Language Models, LMs)의 불확실성 정량화(Uncertainty Quantification, UQ)는 모델의 안전성과 신뢰성을 향상시키는 데 중요합니다. 평가에서는 종종 AUROC와 같은 성능 지표를 사용하여 UQ 방법(예: 음의 시퀀스 확률)이 작업 정확도 함수(예: ROUGE-L)와 얼마나 잘 상관관계를 보이는지 평가합니다. 본 논문에서는 일반적으로 사용되는 정확도 함수가 특정 UQ 방법의 성능을 과대평가함으로써 UQ 평가에 편향을 초래한다는 것을 보여줍니다. 우리는 어휘 기반 및 임베딩 기반 메트릭부터 LLM-as-a-judge 접근 방식에 이르기까지 7가지 정확도 함수를 4개의 데이터셋 x 4개의 모델 x 6가지 UQ 방법에 걸쳐 평가했습니다. 분석 결과, 이러한 정확도 함수의 오류에 존재하는 길이 편향이 UQ 방법의 길이 편향과 상호작용하여 UQ 평가를 왜곡하는 것으로 나타났습니다. 우리는 LLM-as-a-judge 접근 방식이 길이 편향이 가장 적은 선택지 중 하나이며, 따라서 이러한 편향을 완화할 수 있는 잠재적 해결책으로 식별했습니다.
저선량 CT에서 효과적인 노이즈 제거는 미세 구조와 저대비 병변을 강화하고 진단 오류를 방지하는 데 중요합니다. 지도 학습 방법은 제한된 짝지어진 데이터셋으로 어려움을 겪으며, 자기 지도 학습 접근법은 종종 다중 노이즈 이미지를 요구하고 U-Net과 같은 심층 네트워크에 의존하여 노이즈 제거 메커니즘에 대한 통찰을 거의 제공하지 않습니다. 이러한 문제를 해결하기 위해, 우리는 해석 가능한 자기 지도 단일 이미지 노이즈 제거 프레임워크인 Filter2Noise(F2N)를 제안합니다. 우리의 접근 방식은 경량 모듈을 통해 각 노이즈 입력에 적응하는 Attention-Guided Bilateral Filter를 도입하여 공간적으로 변하는 필터 매개변수를 예측하며, 이는 시각화되고 훈련 후 조정 가능하여 관심 영역에서 사용자 제어 노이즈 제거를 가능하게 합니다. 단일 이미지 훈련을 가능하게 하기 위해, 우리는 새로운 자기 지도 손실 함수와 함께 새로운 다운샘플링 셔플 전략을 도입하여 Noise2Noise 개념을 단일 이미지로 확장하고 공간적으로 상관된 노이즈를 해결합니다. Mayo Clinic 2016 저선량 CT 데이터셋에서 F2N은 선두 자기 지도 단일 이미지 방법(ZS-N2N)보다 4.59 dB PSNR로 우수한 성능을 보이며 투명성, 사용자 제어 및 매개변수 효율성을 개선했습니다. 이러한 특징은 정밀하고 해석 가능한 노이즈 감소가 필요한 의료 응용 프로그램에 주요 이점을 제공합니다. 우리의 코드는 https://github.com/sypsyp97/Filter2Noise.git에서 확인할 수 있습니다.