본문 바로가기

전체 글17

[Paper Review] Mamba: Linear-Time Sequence Modeling with Selective State Spaces Mamba: Linear-Time Sequence Modeling with Selective State Spaces, COLM2024를 리뷰합니다.AbstractTransformer의 근본적인 문제점, 바로 메모리와 시간 복잡도가 O(N^2)에 수렴한다는 것입니다.이런 효율적인 측면에서의 문제점 때문에 linear attention, gated convolution, SSM(structured state space model) 등 다양한 subquadratic-time 아키텍쳐(복잡도는 O(N^2)에서 O(n logn)또는 O(N)으로 수렴하도록 하는 구조)가 등장했습니다. 이 중 SSM은 이전 hidden layer에서 얼마나 정보를 가져올 것인지, 입력 값에서 정보를 얼마나 가져올 것인지, 최종 출력.. 2026. 3. 15.
[Paper Review] PPLLaVA: Varied Video Sequence Understanding With Prompt Guidance PPLLaVA: Varied Video Sequence Understanding With Prompt Guidance를 리뷰합니다.PPLLaVA는 기존 LLaVA, PLLaVA를 거쳐서 발전된 모델입니다.이 논문은 VideoLLM, 멀티모달입니다.LLaVA: Large Language and Vision Assistant단순 이미지 caption을 넘어서 instruction(지시)에 따라 이미지를 추론하는 패러다임을 제시했습니다.LLaVA의 본질은 Cross-attention 모듈을 제거하고, 시각 정보를 텍스트와 동일한 형태의 시퀀스로 취급하는 Sequence-Agnostic(sequence에 의존하지않는) 구조를 증명했다는 점입니다.1. Visual Instruction Tuning: 기존의 단순 .. 2026. 3. 10.
[Paper Review] DINOv2: Learning Robust Visual Features without Supervision DINOv2: Learning Robust Visual Features without Supervision을 리뷰합니다.AbstractionDINO라는 이름은 'Distillation with NO labels'에서 온 말입니다. 즉, teacher 모델의 출력을 student 모델이 따라가는 distillation 방식을 사용하는데, 정답 라벨 없이 학습을 할 수 있다는 것입니다.기존 DINO 모델의 경우는 transformer의 sequence 입력의 맨 앞에 위치하는 class(CLS) token을 사용합니다. 그래서 attention 과정에서 sequence의 정보를 요약하는 정보를 CLS token이 가지고 있게 됩니다. 예를 들어 이미지 하나가 고양이라고 했을 때, 벡터로 존재하는 이미지 pa.. 2026. 3. 9.
[Paper Review] Data Distillation Dataset Distillation을 리뷰합니다.Dataset Distillation은 본래 성분별 끓는점 차이를 이용해 물질을 분리하는 화학적 공정에서 착안하여, 이를 데이터셋 구축 과정에 적용한 개념입니다. 즉, 증류 과정처럼 파라미터 업데이트에 유효한 정보(informative components)만을 추출하여 압축된 합성 이미지(synthetic images)를 생성하면, 이것만으로도 원본 데이터셋 못지않은 성능을 달성할 수 있다는 것입니다.기존의 Network Distillation(Knowledge Distillation)이 앙상블된 Teacher 모델의 지식을 작은 Student 모델로 전이하는 '모델 압축' 기법이었다면, Dataset Distillation은 모델 구조는 고정한 채 대규.. 2026. 2. 16.
[Paper Review] GraLoRA: Granular Low-Rank Adaptation for Parameter-Efficient Fine-Tuning GraLoRA: Granular Low-Rank Adaptation for Parameter-Efficient Fine-Tuning에 대해 리뷰합니다.LoRA가 단순하고 효율적이라는 거에 대해 PEFT 측면에서 기여도가 높지만 근본적인 한계가 있습니다.bottleneck 구조에서 overfitting 문제가 있고 실험적으로 32~64 rank 정도에서만 좋은 성능을 보이지 그 이상으로 rank를 키우면 정확도가 정체되거나 오히려 감소하는 추세를 보이고 여전히 FFT의 성능에는 미치지 못한다는 문제가 있습니다.해당 논문에서는 이런 구조적인 문제가 LoRA의 bottleneck 구조에 있으며 서로 관련 없는 입력 채널 간의 gradient entanglement를 유발하고 gradient propogatio.. 2026. 2. 16.
[Paper Review] GLU Variants Improve Transformer GLU Variants Improve Transformer를 리뷰합니다.GLU Variants Improve Transformer를 소개하는 이유가 굉장히 명확합니다. 바로 이 논문을 기반으로 현재는 Transformer의 activation function의 trend가 바뀌었기 때문입니다.Original Transformer가 Attention Is All You Need 논문에 나온 Google Research 팀이 제안한 모델이며, Activation Function은 ReLU를 사용했습니다. 하지만 시간이 지날수록 Transformer 기반 모델들이 다른 Activation Function을 채택했으며 현재는 SwiGLU라는 activation function이 Trend로 자리잡은 상황입니다... 2026. 1. 22.