일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 |
- 백준
- 코드업
- springboot
- 로드밸런서
- gcp
- Spring Data JPA
- Spring
- 자료구조
- 스프링부트
- 스프링
- 클라우드
- Elasticsearch
- 클라우드 컴퓨팅
- 스프링 부트
- DFS
- 쿠버네티스
- Docker
- Spring Boot
- 프로그래밍문제
- aws
- 머신러닝
- 카프카
- 오일러프로젝트
- VPC
- Apache Kafka
- 알고리즘
- JPA
- 개발
- 백트래킹
- Kafka
- Today
- Total
목록MachineLearning (6)
GW LABS

서론최근 LLM(Large Language Model)의 경량화 버전인 sLLM(Small Language Model) 이 빠르게 주목받고 있습니다. 거대한 모델을 직접 서빙하기 어려운 환경에서는 sLLM과 같은 소형 모델을 적절히 파인튜닝해 활용하는 것이 매우 유효한 전략입니다. 본 포스팅에서는 Gemma3 270M 모델을 활용하여 LoRA 기반 파인튜닝을 진행하고, 학습된 PyTorch 모델을 TensorFlow Lite 변환 후 Mediapipe 기반 Edge Device 서빙까지 이어지는 전체 워크플로우를 정리합니다. 이 글은 실무 환경에서 sLLM을 파인튜닝하거나 모바일·엣지 디바이스에 배포하려는 개발자에게 최적화된 가이드를 제공합니다. 본론1. Gemma3 270M과 sLLM 파인튜닝Gem..

서론XGBoost는 분류 문제뿐 아니라 회귀 문제에서도 강력한 성능을 발휘하는 알고리즘입니다. 특히 비선형 데이터, 결측치 처리, 대용량 데이터셋에 효과적이라는 장점이 있습니다. 그러나 회귀 문제에서는 단순히 reg:squarederror 같은 기본 Objective만 사용하는 경우가 많습니다. 실제로 데이터의 분포와 목적에 맞춰 Objective를 선택하고, 적절한 하이퍼파라미터를 조정하면 모델의 성능을 극대화할 수 있습니다. 이번 글에서는 XGBoost 회귀(Objective function) 활용법, RMSE와 MAE의 차이, Tweedie, Gamma 분포 회귀 적용법, 그리고 주요 하이퍼파라미터 튜닝 방법을 정리하겠습니다. 본론1. XGBoost 회귀 Objective와 평가 지표 선택XGB..

지난 포스팅 Text Summarization (1) - TextRank 알고리즘 Text Summarization (2) - Sequence to Sequence 이전 문장요약 포스팅들에서 TextRank를 이용한 알고리즘과 Sequence to Sequence 모델을 활용하는 방법을 알아보았다. 이번 포스팅에서는 전이학습(Transfer Learning)을 이용하여 문장요약을 수행하는 방법을 알아볼 것이다. 전이학습 또한 이전 포스팅과 같이 딥러닝 모델이다. 어떤 부분에서 개선이 있을 수 있는지 알아보자. 1. Transfer Learning 전이학습(Transfer Learning)은 이미 학습시켜놓은 모델을 가져와서 비슷한 문제를 변형시켜 학습하는 기법을 말한다. 예를 들어 이미지를 분류하는 작업..

지난 포스팅 Text Summarization (1) - TextRank 알고리즘 지난 포스팅에서는 TextRank 알고리즘을 통해 머신러닝을 사용하지 않고 텍스트를 요약할 수 있는 방법을 알아봤다. 이번 포스팅에서는 딥러닝을 사용해서 문서를 요약하는 방법을 알아볼 것이다. 완전한 이해를 위해서는 방대한 선행지식이 필요하지만, 여기에서는 코드를 실행시켜보면서 어떤 방식으로 동작하는지 흐름을 파악해보자. 선행지식들을 배울 수 있는 곳들은 링크를 통해 남겨두겠다. 1. RNN(Recurrent Neural Network) 순환신경망(Recurrent Neural Network)는 인공신경망의 일종으로, 일렬로 늘어선 데이터, 시퀀스 데이터의 패턴을 학습하기 위해 고안되었다. 일렬로 늘어선 데이터들엔 어떤 것..

문서를 요약하는 작업은 사람에게도 꾀 벅찬 작업이다. 문서의 정보손실을 최소화하면서 텍스트의 길이를 줄여야하기 때문에 우리는 문서를 요약할 때 문서에 없던 단어를 사용하기도하고, 자신만의 문체가 들어가기도 한다. 이런 문서요약 작업을 컴퓨터에게 시킬순 없을까? 시리즈로 문서요약 작업에 대해 알아보자! 1. 문서 요약의 종류 자동으로 문서를 요약할 때 보통 두 가지의 접근방법이 있다. 하나는 추출적 요약(extractive summarization)과 다른 하나는 추상적 요약(abstractive summarization)이다. 추출적 요약의 경우에는 본문에 존재하는 문장 중에서 중요한 문장을 추출하여 문서를 요약하는 기법이다. 추상적 요약은 사람이 문서를 요약하듯이 요약하는 방법이다. 따라서 문서에 없던..

그 동안 머신러닝을 공부해온 지식들을 바탕으로 '에너지 빅데이터 활용 데이터 사이언스 대회'에 참가했다. 대회 문제는 인천 지역의 상가 및 주택들의 시간별 전기 사용량 데이터들이 주어지고, 이를 활용해 미래의 전기 사용량을 예측하는 전형적인 시계열 데이터 문제였다. 대회결과는 private score 37위를 달성했다. 실험해 볼 아이디어들이 많이 남아있는 상태에서 시간관리를 하지 못한 부분이 많이 아쉬움이 남지만, 대회를 통해서 값진 노하우들을 얻을 수 있었다. 사용했던 코드를 업로드하니, 데이터 사이언스 대회에 참가하려는 독자 여러분께 도움이 되었으면 한다. 1. 문제이해 시계열 데이터를 이용한 예축 문제의 경우 전형적인 회귀문제이다. 그런데 주어지는 변수는 시간과 시간에 따른 타깃 값밖에 없다. 전..