카테고리 보관물: IT&최신기술

TensorFlow 2.1 + Python 3.10.16 + CUDA 설치 가이드

TensorFlow 2.1을 Python 3.10.16 환경에서 설치하고 GPU 가속을 위한 CUDA와 cuDNN을 설정하는 방법을 다룹니다. 초보자도 쉽게 따라할 수 있도록 주요 개념을 설명하며, 코드 실행을 통해 설치 및 환경 설정 과정을 직접 확인할 수 있습니다.

저도, 처음 시작하면서 많은 시도 끝에 나름대로 정리를 해보았습니다.

TensorFlow란?

TensorFlow는 Google이 개발한 오픈소스 딥러닝 라이브러리로, 인공지능(AI) 모델을 학습하고 실행하는 데 사용됩니다. GPU를 지원하여 대규모 연산을 빠르게 처리할 수 있으며, TensorFlow 2.0 이후부터는 GPU와 CPU를 단일 패키지(tensorflow)로 통합해 설치가 간편해졌습니다.

  • GPU가 있는 환경: 자동으로 GPU를 사용합니다.
  • GPU가 없는 환경: CPU 모드로 실행됩니다.

단, TensorFlow는 특정 CUDA 및 cuDNN 버전이 필요하므로 설치 전에 호환성을 확인해야 합니다.

TensorFlow와 CUDA/cuDNN 호환성

TensorFlow 버전Python 버전CUDA 버전cuDNN 버전
TF 2.11Python ≥3.8, ≤3.10CUDA 11.2cuDNN 8.1
TF 2.10Python ≥3.7, ≤3.10CUDA 11.2cuDNN 8.1
TF 2.9Python ≥3.7, ≤3.10CUDA 11.2cuDNN 8.1
TF 2.8Python ≥3.7, ≤3.9CUDA 11.2cuDNN 8.1
TF 2.7Python ≥3.6, ≤3.9CUDA 11.2cuDNN 8.1
TF 2.6Python ≥3.6, ≤3.9CUDA 11.2cuDNN 8.1
TF 2.5Python ≥3.6, ≤3.9CUDA 11.2cuDNN 8.x
TF 2.4Python ≥3.6, ≤3.9CUDA 11.0cuDNN 8.x

참고: 이 글에서는 TensorFlow 2.10을 기준으로 진행하며, Python 3.10과 CUDA 11.2, cuDNN 8.1을 사용합니다. 최신 CUDA(예: 12.x)는 공식 지원되지 않으니 주의하세요.

새로운 conda 환경 부터 설치합니다

아래는 conda와 pip를 활용해 TensorFlow 2.10과 GPU 환경을 설정하는 단계입니다. (※ anaconda 설치 필수!)

1. 새로운 conda 환경 생성 (Python 3.10.16)

conda create -n tf21_p31016 python=3.10.16 -y

2. 환경 활성화

conda activate tf21_p31016 
conda_activate_py31016

3. NVIDIA 드라이버 확인

Stable Diffusion을 GPU에서 실행하려면 NVIDIA 드라이버가 설치되어 있어야 합니다. 먼저 드라이버가 정상적으로 동작하는지 확인하세요.

nvidia-smi

정상적으로 GPU 정보가 출력되면 다음 단계로 이동합니다.

nvidia-smi
conda install -c conda-forge cudatoolkit=11.2 cudnn=8.1 -y
conda_install_cudatoolkit_cudnn

4. TensorFlow 2.10 및 함께 사용할 필수 라이브러리 설치

TensorFlow 2.10과 호환되는 NumPy, Matplotlib, pandas 버전을 고려해야 합니다. 각 라이브러리에 대한 간단한 설명과 호환성 최적화 버전으로 설치방법을 안내해 드립니다.

NumPy: 데이터를 수학적으로 다루는 데 필수적인 라이브러리입니다. 예를 들어, 인공지능 모델의 입력 데이터를 행렬 형태로 표현하고, 연산을 수행할 때 활용됩니다.

import numpy as np

# 3x3 행렬 생성
matrix = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print("NumPy 행렬:")
print(matrix)

실행 결과

NumPy 행렬:
[[1 2 3]
[4 5 6]
[7 8 9]]

Pandas: 데이터를 정리하고 분석하는 데 유용합니다. 실전 프로젝트에서는 CSV, 데이터베이스 등에서 데이터를 가져와 모델 학습을 위해 가공하는 과정이 필요합니다.

import pandas as pd

# 간단한 데이터 생성
data = {'이름': ['철수', '영희', '민수'], '점수': [85, 90, 78]}
df = pd.DataFrame(data)
print("Pandas 데이터프레임:")
print(df)

실행 결과

이름 점수
0 철수 85
1 영희 90
2 민수 78

Matplotlib: 데이터를 시각화하는 라이브러리입니다. 모델 학습 결과를 그래프로 표현하면 학습 진행 상황을 보다 쉽게 이해할 수 있습니다.

import matplotlib.pyplot as plt

# 데이터 준비
x = [1, 2, 3, 4, 5]
y = [10, 20, 25, 30, 50]

# 그래프 그리기
plt.plot(x, y, marker='o')
plt.xlabel('X 축')
plt.ylabel('Y 축')
plt.title('간단한 선 그래프')
plt.show()

실행 결과

데이터를 처리하고 분석하며, 그 결과를 시각적으로 확인하는 과정은 매우 중요합니다. 이를 위해서는 NumPy, Matplotlib, Pandas와 같은 패키지들의 호환 가능한 버전을 사용하는 것이 필수적입니다. 이러한 패키지들을 한 번에 설치하려면 다음 명령어를 사용할 수 있습니다.

pip install tensorflow==2.10.0 numpy==1.23.3 pandas==2.2.3

※참고 : 왜 pip를 사용할까?

  • pip는 TensorFlow 공식 배포 채널로, 최신 버전과 완전한 기능을 제공합니다.
  • conda 기본 채널은 업데이트가 느리거나 일부 기능이 제한될 수 있습니다.

좀더, 자세한 설명은 다음 링크를 참고하시면 좋습니다.

Conda 와 Pip 차이

이제 최종적으로 설치 확인 및 GPU 사용여부가 제대로 출력 되는지 확인 해볼까요?

5. 설치 확인 및 GPU 사용 여부 확인

python -c "import tensorflow as tf; print(tf.config.list_physical_devices('GPU'))"

GPU 장치 목록이 출력되면 정상적으로 설정된 것입니다.

※ 추가 : 만약 패키지 설치 중 에 다음과 같이 Build Tools for Visual Studio 에러가 발생한다면, Visual Studio 2022 Build Tools 를 추가 설치해야 합니다!

building library “npymath” sources
error: Microsoft Visual C++ 14.0 is required. Get it with “Build Tools for Visual Studio”: https://visualstudio.microsoft.com/downloads/ “

이러한 에러가 발생하면 다음 Visual Studio Build Tools 를 추가로 설치하세요.

6. TensorFlow 설치완료 여부 확인

import tensorflow as tf 
import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt

print("TensorFlow version:", tf.__version__) 
print("NumPy version:", np.__version__) 
print("Pandas version:", pd.__version__)
print('CUDA Available:', tf.test.is_built_with_cuda())"
print(tf.config.list_physical_devices('GPU'))"
print_gpu

축하합니다! 이제, ​Python 3.10.16 환경에서 TensorFlow 2.10과 CUDA 11.2가 정상적으로 동작하며, TensorFlow에서 GPU 가속을 활용하여 딥러닝 모델을 학습할 수 있습니다. ​

위의 스크립트를 실행하여 각 라이브러리의 버전을 확인하고, CUDA 사용 가능 여부와 GPU 장치 목록을 출력합니다. 모든 정보가 정상적으로 출력되면, TensorFlow와 관련된 라이브러리들이 올바르게 설치되었으며, GPU 가속을 활용할 수 있는 환경이 구축되었음을 의미합니다. 추가 질문이 있다면 댓글로 남겨주세요!

순환 신경망(RNN)

순환 신경망(RNN)의 기본 개념

**순환 신경망(RNN, Recurrent Neural Network)**은 **시퀀스 데이터(연속된 데이터)**를 처리하는 데 특화된 신경망입니다.

RNN의 핵심 아이디어는 이전 시점의 출력을 현재 시점의 입력으로 사용하는 것입니다. 즉, RNN은 과거의 정보를 기억하고 이를 바탕으로 다음 정보를 예측하는 방식으로 작동합니다. 이처럼 과거의 정보를 ‘순환’시켜 가면서 데이터의 흐름을 처리하는 구조를 가지고 있습니다.

예를 들어, “**오늘 서울의 날씨는 맑고, 내일은 비가 올 것이다.”**라는 일기예보에 나온 문장을 처리한다고 가정해 봅시다. 첫 번째 문장에서 “오늘 날씨는 맑고”라는 정보가 후속 문장에서 “내일은 비가 올 것이다”라는 예측에 영향을 미쳐야 합니다. RNN은 이러한 방식으로 이전의 단어들이 다음 단어를 예측하는 데 중요한 역할을 하도록 훈련됩니다.

순환 신경망(RNN)의 작동 방식

  1. Unfold: RNN을 펼친 구조를 나타냅니다. 왼쪽에서 오른쪽으로 흐르는 시간의 흐름을 나타내며, 각 시점에서 RNN이 어떻게 동작하는지 보여줍니다.
  2. h: RNN의 출력(hidden state)을 나타냅니다. 각 시점에서의 출력은 이전 상태(하위 시점)와 현재 입력을 바탕으로 결정됩니다.
  3. Xt: 현재 시점의 입력 데이터를 나타냅니다.
  4. ht-1: 이전 시점의 hidden state(출력)입니다. 이전의 상태가 현재 시점에 영향을 미친다는 RNN의 순환 특성을 보여줍니다.
  5. L: 이 부분은 특정 요소나 조건을 나타내는 기호일 수 있지만, 맥락상 **레이어(layer)**를 의미하는 것 같습니다.
  6. w, u: 가중치(weight) 매개변수입니다. 입력과 이전 hidden state에서 가중치가 곱해져 현재 hidden state를 계산하는 데 사용됩니다.

표현하는 구조는 시간에 따른 순차적 정보 처리를 보여주며, **순환 신경망(RNN)**에서 중요한 점은 이전 시점의 정보가 현재 시점에 영향을 미친다는 점입니다. 즉, 이전 출력이 다음 입력에 포함되어 정보를 순차적으로 처리하게 된다는 것이 핵심입니다!

RNN의 한계: 장기 의존성 문제

하지만 RNN에는 한 가지 중요한 한계가 있습니다. 바로 **장기 의존성 문제(Long-Term Dependency Problem)**입니다. 시퀀스가 길어질수록, 즉 단어가 많아질수록 이전의 정보가 점점 희미해져서 후속 정보에 미치는 영향이 약해진다는 점입니다.

예를 들어, 뉴스에서 “내일은 비가 올 것이다”라는 예측을 할 때, 문장 초반에 나온 “오늘 날씨는 맑고” 라는 정보는 시간이 지남에 따라 점차 사라집니다. 즉, 시퀀스(시간)가 길어질수록 RNN은 이전의 중요한 정보를 기억하지 못하는 문제가 발생합니다.

RNN의 한계를 극복한 LSTM

이 문제를 해결하기 위해 등장한 것이 **LSTM(Long Short-Term Memory)**입니다. LSTM은 RNN의 구조에서 **‘셀 상태(Cell State)’**라는 개념을 도입하여, 정보를 더 잘 기억하고 전달할 수 있도록 돕습니다. 셀 상태는 마치 **‘정보 고속도로’**처럼 정보를 계속해서 전달할 수 있게 해주며, 중요한 정보는 오래 기억하고, 필요 없는 정보는 버리는 방식으로 작동합니다.

순환 신경망(RNN)과 LSTM의 차이점

RNN과 LSTM의 가장 큰 차이는 정보를 얼마나 잘 기억할 수 있는가입니다. RNN은 시퀀스가 길어질수록 이전 정보를 잃어버리지만, LSTM은 정보 고속도로와 같은 셀 상태를 통해 긴 시퀀스에서도 중요한 정보를 유지하며 처리할 수 있습니다.

특성RNNLSTM
장기 의존성장기 의존성 문제 발생셀 상태를 사용해 장기 의존성 해결
구조간단한 구조셀 상태와 게이트를 포함한 복잡한 구조
적용 사례짧은 시퀀스 데이터 처리긴 시퀀스 데이터, 텍스트, 음성, 기계 번역 등

순환 신경망(RNN)의 활용 예시 (주식투자, 예측가능)

RNN은 주로 시간 순서가 중요한 데이터에서 많이 사용됩니다. 예를 들어, **자연어 처리(NLP)**에서는 단어 순서에 따라 문장의 의미가 달라지기 때문에 RNN이 효과적으로 사용됩니다. 음성 인식기계 번역주식 예측 등에서도 시퀀스 데이터가 중요하게 작용합니다.

  • 주식투자 관련한 파이선 프로그램을 준비 중 입니다.

기억하는 신경망 LSTM(Long Short-Term Memory), 어떻게 작동할까?

LSTM(Long Short-Term Memory)은 순환 신경망(Recurrent Neural Network, RNN)의 한 종류로서, 시퀀스 데이터 (시계열 데이터, 텍스트 등)를 처리하기 위해 신경망 입니다. 이전에 배운 것들을 기억할 수 있도록 컴퓨터 의 “일기장” 을 바로 LSTM 이라고 할 수 있습니다. 즉, “일기장”을 찾아보면서 이전에 무슨 일이 있었는지 확인을 할 수 있으며 미래에 무슨 일이 일어날지 예측을 할 수 있습니다.

예를 들어, 작곡을 할 때, LSTM은 이전에 어떤 음이 나왔었는지 기억하고, 그 다음에 어떤 음이 나와야 할지 도와줍니다. 현재도 실제로 아티스트들은 이미 Ai를 통해 작곡을 하고 수 있습니다.

RNN(순환 신경망)은 이전 시점의 출력을 현재 시점의 입력에 포함시켜 정보를 순환시키는 구조를 가지고 있습니다. 하지만, 시퀀스가 길어질수록 이전 시점의 정보가 잘 전달되지 않는 ‘장기 의존성 문제’ 를 해결하기 위해 ‘셀 상태’라는 개념을 도입했습니다. 셀 상태는 LSTM 셀을 통과하는 동안 정보를 전달하는 ‘Information Highway’와 같습니다. LSTM에서는 게이트라는 구조를 통해 셀 상태에 어떤 정보를 추가하거나 제거할지 결정합니다. 이로 인해 LSTM은 긴 시퀀스에서도 이전 정보를 잘 기억하고 전달할 수 있습니다.

이 이미지는 LSTM “셀”의 내부 구조를 보여줍니다. 각각의 작은 박스는 다른 역할을 하는 “게이트”를 나타내고, 화살표는 정보가 어떻게 이동하는지를 보여줍니다. 이 중 가장 중요한 부분은 가장 위에 있는 수평선인 ‘셀 상태’입니다. 바로 “일기장”과 같은 역할을 하며 이를 통해 LSTM은 장기적인 정보를 저장하고 전달할 수 있습니다.

LSTM 활용 사례 : 자연어 처리(Natural Language Processing, NLP)

LSTM(Long Short-Term Memory)은 자연어 처리(NLP) 분야에서 탁월한 성능을 발휘하는 순환 신경망(RNN)의 한 종류입니다. 텍스트 데이터의 시간적 흐름과 문맥을 효과적으로 처리하여 다양한 NLP 작업에 활용되고 있습니다.

자연어처리(NLP)는 우리가 사용하는 자연어를 컴퓨터가 이해하고 처리할 수 있도록 돕는 기술입니다. 예를 들어, 우리가 “장보기 목록에 계란과 우유 추가”라고 말할 때, 인간은 이 말을 쉽게 이해하지만, 컴퓨터는 이를 처리하기 어려운 비구조적인 텍스트로 간주합니다. NLP는 이러한 비구조적인 텍스트를 컴퓨터가 이해할 수 있는 구조화된 형태로 변환합니다.

*참고: IBM Technology 영상 : 내용정리가 상당한 수준이라 강추!!

NLP는 크게 두 가지 중요한 과정, 즉 자연어 이해(NLU)와 자연어 생성(NLG)으로 나뉩니다. NLU는 비구조적 데이터를 구조적으로 변환하는 과정이며, NLG는 구조적 데이터를 다시 비구조적 데이터로 변환하는 과정입니다.

NLP의 주요 활용 사례

  • 기계 번역: NLP는 문장 전체의 맥락을 이해하여 정확한 번역을 제공합니다. 예를 들어, “정신은 의지가 있지만, 육체는 약하다”라는 문장을 번역할 때, 단어 단위 번역이 아닌 문맥을 고려하여 번역이 필요합니다.
  • 가상 비서 및 챗봇: Siri나 Alexa와 같은 가상 비서는 사용자의 음성 명령을 이해하고 실행합니다. 또한, 챗봇은 사용자의 글을 이해하고 이에 맞는 답변을 제공합니다.
  • 감정 분석: 이메일이나 제품 리뷰를 분석하여 긍정적인 감정인지, 부정적인 감정인지, 심지어는 비꼬는 표현이 포함된 것인지 판단합니다.
  • 스팸 감지: 이메일 메시지에서 스팸을 판별하는 데에도 NLP가 활용됩니다. 과도하게 사용된 단어, 부적절한 문법, 긴급함을 강조하는 표현 등을 통해 스팸 여부를 판단할 수 있습니다.

NLP의 동작 원리

NLP(자연어처리)는 하나의 알고리즘만 사용하는 것이 아니라, 여러 도구들을 조합해서 다양한 문제를 해결합니다. NLP가 작동하는 과정을 쉽게 설명하면 다음과 같습니다.

먼저, 컴퓨터가 처리할 텍스트는 비구조적 텍스트입니다. 예를 들어, 사람이 쓰는 일상적인 문장들이 바로 비구조적 텍스트죠. 이 텍스트는 컴퓨터가 바로 이해하기 어려운 형태이기 때문에, 먼저 **토큰화(tokenization)**라는 과정을 거쳐서 텍스트를 작은 단위로 나눕니다. 예를 들어, “오늘 날씨는 맑아요”라는 문장이 있으면, 이 문장은 “오늘”, “날씨는”, “맑아요”처럼 작은 단어로 나눠집니다.

이후, 각 단어의 어근 추출(stemming) 또는 **표제어 추출(lemmatization)**을 통해 단어의 기본 형태를 찾습니다. 예를 들어, “달리다”, “달린다”, “달리고”와 같은 단어들이 있을 때, 이들을 “달리다”라는 기본형으로 바꾸는 작업이 이루어집니다.

그 다음에는 각 단어가 문장에서 어떤 역할을 하는지 판단하는 **품사 태깅(part-of-speech tagging)**을 합니다. 예를 들어, “밥을 먹다”라는 문장에서 “밥”은 명사이고 “먹다”는 동사라는 것을 구분하는 과정입니다.

또한, **명명된 엔티티 인식(NER)**을 통해 텍스트 속에 중요한 정보가 있는지 확인합니다. 예를 들어, “서울에 있는 경복궁은 유명한 관광지입니다”라는 문장에서 “서울”은 장소, “경복궁”은 특정 명사(관광지의 이름)로 인식됩니다.

이 모든 과정을 거친 후, NLP는 인간이 사용하는 언어를 컴퓨터가 이해할 수 있는 구조적 데이터로 변환합니다. 이 구조적 데이터는 이후 다양한 AI 응용 프로그램에서 활용될 수 있습니다.

대형 언어 모델(LLM)의 작동 원리와 학습 과정

요즘 ChatGPT 번역 능력이 너무 좋아서 가끔이게 진짜 사람이랑 뭐가 다르지?” 싶은 순간이 많습니다. 영화나 원서 번역 실무현장에서도 실제로 많이 사용되고 있죠. 그런데 모델들은 어떻게 이렇게 방대한 지식을 쌓고 발전할까요? 그냥 인터넷에 있는 내용을 긁어다가 정리하는 걸까요? 아니면 진짜로 무언가를 배우고 기억하는 걸까요?

1. LLM의 기본 원리

1) 텍스트를 숫자로 바꾸는 첫걸음: 토큰화와 임베딩

AI가 인간처럼 텍스트를 이해하려면, 우선 글자를 숫자로 바꾸는 과정이 필요합니다. 예를 들어 “고양이”라는 단어를 숫자로 바꾸면, LLM은 (0.24, -0.5, 1.2, …) 같은 벡터로 변환해 저장하게 됩니다. 우리는 이 과정을 토큰화(Tokenization) → **임베딩(Embedding)** 이라고 정의 합니다.

이렇게 변환된 숫자 벡터들은 결국 컴퓨터가 이해할 수 있는 형태가 되며, 각 단어(혹은 토큰) 사이의 관계를 학습하는 데 활용이 되고 있습니다.

2) 핵심 기술: 트랜스포머(Transformer) 아키텍처

LLM의 심장은 바로 트랜스포머(Transformer) 모델 입니다. 이 구조에서 가장 중요한 개념은 **어텐션(Attention)**이라고 부르는 메커니즘인데, 간단히 말하면 “문장에서 어떤 단어가 중요한지 찾아내는 기술” 입니다.

*출처 : AISchool – ChatGPT의 원리 – 대규모 언어 모델 (LLM) 개념 정리

예를 들어 “나는 어제 밤에 고양이와 놀았다.”라는 문장이 있으면, “놀았다”라는 동사가 어떤 대상과 연결되는지(즉, “고양이”)를 이해해야 해. 어텐션 메커니즘은 이런 관계를 자동으로 찾아주고, 문맥을 더 깊이 있게 파악할 수 있도록 도와줄 수 있지요 ㅎ

2. LLM이 지식을 쌓는 과정

1) 첫 번째 단계: 사전 학습(Pre-training)

지능형 언어 모델(LLM)은 처음부터 인간처럼 지능적이지 않습니다. 수많은 학자들의 연구와 개발을 통해, LLM은 방대한 양의 텍스트 데이터를 학습하는 사전 학습(Pre-training) 단계를 거칩니다. 이 과정에서 모델은 문법, 어휘, 문맥 등 언어의 다양한 패턴을 이해하게 됩니다. 이러한 사전 학습을 통해 LLM은 언어에 대한 기본적인 이해를 습득하며, 이후 특정 작업이나 분야에 맞게 **미세 조정(Fine-tuning)**을 통해 성능을 향상시키게 됩니다.

  1. 대량의 텍스트 데이터 수집: 인터넷에 있는 위키백과, 뉴스, 논문, 소설, 블로그 등을 수집합니다.
  2. 패턴 학습: 문장에서 단어가 어떤 순서로 등장하는지, 문법적으로 어떤 규칙이 있는지를 학습 하구요.
  3. 다음 단어 예측(NWP, Next Word Prediction): “나는 어제 밤에 ___와 놀았다.” 같은 문장에서 빈칸에 어떤 단어가 올지 맞히는 방식으로 학습이 진행됩니다.

이 과정을 거치면서 모델 내부의 수많은 **파라미터(Parameters, 가중치)**가 업데이트되며 지식이 축적이 되는 구조에요.

예제: “나는 커피를 마셨다.” 같은 문장을 보면, LLM은 과거 데이터를 참고해 “커피”와 자주 등장하는 단어(예: 마시다, 카페인, 아침)를 예측하는 식으로 학습해.

2) 두 번째 단계: 미세 조정(Fine-tuning)

사전 학습을 마친 모델은 말 그대로 “기본적인 언어 감각”을 익힌 상태가 됩니다. 하지만, 이를 좀 더 특정한 분야(예: 법률, 의학, 코딩)에 맞게 조정하는 게 바로 미세 조정(Fine-tuning) 단계 를 거쳐야 다음 단계로 나아 갈 수 있습니다.

*출처 : 모두의연구소 -LLM 모델 기반 서비스 실전 가이드

  • 의학 챗봇이라면? → 의료 논문과 진료 기록을 추가 학습시킴
  • 법률 AI라면? → 판례와 법 조항을 학습시킴
  • 코딩 AI라면? → GitHub의 코드 저장소 데이터를 학습시킴

이 과정 덕분에 같은 LLM이라도 활용 분야에 따라 맞춤형 성능을 낼 수 있게 됩니다.

3) 세 번째 단계: 인간 피드백을 통한 강화 학습(RLHF)

ChatGPT 같은 모델들은 단순히 데이터를 학습하는 것에서 끝나지 않고, **RLHF(Reinforcement Learning from Human Feedback, 인간 피드백을 통한 강화 학습)**라는 과정도 거치게 됩니다.

쉽게 말하면 사람들이 모델의 응답을 평가하고, 더 좋은 답변을 만들도록 모델을 조정하는 과정 입니다.

  1. AI가 답변을 생성하면, 사람 평가자가 “이 답변이 괜찮은지”를 평가함.
  2. 평가를 바탕으로 AI가 더 좋은 답변을 하도록 가중치를 조정함.
  3. 이 과정을 반복하면서 모델의 품질이 점점 개선됨.

이렇게 하면 LLM이 엉뚱한 소리를 하거나, 부정확한 정보를 제공하는 확률을 낮출 수 있는 것 입니다.

3. LLM의 한계와 미래

1) 기억력이 부족하다?

LLM은 대화를 나눌수록 이전 내용을 잊어버리는 경우가 많아. 기본적으로 긴 맥락을 유지하는 능력이 제한적이기 때문일 수도 있어요.

*출처 : 엔드플랜 Endplan AI

  • 해결책으로 메모리 모듈을 추가하거나, RAG(Retrieval-Augmented Generation) 같은 검색 기반 기술을 접목하는 연구가 활발하게 진행 되고 있습니다.

2) 학습 데이터가 편향될 수 있다?

AI가 인터넷에서 학습하다 보면, 데이터에 담긴 **편향(Bias)**이 그대로 반영될 위험이 있어.

  • 이를 해결하기 위해 다양한 문화, 언어, 성별, 인종을 고려한 데이터셋을 구축하려는 노력이 진행 중입니댜.

3) 업데이트가 쉽지 않다?

한 번 학습된 모델을 다시 업데이트하려면 엄청난 계산 비용이 들게 되기 때문에 최근에는 “LoRA, Adapter Layers” 같은 기법을 활용해, 기존 모델을 빠르게 업데이트하는 방법이 연구되고 있다고 합니다.

LLM이 어떻게 지식을 쌓고 발전하는지 간단하게 한마디로 정리하자면

  • 사전 학습 → 엄청난 양의 텍스트를 읽고 패턴을 익힘
  • 미세 조정 → 특정 분야에 맞춰 추가 학습
  • 인간 피드백 반영 → 더 나은 답변을 생성하도록 튜닝

결론적으로, LLM은 지속적인 발전을 거듭하며 단순한 언어 생성 도구를 넘어 인간의 창의성과 협업하는 강력한 도구로 자리 잡아가고 있습니다. 지금 이 순간에도 새로운 AI 기술과 정보가 쏟아지고 있으며, 이러한 변화를 효과적으로 활용하는 것이 중요합니다. 변화의 흐름에 맞춰 AI를 이해하고 실용적으로 활용하는 방법을 익혀 나간다면, 더 많은 가능성을 열어갈 수 있을 것입니다.

내가 찍은 사진, 어디서 촬영했을까?Google 지도에서 확인하는 법

여행을 떠나며 우리는 수많은 사진을 찍습니다. 그런데 이 사진들 속에는 단순한 이미지 이상의 정보가 담겨 있다는 사실, 알고 계셨나요? 바로 EXIF 데이터입니다. 이 데이터를 활용하면 우리가 방문한 장소와 시간을 추적하고, 더 나아가 주변의 멋진 관광지나 맛집까지 추천받을 수 있습니다.

* 사전 지식 요건 : flask, python, Maps JavaScript API 에서 google map 에 접근 할 수 있는 api 를 발급 해야 합니다.

EXIF 데이터란 무엇인가요?

EXIF(Exchangeable Image File Format)는 디지털 사진 파일에 포함된 메타데이터로, 촬영 날짜, 시간, 카메라 설정, GPS 위치 정보 등 다양한 정보를 담고 있습니다. 특히 GPS 정보는 사진이 촬영된 정확한 위치를 알려주어 여행 경로를 재구성하는 데 큰 도움이 됩니다.

Camara EXIF
Camara EXIF

내가 사진을 촬영했던 장소는 어디였을까?

먼저, google maps api key 를 이용하여, google map 에 위치를 띄워보는 연습부터 해볼수 있습니다!

여기선 vscode 를 사용하여 개발했습니다.

1. 필수 라이브러리 설치

pip install flask pillow

2. Flask 서버 코드 작성

app.py 파일명으로 다음 코드를 작성 합니다.

import os
from flask import Flask, render_template, request, redirect, flash
from PIL import Image, ExifTags

app = Flask(__name__)
app.secret_key = 'your_secret_key'
UPLOAD_FOLDER = 'uploads'
if not os.path.exists(UPLOAD_FOLDER):
os.makedirs(UPLOAD_FOLDER)
app.config['UPLOAD_FOLDER'] = UPLOAD_FOLDER

def get_exif_data(image):
"""이미지에서 EXIF 데이터를 추출하고, GPS 정보를 분리하여 반환"""
exif_data = {}
info = image._getexif()
if info is None:
return exif_data
for tag, value in info.items():
decoded = ExifTags.TAGS.get(tag, tag)
if decoded == "GPSInfo":
gps_data = {}
for t in value:
sub_decoded = ExifTags.GPSTAGS.get(t, t)
gps_data[sub_decoded] = value[t]
exif_data[decoded] = gps_data
else:
exif_data[decoded] = value
return exif_data

def get_decimal_from_dms(dms, ref):
"""GPS 좌표(DMS)를 십진수로 변환"""
degrees = dms[0][0] / dms[0][1]
minutes = dms[1][0] / dms[1][1]
seconds = dms[2][0] / dms[2][1]
decimal = degrees + minutes / 60 + seconds / 3600
if ref in ['S', 'W']:
decimal = -decimal
return decimal

def get_lat_lon(exif_data):
"""EXIF 데이터에서 위도와 경도를 추출"""
lat = None
lon = None
if "GPSInfo" in exif_data:
gps_info = exif_data["GPSInfo"]
if ("GPSLatitude" in gps_info and "GPSLatitudeRef" in gps_info and
"GPSLongitude" in gps_info and "GPSLongitudeRef" in gps_info):
lat = get_decimal_from_dms(gps_info["GPSLatitude"], gps_info["GPSLatitudeRef"])
lon = get_decimal_from_dms(gps_info["GPSLongitude"], gps_info["GPSLongitudeRef"])
return lat, lon

@app.route('/', methods=['GET', 'POST'])
def index():
if request.method == 'POST':
if 'photo' not in request.files:
flash('파일이 없습니다')
return redirect(request.url)
file = request.files['photo']
if file.filename == '':
flash('선택된 파일이 없습니다')
return redirect(request.url)
if file:
filepath = os.path.join(app.config['UPLOAD_FOLDER'], file.filename)
file.save(filepath)
image = Image.open(filepath)
exif_data = get_exif_data(image)
lat, lon = get_lat_lon(exif_data)
if lat and lon:
# 추출한 좌표와 파일명을 map.html 템플릿으로 전달
return render_template('map.html', lat=lat, lon=lon, filename=file.filename)
else:
flash('GPS 정보가 없는 이미지입니다')
return redirect(request.url)
return render_template('upload.html')

if __name__ == '__main__':
app.run(debug=True)

3. HTML 템플릿 구성

Flask 템플릿 디렉터리(templates)에 두 개의 HTML 파일을 생성합니다.

3.1. 이미지 업로드 페이지 (templates/upload.html)

이미지를 업로드할 수 있는 간단한 폼을 구성합니다.

<pre>
&lt;!doctype html&gt;
&lt;html&gt;
&lt;head&gt;
  &lt;meta charset="utf-8"&gt;
  &lt;title&gt;이미지 업로드&lt;/title&gt;
&lt;/head&gt;
&lt;body&gt;
  &lt;h1&gt;이미지 업로드&lt;/h1&gt;
  {% with messages = get_flashed_messages() %}
  {% if messages %}
    &lt;ul&gt;
    {% for message in messages %}
      &lt;li&gt;{{ message }}&lt;/li&gt;
    {% endfor %}
    &lt;/ul&gt;
  {% endif %}
  {% endwith %}
  &lt;form method="post" enctype="multipart/form-data"&gt;
    &lt;input type="file" name="photo" accept="image/*"&gt;
    &lt;input type="submit" value="업로드"&gt;
  &lt;/form&gt;
&lt;/body&gt;
&lt;/html&gt;
</pre>

4.2. 구글지도 표시 페이지 (templates/map.html)

<pre>
&lt;!doctype html&gt;
&lt;html&gt;
&lt;head&gt;
  &lt;meta charset="utf-8"&gt;
  &lt;title&gt;구글지도에 위치 표시&lt;/title&gt;
  &lt;style&gt;
    #map {
      height: 500px;
      width: 100%;
    }
  &lt;/style&gt;
  &lt;script src="https://maps.googleapis.com/maps/api/js?key=YOUR_GOOGLE_MAPS_API_KEY"&gt;&lt;/script&gt;
  &lt;script&gt;
    function initMap() {
      var location = {lat: {{ lat }}, lng: {{ lon }}};
      var map = new google.maps.Map(document.getElementById('map'), {
        zoom: 15,
        center: location
      });
      var marker = new google.maps.Marker({
        position: location,
        map: map,
        title: '사진 촬영 위치'
      });
    }
  &lt;/script&gt;
&lt;/head&gt;
&lt;body onload="initMap()"&gt;
  &lt;h1&gt;사진 촬영 위치&lt;/h1&gt;
  &lt;div id="map"&gt;&lt;/div&gt;
  &lt;p&gt;업로드한 파일: {{ filename }}&lt;/p&gt;
&lt;/body&gt;
&lt;/html&gt;
</pre>

업로드된 이미지에서 추출한 GPS 좌표를 활용해 구글 지도에 마커를 표시합니다. 반드시 아래 코드에서 YOUR_GOOGLE_MAPS_API_KEY 부분을 본인의 구글 API 키로 변경하세요.

5. 실행하기

1. app.py (오른쪽 상단 실행 버튼 을 누르고 서버 화면을 띄웁니다)

app.py
파이썬 실행

2.http://127.0.0.1:5000/ 주소로 접속 후 이미지를 업로드 하면 google map 화면에 다음과 같이 촬영 장소가 표시 됩니다.

localhost

3. 촬영 장소 를 상세히 확인을 할 수가 있습니다.

google maps

촬영한 장소를 파이썬 프로그램을 통해 간단히 지도에 표시하는 기능을 테스트 했습니다.

이제 다음 단계로, 해당 위치 주변의 맛집과 관광지 정보를 함께 표시하는 기능을 추가해보겠습니다. 사진의 EXIF 정보를 통해 주변의 흥미로운 장소들을 발견하여 새로운 여행 계획까지 가능 하구요!

AI 학습을 위한 VRAM의 중요성과 RTX 5090의 최신 동향

인공지능(AI)과 고사양 게임을 가능하게 하는 핵심 장치 중 하나가 바로 **그래픽 카드(GPU, Graphics Processing Unit)**입니다. GPU는 단순한 이미지 처리 장치를 넘어 초당 수십조 개의 연산을 수행하는 병렬 연산의 강력한 엔진으로 발전해 왔습니다. 특히 AI 모델을 학습하고 실행할 때 **VRAM(비디오 메모리)**의 크기가 중요한 역할을 합니다. 그렇다면 왜 VRAM이 AI 학습에 필수적일까요?

VRAM

1. VRAM이 필요한 이유

1) 데이터와 모델의 크기

딥러닝 모델은 이미지, 텍스트 등의 대량 데이터를 처리하며, 이 데이터를 GPU에서 빠르게 연산하기 위해 VRAM에 로드합니다. 모델의 크기도 VRAM을 차지하는데, 특히 파라미터 수가 많고 층이 깊은 대형 모델일수록 더 많은 VRAM이 필요합니다. 만약 VRAM이 부족하면 학습이나 추론이 원활히 이루어지지 않습니다.

2) 배치 크기(batch size) 설정

AI 모델을 훈련할 때 한 번에 처리하는 데이터 묶음을 배치(batch)라고 합니다. 배치 크기가 클수록 학습 속도가 빨라지고 모델 성능도 향상될 가능성이 높지만, 그만큼 더 많은 VRAM이 필요합니다. VRAM 용량이 부족하면 배치 크기를 줄여야 하고, 이는 학습 속도와 성능 저하로 이어질 수 있습니다.

3) 계산 효율성

딥러닝에서는 중간 계산 결과를 저장하기 위해 VRAM이 사용됩니다. 특히 훈련 중에는 역전파(backpropagation) 계산을 위해 중간 결과값이 VRAM에 저장됩니다. VRAM이 충분해야 중간 계산 결과를 모두 저장하고 빠르게 계산을 수행할 수 있어 학습 성능이 향상됩니다.

4) 최신 AI 모델의 실행 필수 조건

최근의 AI 모델은 이미지 생성, 자연어 처리와 같은 복잡한 연산을 수행하며, 대량의 VRAM을 필요로 합니다. 예를 들어, Stable Diffusion과 같은 텍스트-이미지 변환 모델, GPT-4와 같은 자연어 처리 모델은 수많은 데이터와 모델 파라미터를 GPU에 올려야 원활하게 실행됩니다.

2. GPU의 연산 성능과 VRAM의 관계

1) GPU 연산 성능 비교

최신 GPU는 엄청난 연산 성능을 자랑합니다. 이를 게임 연산과 비교하면 GPU의 중요성을 쉽게 이해할 수 있습니다.

GPU는 SIMD(Single Instruction Multiple Data) 아키텍처를 활용하여 다량의 3D 데이터를 병렬 연산합니다. 예를 들어, 게임 내 3D 모델의 좌표 변환에서 하나의 연산 명령을 수천 개의 좌표에 적용하여 효율적으로 연산합니다.

1996년: 마리오 64와 1억 번의 연산

mario64
마리오 64, 닌텐도(1996)

1996년, 세상은 닌텐도 64의 슈퍼 마리오 64를 처음 만났습니다. 입체적인 3D 공간에서 마리오가 뛰고, 구르고, 점프하며 코인을 모으던 그때, 여러분이 마리오를 조작할 때마다 초당 1억 번의 연산이 이루어지고 있었습니다.

그런데 이 수치가 감이 잘 안 오신다고요? 그럼 이렇게 생각해 보세요. 만약 사람이 초당 한 번씩 수학 문제를 푼다고 하면, 마리오 64를 부드럽게 돌리려면 1억 명의 사람이 동시에 계산을 해야 한다는 뜻입니다. 네, 그 당시엔 정말 엄청난 기술이었죠!

2011년: 마인크래프트와 1천억 번의 연산

minecraft
minecraft, 마이크로소프트(2011)

시간이 흘러 2011년, 픽셀 블록으로 이루어진 마인크래프트가 등장했습니다. 그래픽이 단순해 보여도, 사실 이 게임은 어마어마한 연산을 필요로 합니다.

플레이어가 한 블록을 부수면, 주변 블록이 영향을 받고 물리 연산이 적용되며, 그림자와 빛의 반사도 계산됩니다. 한 번의 블록 제거가 연쇄적인 계산을 일으키며, 초당 1천억 번의 연산이 필요했죠.

마리오 64와 비교하면 무려 1,000배 더 많은 연산을 필요로 합니다. 이제는 1억 명이 아니라 10억 명의 사람이 동시에 계산해야 하는 수준이 된 거죠.

2020년: 사이버펑크 2077과 36조 번의 연산

cyberpunk2077
사이버펑크 2077, CD PROJEKT(2020)

그리고 2020년, 가장 화려한 비주얼을 자랑하는 사이버펑크 2077이 출시됩니다. 초기 버그와 최적화 문제로 논란이 컸으나, 지속적 패치와 확장팩으로 완성도를 높여 현재는 호평받고 있습니다. 반짝이는 네온사인, 거리를 가득 채운 NPC, 차량의 광택, 빛의 반사와 그림자까지… 모든 요소가 초당 36조 번의 연산을 수행해야 비로소 완벽한 몰입감을 제공합니다.

이 숫자가 얼마나 클까요?

  • 마리오 64 대비 36만 배
  • 마인크래프트 대비 360배

지구상의 모든 사람이 1초에 한 번씩 계산을 해도 4,400개의 지구가 필요할 만큼 어마어마한 수치입니다. 이 정도면 거의 ‘신의 영역’이죠.

2024년: MS 플라이트 시뮬레이터 2024와 현실과 같은 하늘

FightSimulator2024
Fight Simulator 2024, 마이크로소프트(2024)

올해 출시된 마이크로소프트 플라이트 시뮬레이터 2024는 단순한 게임이 아닙니다.

  • 전 세계 모든 공항과 도시가 구현되고,
  • 실시간 날씨 변화와 공기 흐름까지 계산하며,
  • 비행기의 모든 기기와 엔진 작동을 현실처럼 재현합니다.

이 모든 걸 실시간으로 계산하려면 어마어마한 GPU 성능이 필요합니다. 최신 RTX 50 시리즈가 아니면 부드럽게 돌리기도 힘들 정도죠.

이처럼 게임의 발전과 함께 GPU의 연산 성능이 급격히 증가해왔으며, AI 모델 학습에서도 GPU의 고성능 연산 능력이 필수적입니다.

2) CPU vs GPU: 차이점과 역할

항목CPU(중앙처리장치)GPU(그래픽처리장치)
코어 개수24개 내외10,000개 이상
연산 속도빠르지만 병렬 연산에 약함대량 연산을 병렬로 처리
유연성운영체제 실행, 다양한 프로그램 가능단순 연산 전용
비유점보 여객기(빠르지만 처리량 제한)대형 화물선(속도는 느리지만 대량 처리 가능)

AI 학습과 같은 대량 연산 작업에서는 CPU보다 GPU가 더 적합하며, 특히 VRAM이 넉넉한 GPU가 필요합니다.

최근 엔비디아는 AI와 고사양 게임 분야에서의 수요를 충족하기 위해 GeForce RTX 50 시리즈를 출시했습니다. 이 시리즈는 새로운 Blackwell 아키텍처를 기반으로 하며, 이전 세대보다 향상된 성능과 효율성을 제공합니다. 그럼 GeForce RTX 50 에 대하여 간단히 알아볼까요?

4. GeForce RTX 50 시리즈의 특징

rtx 5090
rtx 5090, nvida

RTX 50 시리즈는 GDDR7 메모리를 탑재하여 데이터 전송 속도와 대역폭을 크게 향상시켰습니다. 예를 들어, RTX 5090은 32GB의 GDDR7 메모리를 장착하여 복잡한 AI 모델과 고해상도 게임을 원활하게 처리할 수 있습니다. 또한, 이 시리즈는 DLSS 4 기술을 통해 AI 기반 프레임 생성을 지원하여 그래픽 성능을 극대화합니다.

그러나 엔비디아의 GeForce RTX 50 시리즈 출시 이후, 국내 시장에서는 그래픽카드 가격이 급등하고 있습니다. 특히, RTX 5090과 RTX 5080 모델은 한정된 초기 물량으로 인해 품귀 현상을 빚으며, 출시 직후 완판되는 상황이 발생했습니다. 엔비디아는 RTX 5080의 레퍼런스(표준 모델) 출고 가격을 999달러(약 144만 원)로 책정했으나, 국내 유통 과정에서 가격이 크게 상승하여 220만 원에서 280만 원 이상에 판매되고 있습니다. 최상위 모델인 RTX 5090의 경우, 출시 첫날 360만 원대에 소량 판매되었으나, 중고 거래 사이트에서는 500만 원에서 600만 원대의 웃돈이 붙은 거래가 이루어지고 있습니다.

이러한 현상의 주요 원인 중 하나는 엔비디아가 인공지능(AI) 수요 증가에 대응하기 위해 산업용 GPU 생산에 집중하면서, 일반 소비자용 GPU 공급이 줄어든 데 있습니다. AI 기술의 발전과 함께 데이터 센터 및 연구 기관에서 고성능 GPU에 대한 수요가 폭발적으로 증가하였고, 엔비디아는 이러한 시장의 요구를 충족시키기 위해 자원을 재배치하고 있습니다.

엔비디아는 2016년 딥러닝 전용 GPU인 Tesla P100을 발표하며 AI 및 데이터 센터 시장으로의 진출을 본격화했습니다. 이후 AI 연구와 자율 주행 기술의 발전으로 GPU 수요가 급증하였고, 엔비디아는 AI와 데이터 센터 사업에서 큰 성장을 이루었습니다. 이러한 전략적 사업 확장은 엔비디아를 AI 시장의 선도 기업으로 자리매김하게 했으며, 현재 AI 반도체 산업의 밸류 체인을 주도하고 있습니다.

그러나 이러한 산업용 GPU 생산 집중은 일반 소비자용 GPU의 공급 부족으로 이어져, RTX 50 시리즈와 같은 최신 그래픽카드의 가격 상승과 품귀 현상을 초래하고 있습니다. 엔비디아는 이러한 문제를 해결하기 위해 다양한 노력을 기울이고 있으며, AI 시장과 소비자 시장의 균형을 맞추기 위한 전략을 지속적으로 모색하고 있습니다.

1) 향상된 VRAM 및 연산 성능

RTX 50 시리즈는 GDDR7 메모리를 탑재하여 데이터 전송 속도와 대역폭을 크게 향상시켰습니다. 예를 들어, RTX 5090은 32GB의 GDDR7 메모리를 장착하여 복잡한 AI 모델과 고해상도 게임을 원활하게 처리할 수 있습니다. 또한, 이 시리즈는 DLSS 4 기술을 통해 AI 기반 프레임 생성을 지원하여 그래픽 성능을 극대화합니다.

2) 다양한 모델 구성

RTX 50 시리즈는 다양한 사용자 요구를 충족하기 위해 여러 모델로 출시되었습니다. RTX 5070 Ti는 16GB의 GDDR7 메모리를 탑재하여 1440p 해상도에서 우수한 성능을 제공하며, RTX 5080은 16GB의 메모리로 4K 게이밍과 AI 연산에 최적화되어 있습니다. 최상위 모델인 RTX 5090은 32GB의 메모리와 뛰어난 연산 능력으로 최고 수준의 성능을 자랑합니다.

엔비디아의 최신 GeForce RTX 50 시리즈 그래픽카드가 국내 시장에 출시되면서, 공식 발표된 가격과 환율을 고려한 예상 가격 간의 차이가 논란이 되고 있습니다. 아래 표는 각 모델의 미국 출시 가격과 이를 환율(1달러 = 1,452원)로 환산한 예상 가격, 그리고 엔비디아 공식 홈페이지에 공개된 국내 출고가를 비교한 것입니다.

모델미국 출시 가격(USD)환율 적용 예상 가격(KRW)국내 출고가(KRW)가격 차이율(%)
RTX 5090$1,999약 2,900,000원3,699,000원약 27.4%
RTX 5080$999약 1,450,000원1,899,000원약 30.8%
RTX 5070 Ti$749약 1,080,000원1,399,000원약 29.5%
RTX 5070$549약 790,000원1,009,000원약 27.7%

참고: 환율은 2025년 1월 7일 기준 1달러 = 1,452원으로 계산되었습니다.

VRAM이 AI 학습에 중요한 이유: 딥러닝에서 비디오 메모리의 역할과 필요성

VRAM(Video Random Access Memory)은 그래픽 카드(GPU)에 탑재된 메모리로, 영상 처리 및 그래픽 연산을 담당하는 고속 메모리입니다. 일반적으로 게임, 영상 편집, 3D 모델링 등에 사용되지만, 최근에는 인공지능(AI)과 딥러닝(deep learning) 학습에서도 핵심적인 역할을 합니다.

NVIDIA GPU 아키텍처 (*내부 구조를 시각적으로 나타낸 블록 다이어 램)

1. VRAM이란 무엇인가?

VRAM(Video Random Access Memory)은 **GPU(Graphics Processing Unit)**가 데이터를 빠르게 처리할 수 있도록 설계된 고속 메모리입니다. 그래픽 렌더링뿐만 아니라 딥러닝, AI 모델 학습, 데이터 분석 등 고성능 컴퓨팅 작업에서도 필수적인 역할을 합니다.

딥러닝에서는 GPU가 수천 개의 코어를 활용하여 병렬 연산을 수행하는데, 이때 데이터(이미지, 텐서 등)를 저장하고 빠르게 처리하기 위해 VRAM이 필요합니다. VRAM이 부족하면 학습 속도가 느려지고, 심한 경우 학습 자체가 불가능할 수도 있습니다.

import torch
print(f"사용 가능한 VRAM: {torch.cuda.memory_allocated(0)/1024**3:.2f}GB")

* PyTorch로 VRAM 사용량 확인이 가능합니다.(PyTorch 라이브러리 설치 필수)

2. VRAM의 역할: AI 학습에서 중요한 이유

2.1 데이터 로드 및 저장

딥러닝 모델을 학습하려면 대량의 데이터(이미지, 텍스트, 오디오, 비디오 등)를 빠르게 로드해야 합니다. VRAM이 크면 더 많은 데이터를 한 번에 GPU로 로드할 수 있어 학습 속도가 빨라집니다. 반면 VRAM이 부족하면 데이터를 CPU RAM에서 불러와야 하는데, 이 과정은 속도를 크게 저하시킵니다.

2.2 모델 크기와 VRAM의 관계

딥러닝 모델은 대량의 데이터를 빠르게 로드해야 합니다. VRAM이 크면 더 많은 데이터를 한 번에 GPU로 로드할 수 있어 학습 속도가 빨라지며, 부족하면 CPU RAM을 사용하게 되어 속도가 크게 저하됩니다. 딥러닝 모델이 크면 더 많은 가중치(Weights)와 활성화 값(Activations) 을 저장해야 하므로 VRAM 사용량이 증가합니다.

용도필요 VRAM
간단한 모델 학습 (MNIST, CIFAR-10)4~8GB
중급 모델 (ResNet, U-Net, Transformer)12~16GB
대형 모델 (GPT-3, Stable Diffusion)24~48GB
초대형 모델 (LLaMA, GPT-4)48GB 이상 또는 멀티 GPU

예를 들어, Stable Diffusion을 사용해 512×512 크기의 이미지를 생성하려면 최소 4GB VRAM이 필요하며, 1024×1024 해상도에서는 12GB 이상이 필요합니다.

2.3 배치 크기(Batch Size)와 VRAM

배치 크기(Batch Size)는 한 번에 학습하는 데이터 개수를 의미합니다. 배치 크기가 크면 학습 속도가 빨라지지만, 더 많은 VRAM이 필요합니다.

배치 크기필요 VRAM 용량
328GB
12816GB
51248GB 이상

즉, VRAM이 클수록 더 큰 배치 크기로 빠르게 학습할 수 있으며, 학습 속도 향상에 기여합니다.

3. VRAM의 양과 GPU 아키텍처

nvidia 4060 family
nvidia 4060 family

VRAM 용량은 GPU 아키텍처에 따라 결정됩니다. 현대적인 GDDR6X 및 GDDR6 메모리는 8Gb(1GB) 또는 16Gb(2GB) 밀도로 제공되며, 각 메모리 칩이 GPU의 메모리 컨트롤러와 연결됩니다.

  • RTX 4060 Ti (8GB) → 4개의 16Gb GDDR6 메모리 칩 사용
  • RTX 4060 Ti (16GB) → 8개의 16Gb GDDR6 메모리 칩 사용
  • RTX 4070 Ti (12GB) → 192비트 메모리 인터페이스 사용

즉, GPU 설계에 따라 VRAM 용량이 결정되며, 동일한 버스 폭을 가진 경우 VRAM 용량이 항상 2배로 증가하는 구조를 보입니다.

4. VRAM과 실제 AI 학습 성능

딥러닝 모델은 수많은 행렬 연산과 가중치(weight) 업데이트를 수행하며, 이를 빠르게 처리하기 위해 GPU가 활용됩니다. 하지만 VRAM이 부족하면 학습 속도가 느려지거나 학습 자체가 불가능해질 수도 있습니다.

4.1. 딥러닝 모델별 VRAM 사용량 예시

  • 작은 모델 (ResNet-18) → VRAM 사용량이 적음
  • 대형 모델 (GPT-4, LLaMA) → 수십 GB 이상의 VRAM 필요

4.2. 고해상도 이미지 및 자연어 처리(NLP)에서 VRAM 필요량

  • 컴퓨터 비전: 고해상도(1024×1024) 이미지를 입력으로 사용할 경우 VRAM 요구량 증가
  • 자연어 처리(NLP): 긴 문장을 학습할수록 더 많은 VRAM 필요

4.4 VRAM 용량이 AI 학습에 미치는 영향

충분한 VRAM이 있으면 GPU의 연산 능력을 최대한 활용할 수 있어 학습 속도가 빨라집니다. 반면 VRAM이 부족하면 일부 데이터가 시스템 RAM(DDR 메모리)으로 이동하면서 속도가 크게 저하됩니다.

컴퓨터 비전 분야에서는 고해상도 이미지를 사용해야 하는 경우가 많습니다. 예를 들어, 1024×1024 해상도의 이미지를 입력으로 사용하면 낮은 해상도의 데이터보다 훨씬 많은 VRAM이 필요합니다. 또한 자연어 처리(NLP) 모델에서도 긴 시퀀스를 학습하려면 더 많은 VRAM이 요구됩니다.

VRAM이 부족한 경우 여러 개의 GPU를 연결하여 학습하는 “멀티-GPU 학습”을 활용할 수 있습니다. 그러나 VRAM이 많으면 단일 GPU에서도 효과적인 학습이 가능하여 복잡한 분산 학습 설정 없이 연구 개발이 용이해집니다.

ollama
ollama(log0)

5. AI 모델 학습을 위한 VRAM 추천 용량

VRAM은 AI 모델 학습에서 필수적인 요소로, 용량이 충분해야 대량 데이터를 빠르게 처리하고 학습 속도를 높일 수 있습니다.

최적의 VRAM 선택 가이드

작업 유형최소 VRAM권장 VRAM
기본적인 CNN 학습4GB6GB 이상
NLP 모델 (BERT, GPT 등)8GB12GB 이상
Stable Diffusion (이미지 생성)8GB16GB 이상
대형 Transformer 학습 (GPT-4 등)16GB24GB 이상
초대형 AI 모델 및 연구24GB48GB 이상

단순한 이미지 분류 모델은 적은 VRAM으로도 학습이 가능하지만, Stable Diffusion이나 GPT-4 같은 대형 모델을 학습하려면 훨씬 더 많은 VRAM이 필요합니다. 특히, 배치 크기(batch size)가 크면 한 번에 더 많은 데이터를 처리할 수 있어 더 빠른 이미지 생성이 가능합니다. 특히, LoRA 모델을 사용한다면 24GB~48GB 이상의 VRAM을 갖춘 GPU가 필요합니다.

AI 모델을 학습할 때 VRAM(비디오 메모리)은 필수적인 요소입니다. VRAM이 충분해야 대량의 데이터를 빠르게 처리하고 학습 속도를 높일 수 있습니다 어떤 AI 모델을 학습할지에 따라 적절한 VRAM을 선택하는 것이 매우 중요합니다.
단순한 AI 작업이라면 8GB~12GB VRAM으로도 충분하지만, 대형 모델을 다룬다면 24GB 이상의 고사양 GPU를 고려하는 것이 좋습니다.

본 블로그 글을 통하여 적절한 GPU 를 선택하는데 도움이 되시길 바랍니다.

CUDA 코어 알아가기

간단히 말해, CUDA 코어는 NVIDIA의 GPU(그래픽카드)에 내장된 연산 유닛입니다. 이것이 바로 GPU가 게임 그래픽부터 딥러닝까지 복잡한 계산을 빠르고 효율적으로 처리할 수 있는 이유죠.

CPU가 한 번에 몇 가지 작업을 순차적으로 처리하는 “책임감 있는 팀장”이라면, CUDA 코어는 수천 명의 “다재다능한 팀원”들입니다. 수천 개의 코어가 병렬로 작동하며, 데이터를 나눠 처리하고 연산 속도를 크게 끌어올립니다. 이 때문에 CUDA 코어는 게임, 과학 계산, 그리고 AI와 딥러닝 같은 분야에서 필수적인 도구로 자리 잡았습니다.

젠슨 황의 GPU 혁신과 CUDA의 탄생

지금 우리가 쓰고 있는 AI 기술과 그래픽카드, 특히 NVIDIA GPU는 하나의 상징적인 인물로부터 시작되었습니다. 바로 NVIDIA의 창립자 젠슨 황입니다. 대만에서 태어나 미국으로 이주한 그는 어린 시절 낯선 환경에서 자랐고, 전기공학을 공부하며 컴퓨팅 기술에 대한 열정을 키웠습니다. 1993년, 그는 NVIDIA를 창립하며 혁신적인 GPU(그래픽 처리 장치)를 개발하기 시작했는데, 이 과정에서 나온 것이 바로 오늘날 우리가 잘 아는 CUDA 코어입니다.

NVIDIA CEO Jensen Huang to Keynote World’s Premier AI Conference

1990년대 NVIDIA는 주로 게임 그래픽에 초점을 맞춘 GPU를 개발했습니다. 하지만 젠슨 황은 단순한 그래픽 카드에서 벗어나 GPU를 과학과 산업 전반에 걸쳐 활용할 수 있는 플랫폼으로 확장하고자 했습니다. 이를 위해 NVIDIA는 2006년 CUDA(Compute Unified Device Architecture)라는 병렬 연산 플랫폼을 발표했습니다. CUDA는 GPU를 게임 그래픽뿐만 아니라, 과학 계산, 딥러닝, 데이터 분석 등 다양한 분야에서 활용할 수 있게 만들어준 중요한 도구입니다.

CUDA 코어는 이 플랫폼의 기반이 되는 유닛으로, 주로 대규모 병렬 연산에 사용됩니다. 특히, AI의 핵심 연산인 텐서 연산(행렬 곱셈)을 효율적으로 수행할 수 있어, 딥러닝 모델을 훈련하거나 추론하는 시간을 크게 단축시켰습니다.

CUDA 코어의 정의

معرفی شرکت و کارت گرافیک Nvidia در 2023 - جهان بازار

CUDA 코어는 “Compute Unified Device Architecture”의 약자로, NVIDIA가 개발한 병렬 컴퓨팅 플랫폼입니다[1]. 이 코어들은 GPU 내에서 기본적인 처리 요소로 작동하며, 동시에 여러 작업을 처리할 수 있는 병렬 처리 능력을 가지고 있습니다[2].

CUDA 코어의 중요성

딥러닝은 방대한 양의 데이터 처리가 필요한 분야로, 단일 CPU로는 이러한 데이터를 처리하는데 한계가 있습니다. 반면, CUDA 코어를 탑재한 GPU는 데이터 병렬 처리를 통해 딥러닝 모델을 훈련시키는 시간을 획기적으로 단축시킵니다. 4060, 4070, 4090 같은 최신 그래픽카드는 이러한 CUDA 코어의 수가 많아, 대규모 데이터 처리와 인공지능 개발에 적합합니다.

AI, 특히 딥러닝은 데이터를 처리하고 학습하는 데 방대한 연산 능력을 요구합니다. 과거에는 CPU만으로 이를 처리해야 했기 때문에 시간이 오래 걸렸습니다. 하지만 CUDA 코어를 탑재한 GPU가 등장하면서, 병렬 연산을 활용해 연산 속도가 비약적으로 향상되었습니다.

예를 들어, 이미지 생성 모델인 Stable Diffusion이나 ChatGPT 같은 언어 모델은 모두 CUDA 코어를 활용해 훈련됩니다. CUDA 코어는 이러한 모델에서 필요한 행렬 연산을 동시에 처리하여, 단시간에 복잡한 계산을 수행할 수 있게 합니다. 이는 AI와 딥러닝 연구의 패러다임을 완전히 바꿔놓은 기술적 혁신이었습니다.

CUDA 코어: 병렬 처리의 마법

CUDA 코어는 NVIDIA GPU의 핵심 연산 단위입니다. 간단히 말해, 그래픽카드 안에서 데이터를 나누고 동시에 여러 작업을 처리하는 ‘작업반장’ 같은 역할을 합니다. NVIDIA가 개발한 병렬 컴퓨팅 플랫폼의 기반이 되는 요소로, 복잡한 연산을 빠르게 처리하도록 설계되었습니다.

  • 병렬 처리의 달인: 한 번에 수백에서 수천 개의 작업을 나눠 처리합니다.
  • 빠른 데이터 접근: 높은 메모리 대역폭으로 대량 데이터를 효율적으로 다룹니다.
  • 특화된 설계: 병렬 연산과 대규모 작업에 맞춰 최적화되어 있습니다.

이 덕분에 CUDA 코어는 그래픽 처리뿐 아니라 딥러닝과 데이터 분석 같은 복잡한 작업에서도 뛰어난 성능을 발휘합니다.

AI와 이미지 생성의 발전

딥러닝을 통한 이미지 생성 모델은 대표적으로 최근 가장 많이 사용되고 있는 Stable Diffusion이나 ChatGPT의 AI 모델 같은 사례가 있습니다. CUDA 코어는 수많은 연산을 동시에 수행해 이런 이미지 생성 모델을 지원합니다. AI를 통해 그림을 그리거나, 사람과 대화하는 등 다양한 응용 프로그램이 등장했으며, CUDA 코어는 이러한 기술이 실시간으로 작동할 수 있게 합니다.

출처
[1] NVIDIA CUDA Cores Explained: How Are They Different? – Ace Cloud https://acecloud.ai/resources/blog/nvidia-cuda-cores-explained/
[2] NVIDIA – CUDA코어를 알아보자! – 세상의 모든정보 https://itssue86.tistory.com/14
[3] What is the meaning of CUDA Core of GPU? | Ryans Computers https://www.ryans.com/glossary/cuda-core
[4] What are CUDA Cores? Example and Differences with Tensor Cores https://datacrunch.io/blog/what-are-cuda-cores-example-and-differences-with-tensor-cores
[5] CUDA Cores vs. Tensor Cores – Dreamgonfly’s blog https://dreamgonfly.github.io/blog/cuda-cores-vs-tensor-cores/

LLM의 실제 활용 분야 – 인공지능이 변화시키는 현실

LM이 학습을 통해 쌓은 언어 능력은 실제로 다양한 분야에서 폭넓게 활용되며, 각 분야에 상당한 변화를 일으키고 있습니다. 이러한 언어 모델은 텍스트 이해와 생성 능력을 바탕으로 대화형 AI와 자동 번역부터 시작해, 전문적인 영역인 의료, 법률, 금융 등에서의 지원 기능을 수행하며 실생활의 다양한 부분에서 중요한 역할을 맡고 있습니다.

. 언어 이해와 생성 – 대화형 AI와 자동 번역

LLM이 가장 활발하게 활용되는 대표적인 분야는 대화형 AI와 자동 번역입니다. ChatGPT와 같은 대화형 AI는 사람과 자연스럽게 소통하며 정보 제공, 문제 해결, 글쓰기 보조 등 다양한 역할을 수행합니다. 또한, 번역 기술에도 뛰어나며, 여러 언어의 문맥을 이해하여 정확한 번역을 제공합니다. 이는 글로벌 커뮤니케이션을 가능하게 하는 중요한 도구로 자리 잡았습니다.

2. 전문 분야에서의 지원 – 의료, 법률, 금융

LLM은 의료법률금융 등 전문 지식이 필요한 영역에서도 중요한 보조 역할을 수행하고 있습니다. 의료 분야에서는 환자의 건강 기록을 분석하거나 의학 논문을 요약하여 의사들이 빠르게 참조할 수 있도록 돕고 있으며, 법률 분야에서는 복잡한 법률 문서를 요약하고 주요 정보를 정리하는 데 도움을 줍니다. 금융에서는 방대한 양의 데이터를 분석하여 시장 트렌드를 예측하고, 리스크를 관리하는 데 유용한 인사이트를 제공합니다.

환자 기록 요약 AI, 법률 문서 요약 도구, 금융 데이터 분석 및 리스크 관리 시스템 등에 적용되고 있습니다.

A futuristic digital interface in a high-tech hospital showing a doctor reviewing patient medical records on a transparent holographic screen. The doctor, dressed in professional medical attire, is examining detailed charts, summaries, and key statistics displayed on the screen. The background resembles a modern, high-tech medical facility with clean lines, soft lighting, and advanced equipment. The color scheme is calming, with blues and greens, creating a trustworthy and safe atmosphere. Text elements are clear and readable, with icons representing different medical fields, such as cardiology and general health, to emphasize the focus on healthcare and precision.

3. 창의적 콘텐츠 생성 – 글쓰기, 음악, 예술

LLM은 텍스트 기반 창의적 콘텐츠 생성에도 큰 역할을 하고 있습니다. 뉴스 기사나 블로그 글 초안 작성부터 시작해, 소설 줄거리 작성, 광고 카피 제작 등에서도 사용되고 있습니다. 예술 분야에서는 시나리오 초안 작성, 음악 가사 창작, 시 창작 등 다양한 창의적 활동에서 유용하게 활용됩니다.

Free Turntable Computer photo and picture

언론사에서 사용하는 기사 초안 생성 도구, 광고 및 마케팅 부서의 카피 작성 지원, 음악 및 예술 분야의 아이디어 도출 등에 활용되고 있습니다.

4. 맞춤형 학습 및 교육 지원

대규모 언어 모델(LLM)은 교육 분야에서 다양한 방식으로 활용되고 있습니다. 학생들의 질문에 답변하고, 복잡한 개념을 쉽게 설명하며, 맞춤형 학습 계획을 수립하는 데 도움을 주는 등 학습 보조 역할을 수행합니다. 특히 언어 학습, 수학 문제 풀이, 과학 개념 설명 등에서 두각을 나타내고 있습니다.

언어 학습 애플리케이션: LLM을 활용한 언어 학습 애플리케이션은 사용자와의 대화를 통해 자연스러운 언어 습득을 지원합니다. 예를 들어, Duolingo는 AI 기반의 맞춤형 학습 경험을 제공하여 사용자들이 효과적으로 새로운 언어를 배울 수 있도록 돕습니다.

Duolingo

온라인 튜터링 프로그램: LLM을 통합한 온라인 튜터링 플랫폼은 학생들의 질문에 실시간으로 답변하고, 복잡한 개념을 이해하기 쉽게 설명합니다. 예를 들어, Khan Academy는 AI를 활용하여 학생들에게 개인 맞춤형 학습 경험을 제공합니다.

맞춤형 학습 지원 시스템: LLM 기반의 학습 지원 시스템은 학생들의 학습 패턴을 분석하여 개인별 맞춤형 학습 계획을 수립합니다. 이를 통해 학습 효율성을 높이고, 학생들의 이해도를 향상시키는 데 기여합니다.

이러한 사례들은 LLM이 교육 분야에서 학습자 중심의 맞춤형 교육을 실현하는 데 중요한 역할을 하고 있음을 보여줍니다.

5. 연구와 데이터 분석 – 방대한 정보의 효율적 처리

마지막으로, LLM은 방대한 데이터를 요약하고 분석하는 데도 활용되고 있습니다. 과학 논문 요약, 정보 검색, 연구 트렌드 분석 등 다양한 분야에서 정보의 핵심을 빠르게 파악하고 연구자들이 중요한 데이터에 접근할 수 있도록 돕습니다.

연구 논문 요약, 문헌 검토 및 연구 트렌드 분석 도구 등에서 효과적으로 활용되고 있습니다.

지능형 언어 모델의 지식 축적 방식

LLM이 어떻게 지식을 쌓고 발전하는지, 그 구체적인 학습 과정을 깊이 있게 살펴보겠습니다. 인공지능이 언어를 이해하고 활용하기까지의 과정을 이해하는 것은 모델의 본질을 파악하는 데 필수적입니다.

1. 학습의 기초 – 프리트레이닝(Pretraining) 단계

LLM의 첫 학습 단계는 **프리트레이닝(Pretraining)**입니다. 이 단계에서 LLM은 방대한 양의 텍스트 데이터를 학습하며, 언어의 기본 구조와 문맥을 이해하는 기초 능력을 얻게 됩니다. 모델은 다양한 문서를 읽으며 단어의 연관성을 파악하고 문장을 해석하는 법을 배웁니다.

이는 초등 교육과정에서 문법과 어휘를 배우며 기본 언어 능력을 쌓는 것과 유사합니다. 프리트레이닝을 통해 LLM은 기본적인 언어 능력을 갖추게 되는 것입니다.

2. 심화 학습 – 파인튜닝(Fine-tuning) 단계

프리트레이닝이 완료되면, LLM은 파인튜닝(Fine-tuning) 단계를 통해 특정 분야에 맞춰 심화 학습을 진행합니다. 이를 통해 모델은 특정 주제에 대한 전문성을 갖추게 됩니다. 예를 들어, 의료 분야에 적용될 경우 의학 논문과 보고서를 학습하며, 관련 지식과 용어를 익히게 됩니다.

대학에서 전공 과목을 선택하여 특정 분야에 대한 깊이 있는 지식을 쌓는 과정과 유사합니다. 파인튜닝을 통해 LLM은 단순히 언어를 이해하는 것을 넘어, 특정 주제에 대한 전문성을 가지게 됩니다.

3. 최적화와 피드백 – 강화 학습(Reinforcement Learning)과 인적 평가

LLM이 실용적으로 활용되기 위해서는 학습 과정 중 **강화 학습(Reinforcement Learning)**과 인적 피드백이 추가적으로 이루어집니다. 이 단계에서는 모델이 제공하는 답변의 정확성을 높이기 위해 사용자의 피드백을 반영하여 점진적으로 성능을 개선합니다. 이러한 피드백 과정은 LLM이 더 나은 답변을 제공하도록 최적화하는 데 중요한 역할을 합니다.

이는 실무 현장에서 피드백을 통해 업무 수행 능력을 향상시키는 과정과 비슷합니다. 지속적인 피드백을 통해 LLM은 실질적으로 유용한 답변을 제공할 수 있는 능력을 갖추게 됩니다.

4. 발전과 개선의 반복

프리트레이닝과 파인튜닝을 통해 학습이 완료되었다 하더라도, LLM은 지속적인 피드백을 통해 개선과 성장을 거듭하게 됩니다. 완벽하지 않은 답변도 시간이 지남에 따라 개선되며, 점차 더 높은 수준의 정확도와 이해도를 갖추게 됩니다.