-
확률변수 (random variable), 확률분포 (probability distribution)카테고리 없음 2023. 1. 13. 14:31
딥러닝, 머신러닝을 공부하려면 확률통계가 기본이라고 이야기 합니다.
이 분야를 위한 확률통계는 계산보다는 정확한 용어에 대한 이해를 요구합니다.
중요한 몇 가지 용어를 정확히 이해만 해도 공부하는데 상당히 도움이 됩니다.
[확률변수][random variable]
확률변수를 한마디로 설명하기는 쉽지 않습니다.
이를 설명하기 위해서는 먼저 다음 용어를 알고 있어야 하기 때문입니다.
확률실험, 확률사건, 샘플스페이스
예들 들어 보겠습니다.
동전을 1개 던진다고 해 봅시다. 동전을 1개 던지는 실험을 해 봅시다.
앞면이나 뒷면이 나올 것입니다.
그러나, 동전을 던지기 전에는 앞면이 나올지 뒷면이 나올지 아무도 모릅니다.
결과를 예측할 수 없습니다.
이와 같이 결과를 예측할 수 없는 실험을, '확률실험'이라고 합니다.
이 확률실험을 통해 나온 결과물을 확률'사건' 이라고 합니다.
동전 1개 던지는 확률실험에서의 사건은 '앞면이나오는사건', '뒷면이나오는사건' 딱 2가지 뿐입니다.
줄여서 각각 '앞면사건', '뒷면사건' 이라고 하겠습니다.
나올 수 있는 모든 사건을 모아 놓은 것을 '샘플스페이스'라고 합니다.
이는 어떤 사건의 확률을 계산할 때 필요합니다.
앞면사건과 뒷면사건이 나올 확률을 각각 0.6, 0.4라고 가정해 보겠습니다.
그리고, 다음과 같이 표기하겠습니다.
P(앞면사건)=0.6 앞면사건이 나올 확률(probability)은 0.6라는 것을 나타냅니다.
P(뒷면사건)=0.4 뒷면사건이 나올 확률(probability)은 0.4라는 것을 나타냅니다.
이번에는 사건을 숫자로 바꾸어 생각해 보겠습니다. 다른 말로, 사건을 숫자로 대응시켜(mapping)해 보겠습니다.
'앞면사건'은 1로 맵핑
'뒷면사건'은 0으로 맵핑
위에서 사건을 숫자로 맵핑한 1또는 0을 기록할 미지수 X를 하나 도입해 봅시다.
미지수는 어떤 숫자가 할당될지 모른다는 뜻입니다. 개발자 입장에서는 변수로 이해해도 무방합니다.
그러면 다음과 같이 쓸 수 있습니다.
P(X=1)=0.6 X가 1일 확률은 0.6라는 것을 나타냅니다.
P(X=0)=0.4 X가 0일 확률은 0.4라는 것을 나타냅니다.
이때 이 X를 확률변수라고 부릅니다.
위에서 설명한 과정을 다음과 같이 요약해 보았습니다.
확률실험을 통해 나오는 사건을 숫자(실수; real value)로 맵핑(mapping)하여, 그 맵핑된 숫자를 값으로 가질 수 있는 변수를 확률변수라고 부르자.
확률변수는 변수라는 이름을 갖고 있지만, 맵핑을 강조하면 변수라기 보다는 함수입니다.
함수이기도 하고 변수이기도 하고...그래도 엄밀히 말하면 함수입니다. 정의하는 과정이 맵핑이므로.
예들 들어겠습니다.
이번에는 동전 2개를 동시에 던졌습니다.
다음과 같이 확률 변수를 정의할 수도 있습니다.
'앞면의 갯수를 확률변수 X라 하자.'
언뜻 보면 맵핑이 없어 보이는데, 이것은 다음과 같이 풀어쓰면 확실히 확률변수가 맞습니다.
앞면이 하나도 안나오면 0, 한개 나오면 1, 두개 나오면 2로 맵핑하는 것을 확률변수 X라 하자.
확률실험에 대해 사건을 실수로 맵핑하는 방법은 무수히 많기 때문에, 확률변수는 무수히 정의할 수 있습니다.
[확률분포]
앞면의 갯수를 확률변수 X로 할 때,
X가 가질 수 있는 값은 0, 1, 2 입니다.
그리고 공정한 동전이라면 각각의 확률은 다음과 같을 것입니다.
P(X=0)=1/4
P(X=1)=2/4
P(X=2)=1/4
확률변수가 가질 수 있는 모든 값에 대한 확률을 다음과 같이 표를 이용해 펼쳐(distribute)보겠습니다.다.
X012P(X)1/42/41/4이렇게 확률을 펼쳐놓은 표를 '확률분포표'라고 합니다.
이 표를 보면 확률변수 X의 성격, 특성이 잘 드러나 있습니다.
확률변수를 알기 위한 매우 중요한 표입니다.
위와 같이 확률변수가 가지는 값이 따로따로 떨어져 있는, 불연속, 즉 이산(離散; discrete)적인 경우의 확률변수를 이산확률변수라고 합니다.
확률변수가 가지는 값이 연속적인 경우의 확률변수를 연속확률변수라고 합니다.
연속확률변수는 가질 수 있는 값이 무한대이므로 표로 나타낼 수 없습니다.
그래서 그래프로 나타내는고 더 나아가 식으로도 나타냅니다. 이 식을 '확률분포함수'라고 부릅니다.
이름은 다르지만 확률변수가 가지는 모든 값에 대한 확률(값)을 펼쳐 놓았다는 점은 같습니다.
그냥 분포함수, 심지어는 (확률)분포라고 축약해서 부르기도 합니다.
확률통계에서 분포함수, 분포라는 말이 사용되면, 확률분포함수라고 이해하면 무방합니다.
확률분포함수도 연속확률변수의 것인지 이산확률변수의 것인지에 따라 이름을 세분화 해 놓았습니다.
확률밀도함수, 확률질량함수
확률분포표(이산확률변수 대응)도 그래프로 나타낼 수 있고 확률분포함수(연속확률변수 대응)도 그래프로 나타낼 수 있습니다. 그러나, 둘은 큰 차이가 있습니다. 그래프의 가로방향은 확률변수가 가질 수 있는 값으로 동일하지만,
그래프의 세로방향은 차이가 있습니다.
예상할 수 있듯이 이산확률변수의 그래프에서 세로축은 확률입니다.
그러나, 연속확률변수의 그래프에서 세로축은 확률값이 아닙니다. 왜냐하면, 확률변수가 가질 수 있는 값의 갯수가 무한대이기 이므로 특정 값에서의 확률값은 항상 0(분수에서 분모가 무한대)입니다.
연속확률변수에 대한 그래프를 떠 올려 봅시다.
그래프 아래 면적을 다 합치면 1이 되도록 약속해 두었습니다.
따라서, 연속확률변수에서는 주어진 범위에 해당하는 그래프 아래의 면적이 주어진 범위에 들어올 확률이 됩니다.
이때, 그래프의 세로축을 '확률밀도'라고 부르기로 하였습니다.
보통 그래프의 이름은 그래프의 세로축 값으로 이름을 짓습니다. 그래서, 확률밀도 값을 세로축으로 갖는 함수의 이름은 '확률밀도함수'입니다. (Probability Density Function; pdf)
이산확률변수의 그래프는 확률질량함수라고 부릅니다.(Probability Mass Function; pmf)
(확률질량함수)라고 부르는 이유를 생각해 봤는데...
확률밀도함수에서 가로축 한개는 확률변수가 하나인 경우입니다. 만약 확률변수가 2개라면 변수의 값을 표현하려면 축은 2개가 필요합니다. 3개라면 축은 3개가 필요합니다. 축이 하나씩 늘어나는 것은 차원이 하나씩 늘어난다고 말할 수 있습니다. 도형에서 점, 선, 면, 입체라는 용어가 쓰이는데, 0차원(전혀 움직일 여지가 없음), 1차원(점이 움직여 선을 이룸; 길이), 2차원(선을 움직여 면을 이룸; 면적), 3차원(면이 움직여 입체를 이룸; 부피)까지를 나타내는데 사용됩니다. 그 이상은 hypervoulume 이라고 부르니까, 일반적인 차원에 대해 그래프의 가로축을 부피라고 하고 세로축을 확률 밀도(=질량/부피)라고 하면, 확률은 = 부피 x (질량 / 부피) = 질량 으로 계산됩니다. 그래서, 확률질량이란 단어를 쓴 것이 아닐까...추측해 봅니다.
[표기법]
확률변수 X에 대한 확률이라는 걸 이미 알고 있다면 다음과 같이 변수 X를 빼고 값만 쓰기도 합니다.
어느 확률변수에 대한 값인지가 명확하지 않는 표기법이지만 사용하기는 편리합니다.
p(0)=1/4
p(1)=2/4
p(2)=1/4
값을 미지수로 대체하여 일반적으로 써보면 다음과 같습니다.
$p(x)$
미지수를 소문자 x로 썼기 때문에, 확률변수 X (대문자)에 대한 것이라고 알 수 있습니다.
혼동을 주지 않은 더 좋은 표현은 다음과 같습니다.
$p_X(x)$
정리하면, 다음 3가지 표현이 사용되므로 문맥에 맞게 잘 해석할 필요가 있습니다.
일반적으로 확률질량함수인 경우 P를 대문자로 쓰고, 확률밀도함수인 경우 소문자 p를 씁니다.
$p(X=x)=p_X(x)=p(x)$