Panda Project


  panda(2011-02-27 18:24:20, Hit : 2805, Vote : 42
 [용어] 통계와 분석 ; 교차, 분산, 회귀, 상관

---------------------------------------
교차분석(Crosstabulation Analysis)은
---------------------------------------
http://blog.naver.com/sako71/130097752202

범주형 자료(명목척도)를 두 개 혹은 그 이상의 변수에 대한 결합분포(결합빈도)를 나타내는 분할표를
보여준다. 즉, 특정 속성에 대하여 집단별로 어떤 관련성이 있는지를 알아보기 위해서 사용하는 분석
방법이다. 교차분석은 기대빈도에서 관측빈도가 얼마나 벗어낫는지의 총합으로 기대빈도와 실제관측
빈도간의 차이를 비교하며 독립성 또는 연관성을 판단하는 방법은 카이제곱검정(χ2 Chi-square test)
을 이용한다.

단일 변수와 관련된 질문에 대한 응답결과가 비록 흥미로운 것이라 할지라도 연구자들은 가끔 다른 변수들과의 관계에 대해 궁금함을 느끼게 된다. 예를 들어, 마케팅 리서치에서 연구자들은 대체로 다음과 같은 질문에 관심을 갖게 된다.1


- 브랜드 충성도가 있는 사용자들 중에 남성의 비율은?
- 신제품에 대한 친밀도는 연령이나 교육수준과 어떤 관계가 있을까?
- 제품을 소유하고자 하는 마음은 수입의 정도와 어떤 연관이 있을까?


이와 같은 궁금증을 해소하기 위해서는 교차분석을 이용하여 해결할 수 있다. 빈도분포는 한 변수에 대해 한 번에 설명해 주지만, 교차분석은 2개 혹은 그 이상의 변수에 대해 연속적으로 설명해 준다.

* 교차분석의 특징

- 교차분석은 통계적 지식이 부족한 관리들일지라도 쉽게 결과를 해석하고 이해할 수 있기 때문이다.
- 명확한 해석을 통해 리서치 결과와 관리적인 행동간의 결합을 보다 강하게 해 준다.
- 교차분석은 단일의 다변량분석에 의한 것 보다 복잡한 현상을 해석하는 데 보다 강한 통찰력을 제시해 준다.
- 교차분석은 보다 구체적인 다변량분석을 통해 설명이 부족한 셀에 대한 문제를 경감시켜 준다.
- 교차분석은 세련되지 못한 연구자일지라도 단순하게 실행할 수 있다.

* 교차분석 사례

위키피디아에 가니 간단하고 이해하기 쉬운 교차분석 사례가 있었다.
12명에 대해 조사를 하여 다음과 같은 결과가 나왔다고 하자.

순번
성별
왼손/오른손

1
여자
오른손잡이
2
남자
왼손잡이
3
남자
오른손잡이
4
여자
오른손잡이
5
여자
오른손잡이
6
남자
오른손잡이
7
남자
왼손잡이
8
남자
오른손잡이
9
여자
오른손잡이
10
여자
왼손잡이
11
남자
오른손잡이
12
여자
오른손잡이

위의 결과를 가지고 교차분석을 하면 다음과 같이 나온다.

다음과 같은 결과를 내는 분석 방법을 교차분석, 영어로는 crosstabulation이라고 한다.
 
오른손잡이
왼손잡이
합계

남자
4
2
6

여자
5
1
6

합계
9
3
12

설문조사 또는 어느 자료를 교차분석하였을때 아래의 예를 참조하면 도움이 될듯하여 올려 봅니다  


-------------------------------------------------
분산분석(Analysis of variance, ANOVA, 변량분석)은
-------------------------------------------------

통계학에서 두 개 이상 다수의 집단을 비교하고자 할 때 집단 내의 분산, 총평균과 각 집단의 평균의 차이에 의해 생긴 집단 간 분산의 비교를 통해 만들어진 F분포를 이용하여 가설검정을 하는 방법이다. 통계학자이자 유전학자인 로날드 피셔(R.A. Fisher)에 의해 1920년대에서 1930년대에 걸쳐 만들어졌다.

>> F분포
F분포는 분산의 비교를 통해 얻어진 분포비율이다. 이 비율을 이용하여 각 집단의 모집단분산이 차이가 있는지에 대한 검정과 모집단평균이 차이가 있는지 검정하는 방법으로 사용한다. 즉 F = (군간변동)/(군내변동)이다. 만약 군내변동이 크다면 집단간 평균차이를 확인하는 것이 어렵다. 분산분석에서는 집단간의 분산의 동질성을 가정하고 하기 때문에 만약 분산의 차이가 크다면 그 차이를 유발한 변인을 찾아 제거해야 한다. 그렇지 못하면 분산분석의 신뢰도는 나빠지게 된다.

>> 가정
- 정규성 가정
두 모집단에서 변인 Y는 정규분포를 따른다. 두 모집단에서 Y의 평균은 다를 수 있다.
- 분산의 동질성 가정
Y의 모집단 분산은 두 모집단에서 동일하다.
- 관찰의 독립성 가정
두 모집단에서 크기가 각각 n1, n2인 표본들이 독립적으로 표집된다.
두 표본에서 산출된 모집단 분산의 추정치의 비율 을 구한다. 이를 'F' 또는 'F 통계치'라고 한다. F 값들은 특정한 이론적 확률분포를 따르게 되는데 이것이 F 분포이다.

>> 분산분석 모형
실험계획을 수행할 때 수준을 선택하는 방법에 따라 모수인자와 변량인자가 있으며 각각 다음과 같은 분산분석 모형이 있다,

>> 고정효과 모형
고정효과 인자는 수준의 선택이 기술적으로 정해져 있고 각 수준이 기술적 의미를 가지고 있는 효과 인자를 말한다. 예로 온도, 압력 같은 것들이다. 모수인자만 사용된 경우 고정효과 모형(Fixed-effects model, 모수인자 모형)이라고 한다. 이 경우 각 수준에서의 모평균 값의 추정에 의미를 두고 있다.

>> 무선효과 모형
무선효과 인자는 수준의 선택이 임의적으로 이루어지며 각 수준이 기술적 의미를 가지고 있지 않은 효과 인자를 말한다. 예를 들어 원료의 종류 같은 것들이다. 무선효과 인자만 사용된 경우 무선효과 모형(Random-effects model, 변량인자 모형)이라고 한다. 이 경우 각 수준은 임의적으로 결정되었기 때문에 각 수준의 모평균값의 추정이 의미가 없으며 단지 인자에 의한 산포의 정도를 추정하는 것에 의미를 두고 있다. 대표적인 예로 Gage R&R이 있다.

>> 혼합효과 모형
고정효과 인자와 무선효과 인자가 함께 사용된 경우 혼합효과 모형(Mixed-effects model, 혼합인자 모형)이라고 한다.

>> 분산분석의 종류
> 일원분산분석(one-way ANOVA)
종속변인은 1개이며, 독립변인의 집단이 2개 이상인 경우이다. 예를 들어 가구소득에 따른 식료품소비 정도의 차이이다. 여기서 가구소득은 독립변인으로 가구소득집단의 구분-저소득, 중산층, 고소득층 등으로 2개 이상이다. 독립변인의 집단이 2개 이상이므로 사후분석을 실시한다.

>> 이원분산분석(two-way ANOVA)
독립변인의 수가 두 개 이상일 때 집단 간 차이가 유의한지를 검증하는 데 사용한다. 예를들어 독립변인 2개, 종속변인이 동일한 경우로 학력및 성별에 따른 휴대폰요금의 차이를 분석한다면 이때 학력, 성별은 독립변인이고 종속변인은 휴대폰요금이 된다. 이원분산분석은 주효과와 상호작용효과를 분석할 수 있다. 주효과는 학력(a), 성별(b)이라면 상호작용효과는 이를 곱한 a*b이다. 여기서 상호작용효과가 유의하다면 그래프를 만들어 볼 수 있다.

>> 다원변량분산분석(MANOVA)
단순한 분산분석을 확장하여 두개 이상의 종속변인이 서로 관계된 상황에 적용시킨 것이다. 둘 이상의 집단간 차이를 검증 할 수 있다.

>> 공분산분석(ANCOVA)
다원변량분산분석에서 특정한 독립변인에 초점을 맞추고 다른 독립변인은 통제변수로 하여 분석하는 방법이다. 특정한 사항을 제한을 하여 분산분석을 하는 것이다.

----------------------------------------
회귀분석(回歸分析, regression analysis)은
----------------------------------------

통계학에서 관찰된 연속형 변수들에 대해 독립변수와 종속변수 사이의 인과관계에 따른 수학적 모델인 선형적 관계식을 구하여 어떤 독립변수가 주어졌을 때 이에 따른 종속변수를 예측한다. 또한 이 수학적 모델이 얼마나 잘 설명하고 있는지를 판별하기 위한 적합도를 측정하는 분석 방법이다.

1개의 종속변수와 1개의 독립변수 사이의 관계를 분석할 경우를 단순회귀분석(Simple Regression Analysis), 1개의 종속변수와 여러 개의 독립변수 사이의 관계를 규명하고자 할 경우를 다중회귀분석(Multiple Regression Analysis)이라고 한다.

회귀분석은 시간에 따라 변화하는 데이터나 어떤 영향, 가설적 실험, 인과관계의 모델링등의 통계적 예측에 이용될 수 있다. 그러나 많은 경우 가정이 맞는지 아닌지 적절하게 밝혀지지 않은 채로 이용되어 그 결과가 오용되는 경우도 있다. 특히 통계소프트웨어의 발달로 분석이 용이해져서 결과를 쉽게 얻을 수 있지만 적절한 분석방법의 선택이였는지 또한 정확한 정보분석인지 판단하는 것은 연구자에 달려 있다.

>> 역사
회귀(Regress)의 원래 의미는 옛날 상태로 돌아가는 것을 의미한다. 영국의 유전학자 프란시스 갈톤(Francis Galton)은 부모의 키와 아이들의 키사이의 연관관계를 연구하면서 부모와 자녀의 키사이에는 선형적인 관계가 있고 키가 커지거나 작아지는 것보다는 전체 키 평균으로 돌아가려는 경향이 있다는 가설을 세웠으며 이를 분석하는 방법을 "회귀분석"이라고 하였다. 이러한 경험적 연구후에 칼 피어슨(Karl Pearson)은 아버지와 아들의 키를 조사한 결과를 바탕으로 함수 관계를 도출하여 수학적 전개를 정립하였다.

>> 회귀분석의 표준 가정
회귀분석은 다음의 가정을 바탕으로 한다.

잔차(Residuals)는 모든 독립변수 값에 대하여 동일한 분산을 갖는다.
잔차의 평균은 0이다.
수집된 데이터의 분산은 정규분포를 이루고 있다.
독립변수 상호간에는 상관관계가 없어야 한다.
시간에 따라 수집한 데이터들은 잡음의 영향을 받지 않아야 한다.
독립변수들간에 상관관계가 나타나는 경우 다중공선성문제라고 한다.

>> 회귀모형 적합도
회귀모형이 적합한지 확인하기 위해 결정계수 R2을 사용한다. 이는 회귀모형의 독립변수가 종속변수 변동의 몇%를 설명하고 있는지를 나타내는 지표이다.

-------------------------------
상관분석(Correlation Analysis)은
-------------------------------

확률론과 통계학에서 두 변수간에 어떤 선형적 관계를 갖고 있는 지를 분석하는 방법이다. 두변수는 서로 독립적인 관계로부터 서로 상관된 관계일 수 있으며 이때 두 변수간의 관계의 강도를 상관관계(Correlation, Correlation coefficient)라 한다. 상관분석에서는 상관관계의 정도를 나타내는 단위로 모상관계수 ρ를 사용한다.

상관관계의 정도를 파악하는 상관계수(Correlation coefficient)는 두 변수간의 연관된 정도를 나타낼 뿐 인과관계를 설명하는 것은 아니다. 두 변수간에 원인과 결과의 인과관계가 있는지에 대한 것은 회귀분석을 통해 인과관계의 방향, 정도와 수학적 모델을 확인해 볼 수 있다.

>> 분석방법
단순히 두 개의 변수가 어느 정도 강한 관계에 있는가를 측정하는 단순상관분석(simple correlation analysis), 3개 이상의 변수들간의 관계에 대한 강도를 측정하는 다중상관분석이 있다. 다중상관분석에서 다른 변수들과의 관계를 고정하고 두 변수만의 관계에 대한 강도를 나타내는 것을 편상관계분석(partial correlation analysis)이라고 한다.

이때 상관관계가 0<ρ≤+1 이면 양의 상관, -1≤ρ<0 이면 음의 상관, ρ=0이면 무상관이라고 한다. 하지만 0인 경우 상관이 없다는 것이 아니라 선형의 상관관계가 아니라는 것이다.

>> 피어슨 상관계수 (Pearson correlation coefficient)
피어슨 상관계수는 두 변수간의 관련성을 구하기 위해 보편적으로 이용된다. 개념은 다음과 같다.

       r = X와 Y가 함께 변하는 정도 / X와 Y가 따로 변하는 정도

>> 결과의 해석
r 값은 X 와 Y 가 완전히 동일하면 +1, 전혀 다르면 0, 반대방향으로 완전히 동일 하면 –1 을 가진다. 결정계수 (coefficient of determination) 는 r^2 로 계산하며 이것은 X 로부터 Y 를 예측할 수 있는 정도를 의미한다.

일반적으로

r이 -1.0과 -0.7 사이이면, 강한 음적 선형관계,   r이 -0.3과 -0.7 사이이면, 뚜렷한 음적 선형관계,   r이 -0.1과 -0.3 사이이면, 약한 음적 선형관계,   r이 -0.1과 +0.1 사이이면, 거의 무시될 수 있는 선형관계,   r이 +0.1과 +0.3 사이이면, 약한 양적 선형관계,   r이 +0.3과 +0.7 사이이면, 뚜렷한 양적 선형관계,   r이 +0.7과 +1.0 사이이면, 강한 양적 선형관계
로 해석한다.

>> 스피어만 상관계수 (Spearman correlation coefficient)

스피어만 상관계수는 데이터가 서열척도인 경우 즉 자료의 값 대신 순위를 이용하는 경우의 상관계수로서, 데이터를 작은 것부터 차례로 순위를 매겨 서열 순서로 바꾼 뒤 순위를 이용해 상관계수를 구한다. 두 변수 간의 연관 관계가 있는지 없는지를 밝혀주며 자료에 이상점이 있거나 표본크기가 작을 때 유용하다. 스피어만 상관계수는 -1과 1 사이의 값을 가지는데 두 변수안의 순위가 완전히 일치하면 +1이고, 두 변수의 순위가 완전히 반대이면 -1이 된다. 예를 들어 수학 잘하는 학생이 영어를 잘하는 것과 상관있는지 없는지를 알아보는데 쓰여질 수 있다.

>> 크론바흐 알파 계수(Cronbach Alpha) 신뢰도

크론바흐 알파 계수(Cronbach's alpha)의 신뢰도 계수 α는 검사의 내적 일관성을 나타내는 값으로서 한 검사 내에서의 변수들 간의 평균상관관계에 근거해 검사문항들이 동질적인 요소로 구성되어 있는지를 분석하는 것이다. 동일한 개념이라면 서로 다른 독립된 측정 방법으로 측정했을 때 결과가 비슷하게 나타날 것이라는 가정을 바탕으로 한다.예를 들어 설문지 조사의 경우 잘 만들어 같은 내용의 질문을 다른 형태로 반복하여 질문한 다음 같게 대답했는지를 검사하여 신뢰도를 알아 볼 수 있다. 일반적으로는 요인분석을 하여 요인들을 추출하고 이들 요인들이 동질 변수들로 구성되어 있는지를 확인할 때 이용한다. 사전조사나 같은 속성의 질문을 반복하여 신뢰도를 높일 수 있다.

-----------------------------------------------------
공분산 (covariance)
-----------------------------------------------------

분산이 모집단으로 부터 추출한 표본 데이터들의 편차의 제곱의 산술적 평균을 의미하는 것이라면
이는 하나의 변수가 어떻게 분포하고 있느냐를 표본집단의 분산을 봄으로서 모집단의 분포를 추정하는 것이다.

분산은 기호가 없으므로 분산에 제곱근을 취해주면 이는 표준편차가 된다.
분산과 표준편차는 어느 한 변수의 평균으로 부터 어떻게 분포를 하는가를 확인하는 수치인 것이다.

공분산이라 하면 분산과는 다르게
하나의 변수가 아닌 두 변수 사이의 관계를 나타낸다고 생각하면 될 것이다.
이 두 변수간의 변동을 공분산 Cov(X, Y) 이라 한다.

공분산 값은 아래와 같이 나타낸다.
Cov(X, Y) > 0    X가 증가 할 때 Y도 증가한다.
Cov(X, Y) < 0    X가 증가 할 때 Y는 감소한다.
Cov(X, Y) = 0    공분산이 0이라면 두 변수간에는 아무런 선형관계가 없으며 두 변수는 서로 독립적인 관계에 있음을 알 수 있다.
그러나 두 변수가 독립적이라면 공분산은 0이 되지만, 공분산이 0이라고 해서 항상 독립적이라고 할 수 없다.

공분산의 개념은 우리가 흔히 사용하는 상관계수와 연관지어 생각해 보아야 한다.
공분산을 구하다 보면,
공분산 값이 항상 일정하지 않기 때문에 비교하고자 한다면 계산도 해야하며 머리가 아파온다.

-000000... <= Cov(X, Y) <= 000000...(ex)

그래서 이를 표준화 시켜주는 작업으로 공분산에 표준편차로 나누어 주면
값이 -1 <= Corr(x, y) <= 1 사이 범위로 좁혀지면서 우리는 쉽게 비교할수가 있어진다.
이것이 바로 상관계수 Corr(x, y)인 것이다.

두 변수간의 관계는 어차피 선형적인 관계를 의미한다.
여기서 선형이란 직선을 의미하는데

그래프로 나타내면 두 변수 모두 연속형 변수이기에 결과적으론 선형적인 관계를 나타낼 것이다.
이를 숫자로 나타내면 1에 가까울수록 직선의 모양이 비례적으로 선형관계를 나타 낸다는 것이다.
직선의 기울기가 45도 이고 선형적인 관계가 있을 때 상관계수는 1에 가깝게 나타난다.

공분산과 상관계수를 선형적인 의미로 정의하자면 아래와 같이 나타낼 수 있을 것이다.

<< 공분산(Covariance) >>

두 개의 확률변수의 분포가 결합된 결합확률분포의 분산, 방향성은 나타내지만, 결합정도에 대한 정보로서는 유용하지 않다.
공분산이 0보다 크면 두 변수는 같은 방향으로 움직이고, 0보다 작으면 다른 방향으로 움직임을 의미한다.
만약 공분산이 0이라면 두 변수간에는 아무런 선형관계가 없으며 두 변수는 서로 독립적인 관계에 있음을 알 수 있다.

그러나 ! 두 변수가 독립적이라면 공분산은 0이 되지만, 공분산이 0이라고 해서 항상 독립적이라고 할 수 없다.  

<< 상관계수(Correlation coefficient) >>

두 개의 확률변수 사이의 선형적 관계정도를 나타내는 척도. 방향성과 선형적 결합 정도에 대한 정보를 모두 포함하고 있다.
두 변수의 공분산을 각 변수의 표준편차로 모두 나누어 구할 수 있으며, -1과 1사이에서 그 값이 결정된다.
공분산은 원래의 단위의 곱이 되기 때문에 경우에 따라서 이를 표준화할 필요가 있으며, 표준화한 결과가 상관계수가 된다.  

공분산의 많은 성질은 내적이 가지는 성질과 유사하다.:

(1) 이중선형연산: 상수 a와 b 그리고 확률변수 X, Y, U, Cov(aX + bY, U) = a Cov(X, U) + bCov(Y, U)
(2) 대칭성: Cov(X, Y) = Cov(Y, X)
(3) 양수값: Var(X) = Cov(X, X) ≥ 0이고 Cov(X, X) = 0 이란 것은 X가 상수확률변수(K)라는 뜻이다.

공분산은 확률변수들의 벡터 공간 상에서의 내적을 의미한다.
벡터에서 적용되는 벡터합 X + Y 및 aX와 같은 스칼라곱의 성질도 지닌다.




[용어] ARCH and GARCH model Time Series
[용어] 머천다이징과 머천다이저(Merchandiser) ; MD

Copyright 1999-2019 Zeroboard / skin by zero
  copyright ⓒ 2005 ZIP365.COM All rights reserved