콕스 비례위험모형 역학연구나 임상시험에서 연구자들이 자주 마주하는 데이터 유형 중 하나는 ‘시간’과 관련된 정보다.
즉 어떤 사건이 ‘언제’ 일어났는지를 관찰하는 생존 데이터를 다룰 일이 많다는 뜻이다. 이때 가장 널리 쓰이면서도 강력한 분석 도구가 바로 콕스 비례위험모형(Cox Proportional Hazards Model) 이다. 콕스 모형은 사건이 발생할 위험(즉, 위험도)을 시간에 따라 추정하면서도 기존에 관측된 변수들이 이 위험도에 어떤 영향을 미치는지 평가할 수 있도록 해준다. 특히 특정 시간에 사건이 발생하지 않은 관측값(우측 절단 데이터)을 포함할 수 있다는 점에서
단순 회귀분석보다 훨씬 유연하고 현실적이다.
콕스 모형은 ‘사건 발생까지의 시간(time-to-event)’이 주요 관심인 연구에 특화된 모델이다. 예를 들어 다음과 같은 질문에 대답할 때 필수적인 도구다.
이런 질문에는 단순히 사건 발생 여부만 보는 것이 아니라 언제 일어났는지와 시간이 지남에 따라 위험도가 어떻게 변화하는지를 파악해야 한다. 콕스 모형은 바로 이러한 시간의 개입을 반영하면서도, 변수의 효과를 추정할 수 있는 구조를 갖고 있다.
| 관심 결과 | 사건 발생 여부 | 사건 발생까지 걸린 시간 |
| 시간 고려 여부 | X | O |
| 절단 자료 처리 | 어려움 | 가능 |
| 출력 해석 | 오즈비 (Odds Ratio) | 위험비 (Hazard Ratio) |
콕스 비례위험모형 콕스 비례위험모형의 수식은 수학적으로는 복잡해 보일 수 있지만 핵심은 ‘위험비(Hazard Ratio)’를 시간에 따라 추정한다는 데 있다.
h(t | X) = h₀(t) × exp(β₁X₁ + β₂X₂ + ... + βpXp)
여기서 각 항목의 의미는 다음과 같다.
즉, 개인의 위험도는 시간(t)에 따라 변하는 기초 위험에 설명 변수의 영향을 곱한 형태로 정의된다. 이 모델의 핵심은 기초 위험 함수는 추정하지 않아도 된다는 점이다. 이로 인해 콕스 모형은 세미-파라메트릭 모형(semi-parametric model) 으로 분류된다.
| `h(t | X)` |
| h₀(t) | 변수에 영향을 받지 않는 기초 위험 함수 |
| exp(βX) | 변수의 위험도 비율에 대한 기여도 (해석 핵심 부분) |
콕스 비례위험모형 콕스 모형이 성립하려면 ‘비례위험(Proportional Hazards)’ 가정이 만족되어야 한다. 이 가정은 두 그룹 간의 위험비(HR)가 시간에 따라 일정하다는 의미다. 예를 들어, 약물 복용군과 위약군의 사망 위험비가 항상 2:1로 유지된다면
이는 비례위험 조건을 충족하는 것이다. 하지만 시간이 지날수록 두 그룹 간 위험비가 바뀐다면 이 가정이 깨진 것이며 콕스 모형은 부적절해질 수 있다. 이를 검증하는 방법으로는 Schoenfeld 잔차 검정이나 로그 로그 그래프의 평행성 시각화 등이 활용된다.
| Schoenfeld 잔차 | 시간에 따른 β의 변화 확인 |
| 로그-로그 그래프 | 그룹 간 생존곡선의 로그-로그 변환 후 평행 여부 확인 |
콕스 비례위험모형 콕스 모형의 출력 결과는 일반적으로 변수의 계수(β)와 위험비(Hazard Ratio = exp(β)), 그리고 신뢰구간(CI) 으로 나타난다. 위험비(HR)는 다음과 같이 해석된다.
예를 들어 HR이 1.5라면 해당 변수에 노출된 집단이 그렇지 않은 집단보다 사건이 1.5배 더 빨리 발생할 위험이 있다는 뜻이다.
| 고혈압 | 1.72 (1.40–2.10) | 고혈압 있는 사람의 사망 위험이 72% 높음 |
| 운동 습관 | 0.65 (0.50–0.83) | 규칙적 운동은 사망 위험 35% 감소 |
| 흡연 | 2.10 (1.80–2.45) | 흡연자는 비흡연자보다 2.1배 위험 |
다음은 가상의 연구 예시를 통해 콕스 모형의 적용을 보여주는 예이다.
연구 목적: 폐암 환자의 생존 시간에 영향을 주는 요인 분석
데이터 구성:
결과 요약 (발췌):
| 흡연자 vs 비흡연자 | 1.98 (1.60–2.50) | <0.001 |
| 항암치료 받음 | 0.60 (0.45–0.80) | 0.002 |
| 연령 (10세 증가당) | 1.25 (1.10–1.43) | 0.015 |
해석:
흡연자는 비흡연자에 비해 생존 위험이 약 2배 증가하며 항암치료를 받은 환자는 받지 않은 환자보다 사망 위험이 40% 낮았다.
연령이 높을수록 생존 가능성은 감소했다.
콕스 모형은 강력하지만, 잘못 해석되면 오히려 인과관계를 왜곡할 수 있다. 다음과 같은 실수들을 피하는 것이 중요하다.
| 인과 오해 | HR ≠ 인과효과 |
| 시간 비례 무시 | HR이 시간에 따라 달라질 경우 불가 |
| 단위 미지정 | 나이 1세 vs 10세 차이 혼동 |
| 다중 비교 통계적 오류 | p-value 해석 주의 필요 |
콕스 모형은 기본형 외에도 다양한 확장 버전이 존재한다. 특히 다음과 같은 상황에서는 기본형으로는 부족하다.
이런 경우에는 다음과 같은 기법을 적용할 수 있다:
| 시간에 따라 효과 달라짐 | 시간변화 변수 포함 콕스모형 (TV-Cox) |
| 여러 사건 반복 발생 | Andersen–Gill 모형 |
| 그룹 내 상관 존재 | Frailty 모형 (무작위 효과 포함) |
| 경쟁위험 존재 | Fine and Gray 경쟁위험 모형 |
콕스 비례위험모형 콕스 비례위험모형은 생존분석 분야에서 없어서는 안 될 핵심 도구다. 이 모형은 단순한 통계 기법을 넘어
시간이라는 변수와 위험의 개념을 통합적으로 다루며 정확하고 실용적인 해석을 가능하게 해준다. 하지만 그만큼 가정과 해석의 정확성이 요구되는 모델이기도 하다. 비례위험 가정, 변수의 단위, 인과와 연관의 구분, 적절한 모델 선택 등 세심한 주의 없이는 오히려 결과를 왜곡할 수 있다. 콕스 모형을 자유자재로 다루고 해석할 수 있다면 생존 분석을 넘어 다양한 시간-사건 연구에 강력한 도구를 갖추게 되는 셈이다.