임상진료지침정보센터

문헌의 질평가 필요성

근거에 사용될 수 있는 자료로 선택된 문헌에 대해 그 타당성을 평가해야 한다. 이러한 평가의 결과는 문헌의 근거수준을 결정하며, 이는 결과적으로 권장사항의 등급에 영향을 미치게 된다. 근거 평가는 주로 연구 설계에 초점을 두며, 연구 결과의 타당성을 손상시키는 비뚤림이 얼마나 존재하는지에 의해 결정된다. 진료지침 개발을 위해 체계적인 방법으로 선택된 근거는 반드시 평가과정을 거쳐야 하며 그 이유는 다음과 같이 정리할 수 있다.

첫째, 지침의 권장사항을 구성하는데 사용할 근거의 최소한의 질적 수준을 보장해야 하기때문이다. 일반적으로 무작위배정 비교임상시험(RCT)이 가장 근거의 수준이 높다고 알려져 있으나, 문제의 성격에 따라 그 문제를 가장 잘 설명할 수 있는 연구 디자인이 존재할 것 이다. 근거의 양뿐 아니라 질적인 부분을 고려한다고 할 때, 양질의 근거로 받아들일 수 있는 최소한의 기준을 세워 포함기준으로 설정하는 것이 필요하다.
둘째, 근거의 질에 따라 결과가 상이할 수 있으므로, 포함기준을 충족시키는지 평가하는 질평가가 필요하다.
셋째, 양질의 근거의 결과를 선택적으로 해석할 수 있다. 즉, 같은 효과크기를 보인다하더라도 근거의 질이 높게 평가된다면, 세부분석 등을 통해 해당 근거만을 대상으로 분석을시행할 수 있다.

질 평가방법이나 도구, 질 평가결과를 체계적 문헌고찰에 포함시키는 방법 등에 대한 논란은 여전히 있으나, 진료지침 개발과 체계적 문헌고찰을 일차문헌평가에 반드시 문헌의질을 평가하도록 권고하고 있다.

근거의 평가과정은 불가피하게 일정한 주관적 판단이 개입된다. 연구가 충족해야하는 특별한 기준, 예를 들면 추구조사에서 손실률 등이나 연구 결과의 임상적 적용 가능성 등에 관한 것이다. 이로인한 잠재적 편견을 최소화하기 위해서 SIGN 가이드라인개발 그룹은 각 연구들이 최소한 두 사람의 구성원이 별개로 평가할 수 있도록 권장한다. 평가에 있어서 나타난 평가자간의 차이는 전체 그룹에서 다시 평가되어져야 한다. 나아가서 각 진료지침에서 인용된 논문을 무작위로 추출하여 진료지침 개발그룹이 아닌 다른 누군가가 검토를 하여, 그 결과를 진료지침 개발 그룹과 평가할 수도 있다.

연구설계의 종류

연구설계 분류
문헌 고찰 혹은 체계적 고찰을 위해서는 문헌검색을 통해 일차적으로 파악된 문헌들을 분류하고 각각을 평가 대상으로 삼을지를 결정해야 한다. 평가자는 다양한 형태로 존재하는 대상 문헌을 일련의 규칙에 의거해 분류하고 그 결과를 반영해야 한다. 따라서 해당 문헌의 비뚤림 평가에 앞서 각각의 문헌을 사전에 정한 연구의 틀 분류에 맞추어 정리할 필요가 있다.

중재의 효과를 보는 연구는 무작위배정 비교임상시험의 중요성 때문에 무작위 연구와 비무작위 연구(non-randomized studies)로 구분하기도 하고, 연구자의 참여에 따라 실험(experimental)연구와 관찰(observational)연구로 구분하기도 한다.

딕스 등은 영국 National Health Service(NHS), Health Technology Assessment(HTA)로 시행한 분석에서 중재연구를 다음 <표7-1>과 같이 구분하도록 제안하였다.
연구설계의 분류도구
연구 설계의 분류를 위해 통상적으로 몇 가지 분류도구를 과거부터 이용해 오고 있다. 그러나 실제로 이를 적용하는 과정에서 용이한 적용이 어렵고 분류 결과가 연구자마다 다르게 나타나는 어려움이 있었다. 여기서는 이들의 장단점을 비교하고 이를 바탕으로 개발한 분류도구를 소개한다<그림7-1>.

이는 기존의 타 분류도구에 비해 가장 많은 연구설계를 포함한다. 앞으로 다양한 임상연구들을 대상으로 본 분류도구와 타 분류도구사이의 비교평가를 시행하는 것이 필요하다.

문헌평가의 개념 및 항목

문헌의 질 평가 항목
문헌의 질은 계통적오류, 비계통적오류, 추론오류 즉 연구디자인, 수행, 분석을 통해 선택, 측정, 혼란 비뚤림을 최소화 하는 방법론적 질과 연구결과의 임상적, 정책적 적절성을 반영하는 비방법론적 질로 구분한다. 대체로 방법론적 질을 문헌의 질로 표현하며, 이중 비뚤림을 최소화한 정도 (내적 타당도의 정도)를 가리키는 경우가 많아 일부 정밀도의 개념을 문헌의 질 평가에 포함시키기도 한다.
다학제성

연구 결론의 일반화 가능성, 즉 연구결론이 연구 밖의 일반세계에 적용되었을 때 얼마나 타당한가를 의미한다. 평가영역에서 외적타당도는 현재의 연구가 평가하려고하는 평가 질문에 얼마나 부합한가로 판단한다.

내적타당도

실제 연구 대상자와 실제로 측정된 변수가 각기 의도된 표본과 의도된 변수를 반영하지 못하면, 이에 기인하는 오류가 연구내에서 실제로 발생한 사실에 대한 추론의 타당성을 위협하는 것, 즉 연구자의 결론이 해당 연구에서 실제로 발생한 사견을 올바르게 반영하는 정도를 말한다. 내적타당도는 연구가 ‘연구 질문에 얼마나 바르게 대답하였는가’ 혹은 ‘비뚤림 없이 대답하였는가’로 평가할 수 있다.

오류(error)와 비뚤림(bias)
어떤 연구도 오류가 없을 수는 없으며, 모든 추론이 항상 타당한 것도 아니다. 연구추론을 그릇되게 하는 오류에는 무작위 오류와 계통적 오류가 있다
- - 무작위 오류(random error)
  우연에 의해 발생되는 그릇된 결과 표본수를 늘리면 추정치의 정밀도가 증가됨으로써 무작위오류 발생 가능성을 줄일 수 있다. 정밀도는 우연의 효과로 일어날가능성에 대한 측정으로 정의되며, 효과 추정치의 신뢰 구간으로 표시할 수 있다.
- - 계통적 오류(systematic error)
  비뚤림에 발생하는 오류로 내적타당도와 유사한 개념이다. 계통적 오류는 표본의 크기를 늘리는 것으로 해결되지 않으며 이를 줄이기 위해서는, 연구 디자인의 질을 향상시키고 이에 대한 적절한 추론을 하여야 한다.
- - 비뚤림(bias)
  비뚤림은 중재 효과의 참값에 비해 과대 혹은 과소평가의 양쪽 모두로 작용할 수 있다. 그러나 연구결과는 방법론상의 잘못에도 불구하고 올바를 수 있기 때문에 ‘비뚤림 위험’이라는 표현이 나오게 되었다. 무작위 대조연구와 같은 임상시험에서 비뚤림이 올 수 있는 원천은 선택비뚤림(selective bias), 수행비뚤림(performance bias), 탈락 비뚤림(attrition bias)과 결과 확인 비뚤림(detection or measurement bias)의 네 가지이다.
비뚤림의 종류
- - 선택비뚤림
  치료 효과에 비뚤림이 나타날 때 가장 중요한 요인은 치료군 배정에 의한 것이다. 치료배정에 대한 정보가 알려지지 않도록 적절한 방법을 사용하는 것이 매우 중요하다.
- - 실행비뚤림
  실행비뚤림은 임상시험이 진행되는 동안 중재군과 비교군에 제공되는 중재의 체계적 차이를 말한다.
- - 탈락비뚤림
  탈락비뚤림은 연구에서 대상자 탈락의 체계적 차이 때문에 발생하며 배제비뚤림(exclusion bias)으로 불리기도 한다.
- - 결과확인비뚤림
  결과확인비뚤림이란 결과 평가에 있어서 두 군 사이에 발생할 수 있는 체계적 차이로 결과를 평가할 때 배정에 대한 눈가림법이 이루어져 있으면 이런 비뚤림이 적게 발생할 가능성이 크다.

연구설계별 질평가 도구

평가 도구의 종류
질평가에는 수많은 도구들이 있는데, 이들 도구는 크게 평가 도구와 점검목록으로 구분할 수 있다. 평가 도구는 문헌의 질을 구성하는 다양한 구성 요소를 결합하여 하나의 점수로 제시하며 질평가 도구의 대부분을 차지한다. 점검목록은 문헌의 질을 구성하는 특정 질문에 답하도록 하며 이를 전체적인 점수로 제시하지는 않는다.

평가 도구는 다양한 질에 대한 구성요소들의 정보를 결합해서 점수로 제시하는 것이다. 다양한 도구들이 있으며 모어(Moher D.) 등에 의하면 25개 이상의 도구가 있다. 그러나 체계적 문헌고찰에 척도를 써서 질을 평가하는 것은 몇 가지 이유로 문제가 있다. 첫째, 여러 평가도구들은 포함한 영역, 복합성, 규모에서 매우 다양하다. 상당수 척도에는 연구의 내적타당도와 관련성이 명백하지 않은 주로 외적타당도와 관련이 있는 여러가지 문항들을 포함되어 있다. 둘째, 평가도구에 따라서 결과의 일관성이 없다. 따라서 어떤 평가 도구를 적용했는지에 따라서 결과가 아주 다르게 나올 수 있다.
무작위배정 비교임상시험 평가 도구(RCT)
차머스 평가 도구와 자다드 평가 도구

무작위배정 비교임상시험에 대한 질평가에서 가장 많이 쓰이는 두 평가 도구는 차머스 평가 도구와 자다드 평가 도구이다 <그림7-2>. 자다드 평가 도구는 총 5문항으로 되어 있으며 5점 만점으로 평가한다. 내적타당도의 주요 영역이라고 할 수 있는 무작위배정, 눈가림법, 탈락을 모두 다루고 있고 심리측정학적 검증이 이루어진 거의 유일한 평가 도구라고 할 수 있다.

자다드 평가 도구의 가장 큰 문제는 실제 내적타당도보다 보고의 질을 주로 평가한다는 것이다. 즉 무작위배정 순서의 은폐에 대한 평가 항목이 다루어지지 않는 등의 문제점을 안고 있어, 현재 코크란 연합에서 추천하지 않는 도구이다.

SIGN의 평가 도구
점검목록은 내적타당도를 평가할 수 있는 특정 질문에 답변하도록 하는 것이다. 국내에서 많이 쓰이는 대표적인 것으로 SIGN이 개발한 점검목록<표7-3>이 있다.
SIGN의 점검목록은 연구질문, 순서생성, 배정은폐, 이중눈가림법, 기저상태 동질성, 실행비뚤림, 결과보고, 탈락, 기관 각 동질성 등의 10가지 질문을 하여 개별 무작위배정 비교 임상시험의 질을 평가하도록 한다.
- ⅰ) 연구 평가기준;
  잘 수행됨 well covered(WC),적절히 다루어짐 adequately addressed(AA),빈약하게 다루어짐
  poorly addressed(PA),다루어지지 않음 not addressed(NA) (언급되지 않았거나 연구디자인 중 해당부분이 누락된 경우)
  보고되지 않음 not reported(NR) (언급되긴 하였지만 평가할 수 있는 자세한 설명이 없는 경우), 적용 가능하지 않음 not applicable(NAP)
- ⅱ) 논문에 대한 전반적인 평가
  ++ : 몇 가지 기준이 충족됨. 부적절하거나 미충족된 기준에 의해 결론이 바뀔 것 같지는 않다.
  + : 몇 가지 기준이 충족됨. 부적절하거나 미충족된 기준에 의해 결론이 바뀔 것 같지는 않다.
  - : 거의 또는 모든 기준이 충족되지 않는다. 연구의 결론이 바뀔 가능성이 매우 높다.
코크란의 평가 도구

코크란 방법론 그룹은 무작위배정 비교임상시험에서 발생하는 비뚤림의 영역을 순서생성(sequence generation), 배정은폐(allocation concealment), 눈가림법, 불완전한 자료 결과(incomplete outcome date), 선택적 결과보고(selective reporting)의 5가지로 구분하였다. 이를 통해 무작위배정 비교임상시험의 5가지 비뚤림을 <표7-4>에서 평가할 수 있다.

평가자는 개별 부분 영역에 대해 ‘Yes’는 낮은 비뚤림 가능성, ’No’는 높은 비뚤림 가능성을 의미하는 것으로 답변하고, 불충분한 정보가 있으면 ‘불확실(Unclear)’로 표시한다. 이를 종합하여 연구간의 주요 결과에 대해 비뚤림위험을 평가하여야 하는데, 가장중요한 영역을 파악하고 이에 대해 요약 평가를 시행하여야 한다<표7-5>.
체계적 문헌고찰(Systematic Reviews)의 평가 도구
지금까지 체계적 문헌고찰의 평가 도구로는 SIGN의 평가도구인 체계적 고찰과 메타분석<표7-6>이 주로 쓰여져 왔다.
- ⅰ) 연구 평가기준;
  잘 수행됨 well covered(WC)적절히 다루어짐 adequately addressed(AA), 빈약하게 다루어짐
  poorly addressed(PA), 다루어지지 않음 not addressed(NA) (언급되지 않았거나 연구디자인 중 해당부분이 누락된 경우)
  보고되지 않음 not reported(NR) (언급되긴 하였지만 평가할 수 있는 자세한 설명이 없는 경우), 적용 가능하지 않음 not applicable(NAP)
- ⅱ) 논문에 대한 전반적인 평가
  ++ : 몇 가지 기준이 충족됨. 부적절하거나 미충족된 기준에 의해 결론이 바뀔 것 같지는 않다.
  + : 몇 가지 기준이 충족됨. 부적절하거나 미충족된 기준에 의해 결론이 바뀔 것 같지는 않다.
  - : 거의 또는 모든 기준이 충족되지 않는다. 연구의 결론이 바뀔 가능성이 매우 높다.
최근에 Shea(2007) 등이 개발한 AMSTAR(Assessment of Multiple Systematic Reviews)도 쉽게 적용할 수 있고, 합의, 신뢰도, 타당도 구성 및 실행가능성 등이 높은 도구로 알려져 있다.
비무작위 연구에서의 질평가 도구
비무작위 연구의 비뚤림 위험 평가도 유사한 방법으로 프로토콜에서 미리 정해진 특성을 정하고 연구에서 어떻게 하였는지 관찰하고 이것이 특정 비뚤림 위험을 피하는 방법으로 적절한지 부적절한지 불확실한지를 기록한다. 그러나 무작위배정 비교임상시험과 달리 비무작위 연구는 이런 비뚤림 위험을 어떻게 평가하고 결과를 제시해야하는지 명백한 합의가 이루어져있지 않아 이런 특성을 결정하기 위해 역학전문가가 필요하다.

일차연구의 연구설계 특성에 특히 주의를 기울이는 것 (참여자는 어떻게 배정되었나 혹은 연구의 어떤 부분이 전향적인가) 이 부여된 연구설계 범주 (코호트 혹은 단면) 보다 더 중요한데 그 이유는 비뚤림 위험은 개별 연구의 연구설계 범주보다는 한 연구의 특정 특성에 따라서 이루어지기 때문이다.

교란과 보정

대부분의 경우 비무작위 연구는 고려한 교란변수를 기술하며 교란변수를 연구설계 단계에서 혹은 분석단계에서 보정하였는지를 밝힌다. 또한 대부분은 비교한 집단의 기저상태 특성에 대해서 기술한다. 하지만 연구자가 실제로 교란변수 보정을 위해 시행한 것을 평가하는 것은 어려울 수 있고 교란변수를 어떻게 측정하였고 희귀모형에 적합한 지를 평가하기는 어렵다.

코크란 리뷰에서 교란변수 평가의 결과보고는 미리 결정한 교란변수를 열로 연구를 행으로 하여 개별 연구들이 ① 참여자 선택을 제한해서 모든 군에서 교란변수에 대해서 동일한 값을 갖는지 (예를 들어 남성만 선택하는 것), ② 교란변수에 대해서 두 군 사이에 균형이 있는지, ③ 교란변수에 대해서 짝짓기를 했는지, ④ 교란변수에 대해서 보정을 했는지 등을 평가한다.

비무작위 연구에서 비뚤림 위험 평가도구

코크란 무작위배정 비교임상시험 평가도구는 6개의 특성 즉 순서생성, 배정은폐,눈가림, 불완전 결과자료, 선택적 결과보고, 다른 잠재적 비뚤림원으로 평가한다. 이러한 도구는 비무작위 연구를 염두에 두고 개발한 것이 아니고, 비무작위 연구에 적절한 것도 아니다. 하지만 이 도구와 평가의 전반적인 구조는 비무작위 연구의 비뚤림 위험 평가도구를 만드는데 유용하다.

기존의 도구를 살펴보면, 딕스 등은 비무작위 연구의 방법론적 질 평가도구에 대한 체계적 문헌고찰을 하였다. 182개 도구를 리뷰하고 체계적 문헌고찰에 쓰일 수 있는 14개 목록으로 줄인 뒤 6개 도구를 최종적으로 결정하였다. 이들은 “리뷰자들이 연구 평가를 체계적으로 할 수 있도록 해주고 가능하면 평가를 객관적인 방법으로 할 수 있도록 해준다” 라고 평가하였다.

또한 이 리뷰에서 가장 유용한 도구로 돈과 블랙도구(Downs and Black instrument)와 뉴캐슬 오타와척도(Newcastle-Ottawa Scale)를 꼽았다. 돈과 블랙 도구를 이용한 체계적 문헌고찰에 의하면 29문항 중 일부는 환자-대조군 연구에 적용할 수 없으며 상당한 역학적 전문성을 요구하며 너무 시간 소모가 많다고 하였다.

뉴캐슬오타와척도는 코크란 워크숍에서 일차 비무작위 연구들의 자료추출에 이용되었다. 이 도구는 8개 문항으로 짧아서 적용이 쉽지만 각 문항은 연구주제에 따라 수정이 필요하다. 또한 검토자는 서로 다른 나라에서 쓰이는 역학적 용어의 상이성에 대해서 잘 알고 있어야 한다.

비무작위 연구에서 비뚤림 위험 평가의 실제적 제한점

대체로 비무작위 연구는 방법론적 질이 높지 않거나 보고의 질이 낮아서 방법론적질을 일관적으로 모두 일차연구에 대해서 평가하는 것은 매우 어렵거나 불가능하다

연구설계와 질평가에 따른 근거와 수준