観察研究での治療効果の検証はRCTと同等に扱ってよいのか? -癌診療の場合-

5 min 394 views
観察研究の結果はRCTの代用になるか?

私は観察研究、特に既存データの二次利用肯定派です。

どんどん観察研究、特にReal world dataの二次利用が進むと良いというスタンスです。

一方でRCTと同等に考えてよいかというところには疑問があります。

疑似RCT (ここではPropencity score matchingを意識しています)という名前や洗練されたデザインからRCTに近い研究だと思っていないでしょうか?

今回、RCTと疑似RCTの結果に一致性があるか?という疑問に対して検討された研究を例示して、疑似RCTとRCTの違いを考えてみます。

講演会、医師へ渡す資材として疑似RCTのデータを使うMSL、MRなどの製薬企業職員、そういったデータの受けてである医師に向けて記載しています。

今後、疑似RCTを使った資材は必ず増えるので、RCTとの相違について確実に理解したいところです。

疑似RCTについては今回はあまり触れる予定はありません。津川友介先生のブログがわかりやすいと思いますので、必用があればご参照ください。

観察研究を治療の有効性検証に使う流れ

観察研究のデータを用いて治療の有効性などを見ることが流行っています。

RCT側のデメリットとして費用がかかり、時間もかかり、倫理的に行えない場合も多いということがあります。

観察研究側のメリットとして、症例数が多いこと、解析手法の開発などがあります。

そういった流れから、公取協 (医療用医薬品製造販売業公正取引協議会) は観察研究で示された薬剤の有用性を一定の条件下で資材に使用することを認めています。

この流れ自体は問題ないですが、解釈を正しく伝えられるのか?ということは疑問です。

私はアカデミックバックグラウンドの弱い臨床医でした。

観察研究の治療効果の話をされると盲信してしまっていたと思います。

観察研究で治療の有効性を語る際には伝える側も、受け取る側も注意が必用だということは理解する必用があります。

観察研究について、メディカルアフェアーズの視点から知りたい方は以下もご参照ください

論文:RCTの結果と観察研究の結果は食い違うのか?

Evaluation of the Use of Cancer Registry Data for Comparative Effectiveness Research (JAMA Netw Open.2020;3(7):e2011985. doi:10.1001/jamanetworkopen.2020.11985)

で、そのあたりの検証がされていたので参考にしながら考えていきます。

研究の背景

RCTは最もエビデンスの高い臨床試験と位置づけられている。

RCTの弱点として費用が高い、時間がかかる、一般化可能性が低いなどがあげられている。

また、すべてのガンの治療法でRCTが行われているわけではない。

一方で、(前向き、後ろ向きの)レジストリーデータは症例数も多く、手軽で、臨床に近い症例が入っていることから、観察研究のデータを代用して治療が有効性が判断されていることが増えている。

しかしながらこういった観察研究を有効性を示すために用いた場合、どの程度結果に信頼性があるかはわかっていない。

今回、ガン領域で RCTで見た場合の有効性とレジストリーデーターみた有効性の一致率について調べることとした。

また、一致率の高いリサーチクエッションの特徴を同定することも目的とした。

研究のデザイン

アメリカで行われたStudy

8つの一般的な癌の領域 (中枢神経系、頭頸部、乳腺、肺、消化器、泌尿器、婦人科、リンパ腫) から141個のRCTが 集められた。

システマティカルな方法でCancer Network Clinical Practice Guidelines in Oncology (NCCN Guidelines)からRCTを同定した。

2004年から2014年において national cancer database(NCDB) に登録された患者に対して、それぞれのRCTの患者基準に一致するような患者が抽出された

NCDBは病院ベースの癌を登録したレジストリーで各種学会とコラボレートしている。患者背景や治療法などがそこそこ詳しく入ったレジストリー。

個別のRCTに対応させるため、リサーチクエッションに基づいて研究の目的に沿った的確基準で各アームに相当する患者をNCDBから引き抜いた。ただし、Performance index (癌診療詳しくない人すいません、大まかなQoLみたいな感じ) のデータがNCDBには入っておらず、その部分はRCTと同じような患者を選定する因子とすることはできなかった。

治療方法については、個別のRCTと同様の容量でのレジメンであること、同様の放射線量であることなどで制限してアームを作った。

RCT側の患者数は全部で85118人、観察研究側は1344536人だった。

over all survival について3つのモデル (単変量、多変量、プロペンシティマッチングモデル) を用いて解析した。

プロペンシティスコアにもちいた 因子は、通常の患者背景因子、併存症、治療腫瘍に関連した変数などが含まれていた

アウトカムの評価

メインのアウトカムはRCTとレジストリーデータから見た有効性一致率。

RCTのHRの95%信頼区間内に観察研究のHRが含まれていたかどうかをHRの一致率としてPrimary endpointとした。

RCTとHRでP値がともに5%以下であったかなかったかの一致率も算出した。

結果

HRの相関関係は、単変量解析 (r = 0.17; 95%CI, 0.005-0.33; P = .02)、多変量解析 (r = 0.26; 95%CI, 0.10-0.41;
P = .003)、プロペンシティーマッチング (r = 0.25; 95%CI, 0.09-0.40; P = .003)
だった。

元論文にはきれいなFigureがあります。論文の画像引用をネットで行う際のルールに自信がないため貼っていないです。詳しい方がいたら教えて下さい。

単変量解析の場合は 79%でHRが 一致していた。 多変量解析の場合の一致率は70%。 プロペンシティ マッチングモデルで64%の一致率だった。

P値の一律で見た場合は単変量解析で41%多変量解析で46%プロペンシティマッチングスコアで45%の一致率だった。

患者背景因子 疾患の種類治療の種類重症度などはこの結果に影響を与えていなかった。

結語

癌に対しての観察研究から得られた治療効果についての検証結果は、しばしばRCTの結果と異なる。

考察より

先行研究(Soni et al こっちのほうがIF高い雑誌)でも解析の手法は違うものの、同様の結果となっていた。

この検討方法で問題になるのは、信頼区間幅である。つまり、元のRCTのサンプルサイズによりバイアスを受けてしまう点である。P値検定でがずれが大きいのは観察研究の方が症例数が大きいことが原因である可能性がある。

ただし、P値を絶対視している風潮は依然に強く、P値で判断してはいけないということの示唆にもなった。こういった示唆は薬剤の承認や治療の選択について情報を与えるものだろう。

様々な原因が影響を与えたと思われるが、中でも重要なのは選択バイアスである。BMI、タバコ使用、Performance indexなどが今回の検討では背景因子の調節に入れることができなかった。こういった因子は治療の選択に大きく関わるものである。したがって、EHR (電子カルテ情報) と紐付いたようなデータベースであればもっと情報量が多く、結果が変わっていた可能性がある。

選択バイアス以外にもデータベースの質の問題もある。思い出しバイアスなど。

しかしながら、どんなによいデータベースを使っていても埋められない部分がある。それは、実験と実臨床の違いである。患者の選定や治療の方法など、RCTと絶対的に同じにできない部分である。

感想

私の言いたいところとしては、この研究では観察研究から得られた結果とRCTの結果が食い違うことが多いということです。

エビデンスレベルとしてRCTが高いことは言うまでもないところです。

一方で、実臨床という点で考えるとRCT よりも観察研究からの結果の方が役立つこともあるかもしれません。

なぜなら観察研究ではRCT では倫理上含むことができないような脆弱性の高い患者なども治療の対象に入っていて、現実的な治療が行われているからです。

また、そもそもRCTがないことも多いです。

あくまでも、RCTは『実験的な研究』であり、実臨床を舞台にした研究ではないです。

したがって、解釈によっては観察研究から得られた治療の効果の結果は有用な情報となります。

しかしながら注意しなければならないことがあります。

まさにこの論文で示されたところで、観察研究から得られた結果をRCTと同じと解釈してはいけないということです。

つまり、観察研究で得られたデータを、統計的にどのようにひねったとしても、RCTと全く一緒ではないということです。

考察にあるように、そもそも実臨床のデータと実験的な研究であるRCTのデータは異なるものだからです。

したがって、どんな変数を入れたとしても、全くRCTと同じにはなりません。

東大のSFHの康永先生の著書にもそのあたりのことが記載があります。

康永先生の著書: 超入門! スラスラわかるリアルワールドデータで臨床研究

私がよくお世話になっている社内の統計家からはよく、『そもそも臨床家が何かしらの原因で治療方法を選択しているのに、そこを統計上の処理でどうにかできるんですか?』と言われています。

そういったことが理解できていないのに、疑似RCTを始めとする観察研究でみた治療の有効性のデータを医師とのディスカッションで、RCTと同じことであるかのように話ししてしまうことに危惧を感じます。

擬似RCTはRCTとは別物の研究であり、実臨床下での治療の有効性についてなにがしかの知見をもたらすものだというスタンスが重要ではないかと思います。

私の属するメディカルアフェアーズでも、このあたりを抑えている人は多くはないのが現状と思います。

私もまだまだですが、RWEを用いたが故に患者さんの不利益になるということを極力減らすように、適切な情報提供が必用だと思う次第です。

まとめ

今回は、疑似RCTとRCTの結果の相違性について説明しました。

  1. 疑似RCTを含む観察研究から得られた治療の有効性のデータは今後、ますます使われる。
  2. 一方で、観察研究から得られた治療の有効性のデータは疑似RCTを行ったとしても、RCTと食い違うことが多い。
  3. 患者さんの不利益にならないような情報提供を行うためにも、観察研究から得られた治療効果のデータの利点、欠点について理解する必要がある。
観察研究について、メディカルアフェアーズの視点から知りたい方は以下もご参照ください

ずぼら@元医師

ずぼら@元医師

製薬企業勤務、元医師

40代前半、2児の父。臨床医10年後に外資系製薬企業に就職。メディカルアフェアーズ所属。臨床医時代は臨床病院メイン。
メディカルアフェアーズメインの製薬企業情報、英語について情報発信。
今後、医療のDXが進むといいなぁ。
好きな言葉:効率がいい。楽。
課題:英語 (VERSANT 55点)

FOLLOW

カテゴリー:
関連記事

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です