「新製品の機能性表示食品の届出に向けて、臨床試験を実施したい」

「エビデンスを取得したいが、試験デザインの選び方がわからない」

このようにお考えの企業担当者様にとって、最初に直面する壁が「試験デザイン(実験計画)」の選定です。

中でも最も代表的で信頼性が高いとされるのが「並行群間比較試験(へいこうぐんかんひかくしけん)」です(参考:厚生省 1)。

しかし、よく似た手法である「クロスオーバー試験」と何が違うのか、自社の製品にはどちらが適しているのか、判断に迷うケースは少なくありません。

試験デザインの選択を誤ると、期待した結果が出ないばかりか、多大なコストと時間が無駄になってしまうリスクもあります。

この記事では、臨床試験の実施を検討されている企業の皆様に向けて、並行群間比較試験の基礎知識から、クロスオーバー試験との決定的な違い、メリット・デメリット、そして採用判断のポイントまで、専門用語を補足しながらわかりやすく解説します。

臨床研究の実施先をお探しの企業様へ

弊社は医療の未来を支える臨床研究の支援を通じ、社会に貢献することを理念として掲げております。

ご相談いただく研究内容や条件に応じて、柔軟かつ誠実に対応させていただきます。臨床研究の実施にあたりご支援が必要な場合は、ぜひお気軽にお問い合わせください。

お問い合わせはこちらから

並行群間比較試験(パラレルデザイン)の基礎知識

並行群間比較試験(パラレルデザイン)

並行群間比較試験の定義と仕組み

並行群間比較試験(Parallel Group Comparison Study)とは、集めた参加者(モニター)を2つ以上のグループ(群)に分け、それぞれのグループに異なる処置(被験食の摂取や薬の投与など)を行い、同時並行で経過を観察して結果を比較する試験方法です(参考:厚生省 1, UMIN 4)。

「パラレルデザイン」とも呼ばれます。

イメージとしては以下のような流れになります。

  1. グループ分け: 参加者を「A群」と「B群」に分ける。
  2. 介入(摂取): A群には「開発中の製品(実薬)」を飲んでもらう。B群には「効果のない偽物(プラセボ)」を飲んでもらう。
  3. 比較: 一定期間後、A群とB群の間で検査数値などに有意な差が出たかを比較する。

重要

最も重要な点は、「1人の参加者は、最初から最後まで1つのグループに属し、1種類の処置しか受けない」ということです。

なぜ「ランダム化(RCT)」とセットで語られるのか

ランダム化
並行群間比較試験について調べると、「ランダム化比較試験(RCT)」という言葉をよく目にするはずです。

もし、グループ分けを恣意的に(例:健康そうな人を実薬グループに、体調が悪そうな人をプラセボグループに)行ってしまえば、製品の効果が正しく測れません。

そのため、参加者をコンピュータなどで無作為にグループ分けする「ランダム化(Randomization)」を行い、バイアス(偏り)を回避するのが一般的です(参考:厚生省 1, 厚生労働省医薬局 2)。

ランダム化並行群間比較試験

偏りを極限まで排除した、科学的信頼性(エビデンスレベル)が非常に高い試験デザイン。

この手法は、医薬品の治験(第III相試験など)や特定保健用食品(トクホ)、機能性表示食品の届出試験において、「ゴールドスタンダード(標準的な手法)」として広く採用されています。

「並行群間比較試験」と「クロスオーバー試験」の違い

企業の担当者様が悩むのが、もう一つの主要な試験デザインである「クロスオーバー試験(交差試験)」との使い分けです。

両者の違いを明確に理解することが、試験成功への第一歩です。

試験デザインの構造的な違い

項目 並行群間比較試験 クロスオーバー試験
参加者の動き 1人が「実薬」か「プラセボ」のどちらか一方のみを摂取。 1人が時期をずらして「実薬」と「プラセボ」の両方を順に摂取(参考:厚生省 1, 東京大学 3)。
比較対象 「A群の人たち」vs「B群の人たち」(群間比較) 「摂取時の自分」vs「非摂取時の自分」(群内比較)(参考:東京大学 3)
必要な期間 短い(同時並行で進むため)。 長い(前半+休止期間+後半が必要)(参考:東京大学 3)。

【比較表】メリット・デメリットと使い分けのポイント

どちらが優れているというわけではなく、製品特性や予算に応じた「適材適所」があります。

比較項目 並行群間比較試験 クロスオーバー試験
必要な症例数 多い(コスト増の要因)個体差を埋めるために人数が必要。 少ない同一人物で比較するため、少人数でも差が出やすい(参考:東京大学 3)。
試験期間 短い参加者の拘束期間が短い。 長い前半と後半の間に薬効を消す「ウォッシュアウト期間」が必要(参考:東京大学 3)。
持ち越し効果 なし構造上、前の影響を受けない。 あり(リスク)前半の効果が後半に残ると解析不能になる(参考:厚生省 1)。
解析の複雑さ シンプル標準的な統計手法が使える。 複雑持ち越し効果や時期効果の検証が必要(参考:東京大学 3)。
脱落リスク 低い(期間が短いため)。 高い(長期間の負担でドロップアウトしやすい)(参考:東京大学 3)。

どちらを選ぶべき?判断基準を紹介

以下の条件に当てはまる場合は、「並行群間比較試験」が推奨されます。

  • 効果が長く続く(不可逆的な)商材である: 例:ダイエット(体重減少)、肌質改善、骨密度、学習効果など。これらは一度効果が出ると、休止期間を設けても元の状態に戻りにくいため、クロスオーバー試験は適しません。
  • 試験期間を短く完了させたい: 発売時期が決まっている場合など、個人の拘束期間を短くして脱落を防ぎたい場合。
  • 参加者数を多く集められる予算がある: 統計的なパワーを出すために、一般的にクロスオーバー試験よりも多くの人数が必要になります(参考:東京大学 3)。

補足

逆に「即効性があり、飲むのをやめればすぐ元に戻るもの(食後血糖値の上昇抑制や、一時的な疲労感軽減など)」で、かつ「少人数で実施し効率を高めたい」場合は、クロスオーバー試験が検討候補に入ります。

ただし、期間延長による管理コスト増には注意が必要です。

並行群間比較試験のメリット・デメリット深掘り

ここでは、企業視点で見た場合の並行群間比較試験の「得られる価値」と「注意すべきリスク」を深掘りします。

3つの主要メリット

POINT
  • 持ち越し効果を気にする必要がない:これが最大のアドバンテージです。クロスオーバー試験では、「前半に飲んだ成分の効果が、後半の測定時まで残っているかもしれない」というリスク(持ち越し効果)が常に付きまといます(参考:厚生省 1)。並行群間ではそもそも別々の人が飲むため、この懸念はゼロです。結果の解釈がクリアで、規制当局や論文査読者への説得力も高まります。
  • 試験期間の短縮と参加者負担の軽減:参加者一人あたりの参加期間が短くて済むため、参加のハードルが下がります。また、季節変動の影響(例:花粉症対策の試験や、季節で肌状態が変わる試験)を受けにくく、特定のシーズン内に試験を完遂しやすいメリットがあります。
  • あらゆる評価項目に適用可能:「病気が治ってしまったら測定できない」という制約がありません。治療効果や体質改善のように、ベースライン(開始時の状態)が変化していく試験において、唯一の選択肢となります。

知っておくべきデメリットと対策

コストがかかる(必要症例数が多い)

個人差(性別、年齢、体質、生活習慣など)が結果のバラつきとして現れるため、統計的に有意な差(偶然ではない確かな差)を証明するには、多くのデータを集める必要があります。

対策

予算計画の段階で、余裕を持った人数設定(N数)を行う必要があります。ギリギリの人数でスタートすると、脱落者が出た際に解析不能になるリスクがあります。

群間の背景因子の不均衡(バイアス)

ランダムに分けたつもりでも、「たまたまA群には重症な人が多く、B群には軽症な人が多かった」という偏りが生じると、製品の正当な評価ができません。

対策

単純なランダム化だけでなく、年齢や性別、重症度などを均等にする「層別無作為化」などの手法を用います(参考:厚生省 1)。信頼できるCRO(試験受託機関)であれば、このあたりの統計設計を厳密に行ってくれます。

実際の試験の流れと統計解析のイメージ

実際に試験を発注した場合のオペレーションについて解説します。

計画から解析までのステップ

  • プロトコル作成: 目的、対象者、主要評価項目、目標症例数を決定。
  • IRB(倫理審査委員会)承認: 試験の倫理性・科学性を審査。
  • 参加者募集・スクリーニング: 条件に合う人を選抜。
  • 割り付け: 無作為に群分け(A群・B群)。※ここが重要
  • 試験実施: 一定期間、摂取または投与を行い、定期的に検査(採血・測定・アンケート)。
  • データ固定・解析: データを確定させ、統計解析を行う。

統計解析手法の基本

統計解析方法
並行群間比較試験のデータ解析では、比較する群の数やデータの分布(正規分布するかどうか等)に応じて、t検定(ティーけんてい)などの適切な統計手法が選択されます。

これは、「A群の平均値」と「B群の平均値」の間に、誤差では説明がつかないほどの明確な差があるかをジャッジする手法です。

統計結果の解釈において、「p値(ピーち)」という指標がよく用いられます。

一般的に p < 0.05(5%未満)であれば「統計的に有意な差がある」と判断されることが多いですが、医学統計のガイドラインではp値だけでなく「信頼区間」も併せて評価することが推奨されています(参考:厚生省 1)。

並行群間は解析ロジックが標準化されているため、結果の信頼性を対外的に説明しやすいのも特徴です。

企業担当者が知っておくべき試験実施の注意点

最後に、質の高い試験を実施するためのポイントをお伝えします。

プロトコル(試験実施計画書)の質が全て

試験が始まってから「やっぱりこの項目も測りたい」などの変更は原則できません。

  • 主要評価項目(プライマリーエンドポイント): 「一番言いたい効果」を1つに絞る(参考:厚生省 1)。
  • 副次評価項目(セカンダリーエンドポイント): 補足的に確認したい項目。

これらを事前に明確に定義し、UMIN-CTRなどの臨床試験登録システムに事前登録することが、論文の質と信頼性を担保するために不可欠です(参考:UMIN 4)。

信頼できる委託先(CRO)との連携

並行群間比較試験は、症例数が多い分、管理が複雑になります。

参加者の飲み忘れ防止や、脱落防止のケア、正確なデータ収集には、経験豊富なCROのノウハウが必要です。

コストの安さだけで選ぶのではなく、「統計解析の専門家がいるか(試験統計家の関与)」(参考:厚生省 1)、「過去に同種の試験実績があるか(経験)」を確認し、パートナーとして信頼できる機関を選ぶことが成功への近道です。

まとめ

並行群間比較試験について解説しました。

  • 並行群間比較試験とは: 複数のグループを同時並行で比較する、最も標準的で信頼性の高い試験デザイン。
  • クロスオーバーとの違い: 「持ち越し効果がない」「期間が短い」が、「より多くの人数が必要」であること(参考:東京大学 3)。
  • 選び方: 体質改善や長期間の効果を見たい場合は「並行群間」一択。即効性・短期間で戻るものは「クロスオーバー」も検討余地あり。

臨床試験は、企業の資産となる重要なエビデンスを生み出すプロジェクトです。

目先のコストだけでなく、得られるデータの「質」と「活用範囲」を見据えて、最適な試験デザインを選択してください。

並行群間比較試験に関するよくある疑問

Q. 並行群間比較試験に必要な症例数はどれくらいですか?

A. 試験の目的、期待する効果の大きさ、およびデータのばらつき(標準偏差)に基づいて統計的に計算する必要があります(参考:厚生省 1)。

一般的には数多くの症例が必要となる傾向がありますが、「30名〜50名」といった一律の決まりがあるわけではありません。脱落を見越して十分な人数を設定することが重要です。

Q. プラセボ(偽薬)対照は必ず必要ですか?

A. 科学的な信頼性を確保するためには、原則として必要です(参考:厚生労働省医薬局 2)。

「飲んだ」という思い込みによる効果(プラセボ効果)を排除し、成分そのものの効果を証明するためには、プラセボ群との比較が最も説得力があります(優越性試験)。

Q. 英語では何と呼ばれますか?

A. “Parallel Group Comparison Study” または単に “Parallel Design” と呼ばれます。

海外の論文を探す際はこれらのキーワードを活用してください。