すべてのデータを集めるのが難しい場合、小数のサンプルを集めることによってデータを集計し、統計処理することが頻繁にあります。

このとき重要なのがランダムサンプリング(無作為抽出)です。ランダムサンプリングができていない場合、集めた統計データには意味がなく、使い物になりません。そのため、データを集めるときの方法が正しいかどうかを検討しましょう。

また無作為抽出には複数の種類があります。そこでランダムサンプリングのやり方を理解し、正しく確率や平均値、分散、標準偏差を計算しましょう。

集めたデータが正しくない場合、当然ながら統計処理によって得られる結果には価値がありません。そこで、正しくデータを集める方法を理解しましょう。

サンプル調査(標本調査)で重要なのがランダムサンプリング

データを集めるとき、主に以下の方法があります。

  • 全数調査
  • サンプル調査(標本調査)

当然ながら、最も良いのは全数調査です。すべてのデータを集めることによって、母集団のデータを得ることができます。その後、平均値(期待値)や標準偏差を計算することで正しいデータを得られます。

ただ実際のところ、母集団を得るのが難しいケースはよくあります。例えば製品を作るとき、全製品について耐久試験をすることはできません。すべてに耐久試験を実施する場合、半壊状態の製品のみが店頭に並ぶことになります。そのため、一部の製品について品質チェックをします。

そこで母集団(生産されたすべての製品)のうち、一部の製品を取り出すことでデータを解析するのが一般的です。こうした方法をサンプル調査(標本調査)といいます。

標本を利用し、標本の平均値(期待値)や確率、分散、標準偏差などを計算します。このとき、標本から得られるデータを母集団のデータとみなします。これにより、短い時間と少ない労力によってデータを得られるようになります。

無作為抽出がダメなケースは非常に多い

ただ全数調査とは異なり、一部のデータのみを利用することになるため、サンプル調査(標本調査)では誤差が大きくなります。また、集めた標本がまったく役に立たないこともあります。これは、ランダムサンプリング(無作為抽出)を行うことができていないからです。

例えば多くのケースにて、マスメディアの調査は当たりません。この理由として、無作為抽出をすることができていないからです。

例えば昼に支持政党の調査をすれば、結果はどうなるでしょうか。働いている人は昼間に忙しく相手にしてくれないため、答えてくれる人は昼に家にいる人になります。つまり専業主婦またはリタイア後の人がメインの回答者になります。

またマスメディアの本社前で街頭インタビューをする場合はどうでしょうか。この場合、メインの回答者は都市部に住み、その地域へ出向くことが頻繁にある人に限られます。そのため、当然ながら回答者の属性は偏ります。

こうしてダメな方法によって標本が集められ、信頼できないデータが完成されるというわけです。統計データを操作することによって、都合の良い結果を得るのは簡単なのです。

人為的な操作を排除するのは難しい

こうした事実を理解すると、人為的な操作を完全に排除するのは意外と難しいことがわかります。例えばマーケティング調査のため、自社製品の利用者を対象としてアンケート結果を取得したとしても、それはランダムサンプリングではありません。

既に製品を使っている人というのは、既にその商品に対して好感を抱いています。また製造メーカーのことを既に知っています。

一方でマーケティングでは、商品について理解していない人に購入してもらわないといけません。そのため、自社製品の利用者を対象にアンケートを実施しても意味がないのです。

本人は「無作為抽出をしている」と思っていても、実際にはランダムサンプリングになっていないケースはよくあります。そのため客観的に考え、本当の意味で無作為抽出になっているかどうかを確認しなければいけません。

実際のランダムサンプリングの種類・やり方

それでは実際に無作為抽出をするとき、どのようなやり方があるのでしょうか。無作為抽出の必要性を理解した後、どのような種類があるのか理解しましょう。

ランダムサンプリングには主に以下のような方法があります。

  • 単純ランダムサンプリング
  • 層別サンプリング
  • 多段サンプリング(二段・三段サンプリング)
  • 集落サンプリング
  • 系統サンプリング
  • 有意サンプリング

統計学を学ぶ場合、それぞれの方法がどのような抽出方法なのか理解しましょう。

単純ランダムサンプリングは最も一般的な標本抽出の方法

単純ランダムサンプリングは最もわかりやすい無作為抽出の方法です。母集団の中から、目隠しをしたり、コンピューターを利用したりして、ランダムに選ぶ方法が単純ランダムサンプリングになります。

要はくじ引きと同じです。母集団の中からランダムに選ぶのです。品質チェックやアンケート調査を含め、単純ランダムサンプリングは多くの場面で利用されます。

ただ単純ランダムサンプリングであっても、人為的なデータになることが頻繁にあります。先ほどの例のように「昼に支持政党を聞く場合」について、コンピューターによってランダムに選んでも、回答者は昼間に忙しく働いている人をほとんど含まないため、ランダムサンプリングをしているとはいえません。

目隠しをしたり、コンピューターを利用したりしてサンプルを抽出しても、無作為抽出になっていないケースが頻繁に発生するのは理解しましょう。そのため、正しく単純ランダムサンプリングをしなければいけません。

層別サンプリングでは特性ごとに分ける

層によって特性が異なる場合、層別サンプリングをすることがよくあります。データごとに特性が異なるケースは頻繁にあります。例えば好きな音楽を調査するとき、20代と50代では結果が大きく異なると容易に理解できます。

他には、製品製造の場面を考えてみましょう。工場内に製品製造を行うラインAとラインBがあるとします。このとき2つのラインを同じものと考え、ラインAのみを利用して単純ランダムサンプリングをしてはいけません。

例えばラインAは品質に問題がないものの、ラインBでは製造機器に不具合を生じており、ラインBで作られた製品では不良品の割合が異常に高いかもしれません。そのためラインAだけでなく、ラインBも調べる必要があります。

このように明らかに異なる特性をもつ場合、層別(特徴別)に分けて調査します。これが層別サンプリングです。

また同じ層であれば、ばらつきは少なくなりがちです。また層ごとに調べることによって、異常があったときにどの層に不具合があるのか判断しやすくなります。

多段サンプリング(二段・三段サンプリング)は何度もサンプリングをする

何度もサンプリングをする方法が多段サンプリングです。要は、単純サンプリングを複数回するのが多段サンプリングと理解しましょう。

単純サンプリングを二回する場合、二段サンプリングになります。単純サンプリングを三回する場合、三段サンプリングとなります。もちろん二段サンプリングや三段サンプリングではなく、四回や五回など、より多くの単純サンプリングをすることもあります。

なぜ、何度も無作為抽出をしなければいけないのでしょうか。例えば、箱に入っている製品について、「品質に不具合があるのでは?」という疑いがあるとします。ただ品質チェックをするとき、ランダムに箱を開けて製品を取り出すとなると、多くの手間がかかります。

そこで最初、箱について単純ランダムサンプリングをします。たくさんある箱のうち、例えば4つを選ぶのです。その後、選んだ箱の中にある全ての製品のうち、単純ランダムサンプリングによって複数の製品を取り出します。これにより、開ける箱を4つに抑えることができ、効率的に品質をチェックできます。

こうして多段サンプリングをすることによって、効率的に標本抽出を行えるようになります。

集落サンプリングでは代表を選び、標本調査を行う

母集団について、複数の集落(クラスター)に分けた後、選んだ集落について全数調査する方法が集落サンプリングです。

例えば製品を作るとき、ロット(同じ条件で生産した製品群)ごとに作られます。すべての工場ではロット単位によって製品を管理するため、いくつものロット(クラスター)が作られることになります。

そこでこうした集落について、代表となるロットを決めて全数調査します。母集団の全数調査は無理であっても、一つのロットについて全数調査する場合であれば労力は圧倒的に少なくなります。

なお母集団について単純ランダムサンプリングを行う場合、集落同士のばらつきは少ないです。無作為抽出しているのであれば、クラスターごとに差がないのは容易に想像できるはずです。

また、集落サンプリングでは代表の集落を選ぶ必要があります。クラスターごとに差がある場合、特異性のある集落が選ばれると、母集団を正しく予想できません。全体の代表というのは、ほかの集落と比較して差がほとんどない状態が望ましいです。

一方で一つの集落を全数調査する場合、ばらつきは大きくなります。一つのクラスターの中には、さまざまな事象が混ざっています。また一つのクラスターを調査するというのは、母集団を調査するのと意味が同じです。

母集団にはさまざまなデータが混ざっているため、一つのクラスターについて調べると、当然ながらさまざまなデータが混在するのです。

集落サンプリングでは、「集落同士の比較では性質が似ているため、ばらつきが小さい」「一つの集落内を全数調査する場合、さまざまなデータが含まれるのでばらつきが大きい」という性質があります。この特徴を理解しましょう。

系統サンプリングは一定間隔で標本抽出する方法

サンプルに番号を付け、一定間隔ごとにサンプル抽出する方法を系統サンプリングといいます。例えば100個の製品があるとします。生産された順番で番号を付けるとき、20番目ごとに製品を取り出して検査をします。

この場合は20番目、40番目、60番目、80番目、100番目の製品が取り出され、品質チェックすることになります。

系統サンプリングを利用する場合、時間軸で観察することもできます。例えば製品に不具合を生じるようになったとき、どのサンプルから品質が悪くなったのか確認すれば、異常が発生した時点がわかります。

またトレンド分析でも系統サンプリングが役立ちます。系統サンプリングを利用することで時間軸をチェックすれば、どこでトレンドが終わったのかわかります。

ただ系統サンプリングの場合、単純ランダムサンプリングに比べて精度が低く、必ずしも無作為に標本を抽出しているとはいえません。例えば半年ごとに製造機器を入れ替える場合、機器を交換する前と後では条件が大きく変わります。

単純ランダムサンプリングの場合、あらゆるデータをランダムで集めることで統計解析します。一方で系統サンプリングの場合、「旧式の機器で作られた製品」「新品の機器で作られた製品」などのように、条件が途中で大きく変わるケースが頻繁にあります。

この場合は同じ条件で測定したデータとはならず、前提条件がそろいません。系統サンプリングの場合、必然的に統計データを解析するときの精度が悪くなるのです。

有意サンプリング(有意抽出法)は人為的に選ぶやり方

ここまで、人為的な操作なしに標本を選ぶ方法を解説してきました。ただ場合によっては、ランダムサンプリングではなく、特徴をもったサンプルを選別することによって標本を選ぶことがあります。これを有意抽出法と呼び、要は独断と偏見によってサンプル選びをする方法と考えましょう。

例えば製品展示会に出品したり、お客さんへ説明したりするとき、できるだけ見た目が良く、性能の優れる製品を提示するのが一般的です。要は、最も優れる製品を利用したり、見栄えの良いデータを提示したりするのです。

またモデルの世界大会に出場する人というのは、複数の審査員によって人為的に選ばれることになります。世界大会へ出場する人をランダムに選ぶと、容姿の醜い人が国の代表として世界大会に出場することになります。これを避けるため、有意抽出法を利用して優れる人を選出するのです。

明らかに人の嗜好や意思が入るため、有意サンプリングはこれまで説明した無作為抽出とは概念がまったく違うことを理解しましょう。

サンプル集めが統計データで非常に重要

全数調査ができない場面は多く、その場合はサンプル調査(標本調査)をすることになります。標本として一部のデータを利用し、母集団を推定するのです。

このとき非常に重要なのがサンプル集めです。無作為抽出になっておらず、標本が偏っており、使い物にならないケースは多いです。そこで正しくランダムサンプリングできているかどうか確認しましょう。

また無作為抽出にはいくつもの種類があります。そこで、どのような方法によってデータ集めをするのが最適なのか調べましょう。

統計処理をする前にすべての人がデータ集めをしなければいけません。そこで無作為抽出の必要性や種類、方法を理解して、母集団の平均(期待値)や確率、分散、標準偏差を計算しましょう。