![]() |
||||||||||||||||||||||||
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
|||||||||||||||
平均値の信頼区間その他諸計算お承ります。お見積もりは無料です。 |
お取り扱いするデータの形式、計算内容、計算結果の内容及び形式やデータ授受方法といった業務全般を定型化することでコスト削減及び納期短縮を図った低価格のスペクトル密度計算サービスを開始致しました。詳細は->ここ<-をクリックください。 このページは当事業所で提供するデータ解析業務について、これらの計算の内容の簡単な紹介及びこれらの計算がどのような役に立つのかということを説明するページで、数式や学術用語の使用はできるだけ避けています。このため一部の表現は数学的には厳密ではありません。 このページで紹介している以外の項目については、上の”データ解析”のボタンをクリックして下さい。データ解析のページに記載していないような項目でも計算可能な場合がありますので、データ解析のページに記載していないような項目の計算を希望される場合はメールでお問い合せ頂きますようお願い致します。 このページではデータから計算された平均がどれくらい確かなのかといったようなことについてご説明しています。 母集団、サンプルについて 正規分布について ここまでで、少し脇道にそれたように感じられる方も多いとは思いますが、データが正規分布していると、統計解析ではいろいろと便利なことがあります。たとえば、平均値は度数分布図で頂上の点であり、個々のデータはそこを中心に左右に同程度に散らばります。従って、平均がそのデータのグループの値を代表するということに異存のある方は少ないでしょう。それ以外にも、正規分布するデータから計算されるいろいろな統計値の性格・意味は過去に詳しく研究されており、あらためてこういった統計値の計算方法について検討したり、その性格・意味を議論する必要がありません。データが正規分布していない場合は、たとえば、平均が、平均であるという以外にデータのどのような特性を示すのかを検討しなければならない場合もあります。以下ではデータは正規分布しているとして話を進めます。 |
|||||||||||||||||||||||
当事業所では海洋・水産・気象関連のデータ処理・解析や数値計算を主に行っていますが、他分野の諸計算業務についてもお受け致します。個人やNPO、NGOのお客様も歓迎致します。
お問合せは |
||||||||||||||||||||||||
![]() |
||||||||||||||||||||||||
標準偏差及びサンプルの平均値の信頼区間について(計算された平均はどの程度確かなのか) |
||||||||||||||||||||||||
![]() |
||||||||||||||||||||||||
我々は母集団の平均を知るためには、上で記述したように、便宜上しばしば母集団から比較的少数のサンプルを取り出し、そのサンプルの平均を計算し、それを母集団の平均と見なします。しかし、通常このサンプルの平均値は、サンプルのどれか一個を取り替えただけでも変化します。したがって、このサンプルの平均値には不確かさがあることになります。そこで、統計解析ではこの平均値の不確かさを数値で表すために、平均の信頼区間というものを標準偏差を用いて計算します。ただし、この信頼区間の計算時には何%の信頼区間かを指定する必要があります。この%の意味ですが、たとえば95%の信頼区間の例ですと、このようなサンプルを取り出し平均を計算するという操作を数多く繰り返し、それらすべてのサンプルの平均値(通常は毎回異なった値になります)に個々にこの範囲を適用すると、それらのうち95%のケースで母集団の平均が信頼区間の中に収まることになります。これについては、後ほど例を示します。 この信頼区間は標準偏差が大きいほど(すなわち、より散らばっているほど)それに比例して広くなります。これは、例えば、母集団A及びBからそれぞれ5個程度というかなり少数のサンプルデータを取り出し、それらの平均を計算する場合で、それぞれの5個のデータのうち、1個を同じ群の別のデータに取り替えたときに、値の散らばりの大きいデータ群Bのサンプルの平均のほうが、データ群Aのサンプルの平均より大きく変わりやすい、すなわち、データ群Bのサンプルデータの平均の不確かさのほうがデータ群Aのサンプルデータの平均の不確かさより大きいということから類推して頂ければよいかと思います。なお、一般的には信頼区間は99%、95%や90%程度の値で計算することが多いようです。 では、ここで、具体的に母集団A及びBから母集団の数の0.5%にあたる500個のデータを取り出してみます。図2a及びbにこれらのサンプルの度数分布図を示します。これらの図中で縦の黒の線がサンプルの平均値の位置を示し、青の線が95%の区間の上限と下限を示します。なお、この図では度数を計算する幅が2.0で、また、aとbで横軸の幅が異なりますのでご注意下さい。 |
||||||||||||||||||||||||
![]() |
||||||||||||||||||||||||
平均値はサンプルAで99.34、サンプルBで119.76、標準偏差はそれぞれ、9.43及び19.66となります。これらから計算した95%の信頼区間はサンプルの平均からそれぞれ+/-0.83 及び 1.73、すなわち、サンプルAで98.51から100.17、サンプルBで118.27から121.73となり、これらのサンプルでは、母集団の平均(母集団Aでは100.0、母集団Bでは120.0)がサンプルの平均の95%信頼区間の中に含まれます。ここで、Bの信頼区間がAの信頼区間より広いのは、前述したように、Bのサンプルデータの散らばり具合がAのサンプルデータの散らばり具合より大きく、そのため標準偏差が大きくなり、結果として計算された平均の不確かさがより大きくなっているためです。なお、ここでの信頼区間はサンプルの標準偏差よりt-分布を用いて計算しています。
では、ここで95%の信頼区間での95%という数字がどの程度確かなのかを調べるために、上と同じように10万個の母集団から500個のサンプルを取り出して平均を計算するという操作を、母集団のどのデータも1回だけ使用し、計200回繰り返してみます。結果はA群の場合、200回中で母集団の平均値がサンプルの平均の95%信頼区間の中に入らなかった回数は8回で、全体の4%になりました。これは95%の信頼、すなわち5%の誤差にかなり近いのですが、完全には一致しません。このように数限られた試行では95%という値そのものにも、多少の不確かさが生じます。したがって、たとえば95%の信頼区間と96%の信頼区間を計算してその結果を比べるようなことは大抵の場合あまり意味がありません。 ○どれくらいの数のサンプルが必要なのか知りたい。 |
||||||||||||||||||||||||
![]() |
||||||||||||||||||||||||
○あるデータの値が平均と”たいして”変わりがないかどうか知りたい。 なお、信頼区間を計算する場合、%の値を指定しなければなりませんが、この%の値次第ではあるデータの値が統計的に平均値と異なったり、その逆になったりします。したがって、信頼区間の%の値はできるだけ客観的に決めるのが一般的です。逆に、信頼区間を%の値を変えて何例か計算し、目的にあう信頼区間の%の値を決める場合もときにはあるようです。この信頼区間は%の値が大きくなるにつれ、広くなり、100%では無限大となります(従って、100%の信頼区間は無意味です)。 ○あるグループの平均値と別のグループの平均値との差が”重要”かどうか知りたい。 ○あるデータがどのグループに属しているのか知りたい。 ○母集団の数が少なく、その平均が簡単に計算できる場合の信頼区間の意味は? また、工場で製造工程の条件を変えて、製品にどのような影響がでるかを調べる場合を考えてみましょう。この場合、試験的に製造する製品の数は普通は限られていて、そのような試作品すべての平均を計算することは容易でしょう。ですが、これは本来もっと多数製造されるべき製品の1サンプル群と考えるべきではないでしょうか?その場合は、上と同様に、平均の信頼区間を計算することにより、より正確に製造工程の条件の変更の影響が見積もれることになります。 ○データが比率の場合は? ○母集団の平均がわからないのにその標準偏差がわかっていることはあまりないのでは? |
||||||||||||||||||||||||