統計 ー有意性ー
はじめに
物事の見方として、統計学は極めて重要です。投資、保険、ギャンブルなど、さまざまな領域で統計学が活用されています。
統計を取る際の前提として、サンプルのランダム性が重視されます。すべての可能性に偏りがないようにするために、ランダムなサンプリングが必要です。
検定法一覧
1標本 | 母平均の検定 | 量的 | 1標本のt検定 |
母比率の検定 | 量的・質的 | 母比率の検定(z検定),二項検定 | |
母分散の検定 | 量的 | 母分散の検定 | |
2標本 | 平均の差の検定 | 量的 | 対応のあるt検定,ウェルチのt検定 |
比率の差の検定 | 量的・質的 | 比率の差の検定(z検定),独立性の検定 | |
等分散の検定 | 量的 | F検定 | |
代表値の差の検定 | 量的・順位 | マンホイットニーのU検定 | |
3標本以上 | 分散分析 | 量的 | 一元配置分散分析 |
等分散の検定 | 量的 | Bartlett(バートレット)検定 | |
代表値の差の検定 | 量的・順位 | クラスカル・ウォリス検定 | |
多重比較 | 量的・順位 | ボンフェローニ補正,テューキー法 |
母集団の条件
統計を取る場合の前提として、サンプルのランダム性が重視されます。すべての可能性に偏りがないようにするために、ランダムなサンプリングが必要です。
例えば、集団Aと集団Bの身長を比較する場合、年齢、性別、民族などの要因を考慮して分析します。これにより、身長の差異がこれらの要因によるものなのか、それとも集団間の本質的な違いなのかをより正確に把握することができます。
また、多くの場合、集団をさらに細かく分類して比較することが重要です。たとえば、年齢層ごとに、性別ごとに、民族ごとにデータを分析することで、より詳細な情報が得られます。これにより、特定のグループにおける傾向やパターンを把握し、より適切な分析や結論を導くことができます。
要するに、統計を取る際には、ランダム性、そして可能な限り多くの要因やグループを考慮することが重要です。これにより、より正確な結果が得られ、信頼性の高い分析が可能となります。
平均値・中央値
平均値はその集団の性格を表わす数値で非常によく使われます。総計して、資料数で割ればいいので簡単です。しかし、実感と異なることがあります。値が正規分布していない場合です。各個人の資産額などは典型です。
23年のフォーブス誌による資産ランキング上位10人です。アメリカ国籍者が7名です。
順位 | 名前 | 国 | 資産額 (10億$) |
1 | ベルナール・アルノー | フランス | 211 |
2 | イーロン・マスク | アメリカ | 180 |
3 | ジェフ・ベゾス | アメリカ | 114 |
4 | ラリー・エリソン | アメリカ | 107 |
5 | ウォーレン・バフェット | アメリカ | 106 |
6 | ビル・ゲイツ | アメリカ | 104 |
7 | マイケル・ブルームバーグ | アメリカ | 94.5 |
8 | カルロス・スリム | メキシコ | 93 |
9 | ムケシュ・アンバニ | インド | 83.4 |
10 | スティーブ・バルマー | アメリカ | 80.7 |
国別の資産額の平均値と中央値のをランキングすると違いが大きいことが解ります。世界の長者上位10名のうち7人いたアメリカは平均値では3位でしたが、中央値では18位です。
平均資産額
1. スイス:68万5226ドル(約1億375万円)
2. ルクセンブルク:58万5950ドル(約8870万円)
3. 米国:55万1347ドル(約8348万円)
4. 香港:55万1194ドル(約8346万円)
5. アイスランド:49万8290ドル(約7550万円)
資産額の中央値
1. アイスランド:41万3193ドル(約6260万円)
2. ルクセンブルク:36万715ドル(約5460万円)
3. ベルギー:24万9937ドル(約3785万円)
4. オーストラリア:24万7453ドル(約3750万円)
5. 香港:20万2406ドル(約3065万円)
おわりに
論文のデータは通常、統計的に分析されます。したがって、論文を理解するためには統計学の基礎知識が必要不可欠です。統計データは豊富に存在し、これらを用いた広告や商業活動も多く見られます。また、投資においても統計の知識は重要です。統計学はさらに進んでおり、統計手法の開発や特性などを研究していますが、統計の基礎知識を持っていることが望ましいです。
番外
ChatGPTに「あるデーターを統計処理したいが重要なことは」と質問した所、回答は
あるデータを統計処理する際に重要なことは、以下の要点です:
-
データの質と信頼性の確保: 処理するデータが正確で信頼性のあるものであることが重要です。データの収集方法や品質に注意を払い、誤った情報やノイズを排除することが必要です。
-
目的の明確化: 統計処理の目的を明確に定義することが大切です。何を調査し、何を知りたいのかを確認し、それに合わせた処理手法や指標を選びます。
-
適切な統計手法の選択: データの性質や目的に応じて適切な統計手法を選ぶことが重要です。平均値や標準偏差などの基本統計量から、回帰分析やクラスタリングなどの高度な手法まで、適切なツールを選びます。
-
データの可視化: データをグラフやチャートで視覚化することで、パターンや傾向がわかりやすくなります。可視化によって、データの特徴や相関関係を把握しやすくなります。
-
異常値の検出と処理: データの中に異常値(外れ値)が含まれている可能性があるため、これらを検出し適切に処理することが重要です。異常値が分析結果に影響を与えないようにするためです。
-
結果の解釈と意義: 統計処理の結果を解釈し、その結果が持つ意味や影響を理解することが必要です。結果をビジネス上の判断や意思決定に結びつけるために、専門的な知識と経験が求められます。
-
適切な報告と共有: 統計処理の結果を適切な形式で報告し、関係者と共有することが大切です。わかりやすい言葉で説明し、グラフや表を用いて視覚的に示すことで、他の人々が結果を理解しやすくなります。
-
継続的な評価と改善: 統計処理は一度だけでなく、継続的に評価し改善することが重要です。新たなデータが入手可能になったり、処理手法に新たなアプローチが出てきた場合に、処理方法や結果の解釈を見直すことが必要です。
これらのポイントに気を付けながら、データの統計処理を行うことで、有益な情報や洞察を得ることができます。
でした。