Гипотезаны тестирлөө

Python'дун жардамы менен гипотезаны тестирлөө боюнча жөнөкөй жана кыскача окуу куралы

Сүрөт: http://www.advanceinnovationgroup.com/blog/median-based-hypothesis-testing

Бул блогдо мен Pythonda статистикалык ыкмаларды колдонуп гипотезаны тестирлөө боюнча кыскача маалымат берем. Гипотезаны тестирлөө - бул биз билип жаткан илимий методдун бөлүгү, биз аны алгачкы билим берүү жылдарында билгенбиз. Бирок, статистикалык маалыматтарда, көптөгөн тажрыйбалар популяциянын тандоосу боюнча жасалат.

"Байкоочулардын тандалган топтому сунуш кылынган түшүндүрмө жөнүндө эмнени билдирерин аныктоо, жалпысынан, бизден белгисиздикке негизделген жыйынтыкты чыгарууну талап кылат. Белгисиздикке негиздөө статистикалык жыйынтыктын негизи болуп саналат жана адатта Null гипотезанын маанисин текшерүү деп аталган ыкманы колдонуп жасалат. " -Ovens.

Бул блогго мисал катары мен Kaggle'де табылган Европалык Футбол боюнча маалыматтар топтомун колдонуп, гипотезаны тестирлөөдөн өтөм. Маалыматтарды бул жерден тапса болот.

1 кадам

Байкоо жасаңыз

Биринчи кадам - ​​кубулуштарды байкоо. Бул учурда мындай болот: Коргоочу агрессиянын орточо жол берилген максаттарга таасири барбы?

2-кадам

Изилдөөлөрдү карап чыгыңыз

Акылга сыярлык иш - акылдуулук менен иштөө кыйыныраак эмес. Дагы бир жакшы нерсе, сиздин байкооңузга байланыштуу изилдөө мурунтан эле барбы. Андай болсо, бул биздин суроого жооп берүүгө жардам берет. Мурдатан бар болгон изилдөөлөрдү жана тажрыйбаларды билүү бизге экспериментти жакшыраак түзүүгө жардам берет, же балким биздин суроого жооп берип, экспериментти биринчи кезекте өткөрүүнүн кажети жок.

3-кадам

Нул гипотезасын жана альтернативдүү гипотезаны түзүңүз

Альтернативдүү гипотеза - биздин билимдүү божомол, ал эми гипотеза тескерисинче. Эгерде альтернативдүү гипотеза эки өзгөрмөнүн ортосунда олуттуу байланыш бар болсо, нөл гипотеза менен эч кандай олуттуу байланыш жок.

Биздин Null гипотезабыз: 65тен төмөн же ага барабар коргонуу агрессиялык рейтинги бар командалар менен 65тен төмөн командаларга уруксат берилген статистикалык айырмачылыктар жок.

Альтернативдүү гипотеза: Коргоочу агрессиялык рейтинги 65тен жогору же ага барабар командалар менен 65тен төмөн болгон командаларга каршы коюлган максаттарда статистикалык айырмачылыктар бар.

4-кадам

Биздин гипотезабыз бир куйруктуу тест же эки куйруктуу сынак экендигин аныктаңыз.

Бир куйруктуу тест

"Эгер сиз 0.05 маанисинин деңгээлин колдонуп жатсаңыз, бир жактуу сыноо сиздин альфаңыздын бардыгына статистикалык маанини кызыкчылыктын бир тарабында текшерүүгө мүмкүнчүлүк берет." Бир тараптуу тесттин мисалы "65тен төмөн агрессиялык рейтинги бар футбол командалары, рейтинги 65тен төмөн командаларга караганда статистикалык жактан кыйла көп гол киргизүүгө мүмкүндүк берет."

Эки куйруктуу тест

"Эгер сиз 0.05 маанисинин деңгээлин колдонуп жатсаңыз, эки куйруктуу тест альфаңыздын жарымын бир багытта, ал эми альфаңыздын жарымын башка багытта текшерүү мүмкүнчүлүгүн берет. Бул тесттик статистикалык маалыматыңызды бөлүштүрүүнүн ар бир куйругунда 0.025 дегенди билдирет. "

Эки куйруктуу тест менен, сиз эки жакта тең статистикалык маанини сынап жатасыз. Биздин учурда, биз статистикалык маанисин эки багытта да текшерип жатабыз.

5-кадам

Чектик маанисин (альфа) орнотуңуз

(альфа мааниси): Нөл гипотезаны четке кагуу менен биз макул болгон чеги. Альфанын мааниси 0 менен 1 ортосундагы ар кандай маани болушу мүмкүн, бирок илимде эң көп кездешкен альфа мааниси - 0,05. Альфа 0,05 деп коюлду, натыйжалар кокустуктан улам 5% же андан аз мүмкүнчүлүк болсо дагы, нөл божомолун четке кагып койсо болот.

P-мааниси: Бул маалыматтарга туш келди келип чыгуунун эсептелген ыктымалдуулугу.

Эгерде биз p-маанисин эсептеп, ал 0,03 болсо, анда "мен көргөн натыйжалар кокустуктан же таза ийгиликтен улам 3% мүмкүнчүлүк бар" деп чечмелесе болот.

Learn.co сайтынан сүрөт

Биздин максат - p-маанисин эсептеп, аны биздин альфа менен салыштыруу. Альфа канчалык төмөн болсо, сыноо ошончолук катуу болот.

6-кадам

Тандоону жүргүзүңүз

Бул жерде бизде футбол деп аталган маалымат базабыз бар. Текшерүү үчүн, бизге берилиштер топтомунда эки гана тилке керек: team_def_aggr_rating жана голдор_allowed. Биз ушул эки тилкеде чыпкалайбыз, андан кийин коргонуу агрессиясынын рейтинги 65тен жогору же ага барабар командалар үчүн, ал эми агрессиялык коргонуу рейтинги 65тен төмөн командалар үчүн эки чакан топ түзөбүз.

Биздин гипотезаны сынап көрүш үчүн:

Коргонуу агрессиясынын орточо жол берилген максаттарга таасири. Нул гипотезасы: 65 жаштан төмөн командаларга караганда, 65тен жогору же ага барабар коргонуу агрессиялык рейтинги бар командалар менен голдордун ортосунда статистикалык айырмачылык жок. 65тен төмөн болгон командаларга караганда 65 же барабар. Эки куйруктуу тест Альфа: 0.05

Азыр бизде статистикалык тесттерди жүргүзө турган үлгүлөрдүн эки тизмеси бар. Бул кадамга чейин, мен эки бөлүштүрүүнү көргөзмө алуу үчүн түзөм.

7-кадам

Эки Sample T-тестин аткарыңыз

Эки тандалган т-тест эки популяциянын барабар экендигин аныктоо үчүн колдонулат. Бул үчүн биз statsmodels деп аталган Python модулун колдонобуз. Мен статистика моделдери жөнүндө өтө көп маалымат киргизбейм, бирок документтерди бул жерден көрө аласыз.

8-кадам

Баалап, жыйынтык чыгар

Эске салсак, биз койгон альфа a = 0.05 болгон. Тесттин натыйжаларынан көрүнүп тургандай, p-мааниси биздин альфадан азыраак. Биз нөл гипотезабызды четке кагып, альтернативдүү гипотезабызды 95% ишеним менен кабыл алабыз.

Окуу үчүн рахмат! Гипотезаны тестирлөө боюнча тереңирээк маалымат алуу үчүн, бул жерде GitHub I боюнча гипотезаны тестирлөөгө катышкан бул топтук долбоор менен таанышсаңыз болот.

Ресурстар:

Меш, Меш. "Статистика жана" Илимий метод "YourStatsGuru сайтынан алынды. https://www.yourstatsguru.com/secrets/scimethod-stats/?v=4442e4af0916

SAS менен таанышуу. UCLA: Статистикалык консалтинг тобу. https://stats.idre.ucla.edu/other/mult-pkg/faq/general/faq-what-are-the-differences-between-one-tailed-and-two-tailed-tests/ (май айында жеткиликтүү) 16, 2019).

Инженердик статистика боюнча колдонмо. https://www.itl.nist.gov/div898/handbook/eda/section3/eda353.htm