• Ce poți găti din calmar: rapid și gustos

    Pentru marea majoritate a măsurătorilor simple, așa-numita lege normală a erorilor aleatoare este satisfăcută destul de bine ( legea lui Gauss), derivat din următoarele prevederi empirice.

    1) erorile de măsurare pot lua o serie continuă de valori;

    2) cu un număr mare de măsurători, erori de aceeași amploare, dar de semne diferite, apar la fel de des,

    3) cu cât este mai mare magnitudinea erorii aleatorii, cu atât este mai puțin probabil să apară.

    Graficul legii distribuției gaussiene normale este prezentat în Fig. 1. Ecuația curbei este

    unde este funcția de distribuție a erorilor aleatoare (erori), care caracterizează probabilitatea unei erori, σ este eroarea pătratică medie.

    Mărimea σ nu este o variabilă aleatoare și caracterizează procesul de măsurare. Dacă condițiile de măsurare nu se schimbă, atunci σ rămâne o valoare constantă. Pătratul acestei mărimi se numește dispersie de măsurare. Cu cât dispersia este mai mică, cu atât răspândirea valorilor individuale este mai mică și precizia măsurării este mai mare.

    Valoarea exactă a erorii pătratice medii σ, precum și valoarea adevărată a valorii măsurate, sunt necunoscute. Există o așa-numită estimare statistică a acestui parametru, conform căreia eroarea pătratică medie este egală cu eroarea pătratică medie a mediei aritmetice. A cărui valoare este determinată de formula

    unde este rezultatul i a-a dimensiune; - media aritmetică a valorilor obţinute; n– numărul de măsurători.

    Cu cât este mai mare numărul de dimensiuni, cu atât este mai mic și se apropie de σ. Dacă valoarea adevărată a mărimii măsurate este μ, valoarea medie aritmetică a acesteia obținută în urma măsurătorilor este , iar eroarea absolută aleatorie este , atunci rezultatul măsurării va fi scris sub forma .

    Se numește intervalul de valori de la până la , care conține valoarea adevărată a mărimii măsurate μ interval de încredere. Deoarece este o variabilă aleatoare, valoarea adevărată se încadrează în intervalul de încredere cu probabilitatea α, care se numește probabilitatea de încredere, sau fiabilitate măsurători. Această valoare este numeric egală cu aria trapezului curbat umbrit. (vezi poza)

    Toate acestea sunt valabile pentru un număr suficient de mare de măsurători, când σ este aproape. Pentru a găsi intervalul de încredere și probabilitatea de încredere pentru numărul mic de măsurători cu care ne ocupăm în timpul execuției munca de laborator, folosit Distribuția probabilității elevilor. Aceasta este distribuția de probabilitate a unei variabile aleatoare numite Coeficientul elevului, dă valoarea intervalului de încredere în fracții din eroarea pătratică medie a mediei aritmetice.


    Distribuția de probabilitate a acestei mărimi nu depinde de σ 2, dar depinde semnificativ de numărul de experimente n. Odată cu creșterea numărului de experimente n distribuția Student tinde către distribuția Gauss.

    Funcția de distribuție este tabelată (Tabelul 1). Valoarea coeficientului Student se află la intersecția dreptei corespunzătoare numărului de măsurători n, iar coloana corespunzătoare probabilității de încredere α

    Calculul intervalului de încredere se bazează pe eroarea medie a parametrului corespunzător. Interval de încredere arată în ce limite cu probabilitate (1-a) se află adevărata valoare a parametrului estimat. Aici a este nivelul de semnificație, (1-a) se mai numește și probabilitate de încredere.

    În primul capitol am arătat că, de exemplu, pentru media aritmetică, media reală a populației în aproximativ 95% din cazuri se află în 2 erori standard ale mediei. Astfel, limitele intervalului de încredere de 95% pentru medie vor fi separate de media eșantionului de două ori eroarea medie a mediei, i.e. înmulțim eroarea medie a mediei cu un anumit coeficient în funcție de nivelul de încredere. Pentru medie și diferența de medii se ia coeficientul Student (valoarea critică a testului Student), pentru ponderea și diferența de cote, valoarea critică a testului z. Produsul dintre coeficient și eroarea medie poate fi numit eroarea maximă a unui parametru dat, adică maximul pe care îl putem obţine la evaluarea acestuia.

    Interval de încredere pentru medie aritmetică : .

    Iată media eșantionului;

    Eroarea medie a mediei aritmetice;

    s – abaterea standard a probei;

    n

    f = n-1 (Coeficientul elevului).

    Interval de încredere pentru diferențe de medii aritmetice :

    Iată diferența dintre mediile eșantionului;

    - eroarea medie a diferenţei dintre mediile aritmetice;

    s 1 , s 2 – abateri standard ale probei;

    n1,n2

    Valoarea critică a testului Student pentru un anumit nivel de semnificație a și numărul de grade de libertate f=n 1 + n 2-2 (Coeficientul elevului).

    Interval de încredere pentru acțiuni :

    .

    Aici d este fracția eșantionului;

    – eroare medie de fracție;

    n– dimensiunea eșantionului (mărimea grupului);

    Interval de încredere pentru diferenta de actiuni :

    Iată diferența dintre acțiunile eșantionului;

    – eroarea medie a diferenței dintre mediile aritmetice;

    n1,n2– volume de probe (număr de grupuri);

    Valoarea critică a criteriului z la un nivel de semnificație dat a ( , , ).

    Prin calcularea intervalelor de încredere pentru diferența dintre indicatori, în primul rând, vedem direct valorile posibile ale efectului, și nu doar estimarea punctuală a acestuia. În al doilea rând, putem trage o concluzie despre acceptarea sau respingerea ipotezei nule și, în al treilea rând, putem trage o concluzie despre puterea testului.

    Când testați ipoteze folosind intervale de încredere, trebuie să respectați următoarea regulă:

    Dacă intervalul de încredere de 100(1-a) procente al diferenței de medii nu conține zero, atunci diferențele sunt semnificative statistic la nivelul de semnificație a; dimpotrivă, dacă acest interval conține zero, atunci diferențele nu sunt semnificative statistic.

    Într-adevăr, dacă acest interval conține zero, atunci indicatorul comparat poate fi fie mai mare, fie mai mic într-unul dintre grupuri comparativ cu celălalt, adică. diferenţele observate se datorează întâmplării.

    Puterea testului poate fi judecată după locația lui zero în intervalul de încredere. Dacă zero este aproape de limita inferioară sau superioară a intervalului, atunci poate cu un număr mai mare de grupuri comparate, diferențele ar ajunge la semnificație statistică. Dacă zero este aproape de mijlocul intervalului, înseamnă că atât o creștere, cât și o scădere a indicatorului în grupul experimental sunt la fel de probabile și, probabil, chiar nu există diferențe.

    Exemple:

    Pentru a compara mortalitatea chirurgicală la utilizarea a două tipuri diferite de anestezie: 61 de persoane au fost operate cu primul tip de anestezie, 8 au murit, cu al doilea tip – 67 de persoane, 10 au murit.

    d 1 = 8/61 = 0,131; d2 = 10/67 = 0,149; d1-d2 = - 0,018.

    Diferența de letalitate a metodelor comparate va fi în intervalul (-0,018 - 0,122; -0,018 + 0,122) sau (-0,14; 0,104) cu o probabilitate de 100(1-a) = 95%. Intervalul conține zero, adică. ipoteză despre aceeași letalitate în doi diferite tipuri Anestezia nu poate fi respinsă.

    Astfel, rata mortalității poate și va scădea la 14% și crește la 10,4% cu o probabilitate de 95%, adică. zero este aproximativ la mijlocul intervalului, deci se poate argumenta că, cel mai probabil, aceste două metode nu diferă într-adevăr în ceea ce privește letalitatea.

    În exemplul discutat mai devreme, timpul mediu de apăsare în timpul testului de atingere a fost comparat în patru grupuri de studenți care au fost diferite în ceea ce privește scorurile la examen. Să calculăm intervalele de încredere pentru timpul mediu de presare pentru studenții care au promovat examenul cu 2 și 5 note și intervalul de încredere pentru diferența dintre aceste medii.

    Coeficienții lui Student se găsesc folosind tabelele de distribuție a lui Student (vezi anexa): pentru prima grupă: = t(0,05;48) = 2,011; pentru a doua grupă: = t(0,05;61) = 2,000. Astfel, intervale de încredere pentru primul grup: = (162,19-2,011*2,18; 162,19+2,011*2,18) = (157,8; 166,6), pentru al doilea grup (156,55- 2.000*1,88 ; 156,805*1,88 ; =+1,805*1,805) ; 160,3). Deci, pentru cei care au promovat examenul cu 2, timpul mediu de apăsare variază de la 157,8 ms la 166,6 ms cu o probabilitate de 95%, pentru cei care au promovat examenul cu 5 – de la 152,8 ms la 160,3 ms cu o probabilitate de 95% .

    De asemenea, puteți testa ipoteza nulă folosind intervale de încredere pentru medii și nu doar pentru diferența de medii. De exemplu, ca și în cazul nostru, dacă intervalele de încredere pentru medii se suprapun, atunci ipoteza nulă nu poate fi respinsă. Pentru a respinge o ipoteză la un nivel de semnificație ales, intervalele de încredere corespunzătoare nu trebuie să se suprapună.

    Să aflăm intervalul de încredere pentru diferența în timpul mediu de presare la loturile care au promovat examenul cu note 2 și 5. Diferența de medii: 162,19 – 156,55 = 5,64. Coeficientul studentului: = t(0,05;49+62-2) = t(0,05;109) = 1,982. Abaterile standard de grup vor fi egale cu: ; . Se calculează eroarea medie a diferenței dintre medii: . Interval de încredere: =(5,64-1,982*2,87; 5,64+1,982*2,87) = (-0,044; 11,33).

    Așadar, diferența de timp mediu de presare în grupele care au promovat examenul cu 2 și 5 va fi în intervalul de la -0,044 ms la 11,33 ms. Acest interval include zero, adică Timpul mediu de presare pentru cei care au promovat bine examenul poate fie să crească, fie să scadă în comparație cu cei care au promovat examenul nesatisfăcător, adică. ipoteza nulă nu poate fi respinsă. Dar zero este foarte aproape de limita inferioară, iar timpul de presare este mult mai probabil să scadă pentru cei care au trecut bine. Astfel, putem concluziona că există încă diferențe în timpul mediu de presare între cei care au trecut de 2 și 5, pur și simplu nu le-am putut detecta având în vedere modificarea timpului mediu, răspândirea timpului mediu și dimensiunile eșantionului.

    Puterea unui test este probabilitatea de a respinge o ipoteză nulă incorectă, i.e. găsiți diferențele acolo unde acestea există de fapt.

    Puterea testului este determinată pe baza nivelului de semnificație, a mărimii diferențelor dintre grupuri, a răspândirii valorilor în grupuri și a mărimii eșantioanelor.

    Pentru testul t Student și analiza varianței, pot fi utilizate diagrame de sensibilitate.

    Puterea criteriului poate fi utilizată pentru a determina preliminar numărul necesar de grupuri.

    Intervalul de încredere arată în ce limite se află valoarea adevărată a parametrului estimat cu o probabilitate dată.

    Folosind intervale de încredere, puteți testa ipoteze statistice și puteți trage concluzii despre sensibilitatea criteriilor.

    LITERATURĂ.

    Glanz S. – Capitolul 6,7.

    Rebrova O.Yu. – p.112-114, p.171-173, p.234-238.

    Sidorenko E.V – p.32-33.

    Întrebări pentru autotestarea elevilor.

    1. Care este puterea criteriului?

    2. În ce cazuri este necesară evaluarea puterii criteriilor?

    3. Metode de calcul al puterii.

    6. Cum se testează o ipoteză statistică folosind un interval de încredere?

    7. Ce se poate spune despre puterea criteriului la calcularea intervalului de încredere?

    Sarcini.

    Interval de încredere pentru așteptările matematice - acesta este un interval calculat din date care, cu o probabilitate cunoscuta, contine asteptarea matematica a populatiei generale. O estimare naturală pentru așteptarea matematică este media aritmetică a valorilor observate. Prin urmare, pe parcursul lecției vom folosi termenii „medie” și „valoare medie”. În problemele de calculare a unui interval de încredere, un răspuns cel mai adesea cerut este ceva de genul „Intervalul de încredere al numărului mediu [valoarea unei anumite probleme] este de la [valoare mai mică] la [valoare mai mare]”. Folosind un interval de încredere, puteți evalua nu numai valorile medii, ci și proporția unei anumite caracteristici a populației generale. Valorile medii, dispersia, abaterea standard și eroarea, prin care vom ajunge la noi definiții și formule, sunt discutate în lecție Caracteristicile eșantionului și populației .

    Estimări punctuale și pe intervale ale mediei

    Dacă valoarea medie a populației este estimată printr-un număr (punct), atunci o medie specifică, care este calculată dintr-un eșantion de observații, este luată ca o estimare a valorii medii necunoscute a populației. În acest caz, valoarea mediei eșantionului - o variabilă aleatorie - nu coincide cu valoarea medie a populației generale. Prin urmare, atunci când indicați media eșantionului, trebuie să indicați simultan eroarea de eșantionare. Măsura erorii de eșantionare este eroarea standard, care este exprimată în aceleași unități ca și media. Prin urmare, se folosește adesea următoarea notație: .

    Dacă estimarea mediei trebuie să fie asociată cu o anumită probabilitate, atunci parametrul de interes în populație trebuie estimat nu printr-un număr, ci printr-un interval. Un interval de încredere este un interval în care, cu o anumită probabilitate P se constată valoarea indicatorului populaţiei estimate. Interval de încredere în care este probabil P = 1 - α se găsește variabila aleatoare, calculată după cum urmează:

    ,

    α = 1 - P, care poate fi găsit în anexa la aproape orice carte de statistică.

    În practică, media și varianța populației nu sunt cunoscute, astfel încât varianța populației este înlocuită cu varianța eșantionului, iar media populației cu media eșantionului. Astfel, intervalul de încredere în majoritatea cazurilor se calculează după cum urmează:

    .

    Formula intervalului de încredere poate fi utilizată pentru a estima media populației dacă

    • se cunoaște abaterea standard a populației;
    • sau abaterea standard a populației este necunoscută, dar dimensiunea eșantionului este mai mare de 30.

    Media eșantionului este o estimare imparțială a mediei populației. La rândul său, varianța eșantionului nu este o estimare imparțială a varianței populației. Pentru a obține o estimare imparțială a varianței populației în formula variației eșantionului, dimensiunea eșantionului n ar trebui înlocuit cu n-1.

    Exemplul 1. S-au colectat informații din 100 de cafenele selectate aleatoriu dintr-un anumit oraș că numărul mediu de angajați din acestea este de 10,5 cu o abatere standard de 4,6. Determinați intervalul de încredere de 95% pentru numărul de angajați ai cafenelei.

    unde este valoarea critică a distribuției normale standard pentru nivelul de semnificație α = 0,05 .

    Astfel, intervalul de încredere de 95% pentru numărul mediu de angajați ai cafenelei a variat între 9,6 și 11,4.

    Exemplul 2. Pentru un eșantion aleatoriu din populația de 64 de observații, au fost calculate următoarele valori totale:

    suma valorilor din observații,

    suma abaterilor pătrate ale valorilor de la medie .

    Calculați intervalul de încredere de 95% pentru așteptările matematice.

    Să calculăm abaterea standard:

    ,

    Să calculăm valoarea medie:

    .

    Înlocuim valorile în expresia pentru intervalul de încredere:

    unde este valoarea critică a distribuției normale standard pentru nivelul de semnificație α = 0,05 .

    Primim:

    Astfel, intervalul de încredere de 95% pentru așteptarea matematică a acestui eșantion a variat între 7,484 și 11,266.

    Exemplul 3. Pentru un eșantion de populație aleatoriu de 100 de observații, media calculată este 15,2 și abaterea standard este 3,2. Calculați intervalul de încredere de 95% pentru valoarea așteptată, apoi intervalul de încredere de 99%. Dacă puterea eșantionului și variația acesteia rămân neschimbate și coeficientul de încredere crește, intervalul de încredere se va îngusta sau se va lărgi?

    Inlocuim aceste valori in expresia pentru intervalul de incredere:

    unde este valoarea critică a distribuției normale standard pentru nivelul de semnificație α = 0,05 .

    Primim:

    .

    Astfel, intervalul de încredere de 95% pentru media acestui eșantion a variat între 14,57 și 15,82.

    Substituim din nou aceste valori în expresia pentru intervalul de încredere:

    unde este valoarea critică a distribuției normale standard pentru nivelul de semnificație α = 0,01 .

    Primim:

    .

    Astfel, intervalul de încredere de 99% pentru media acestui eșantion a variat între 14,37 și 16,02.

    După cum vedem, pe măsură ce coeficientul de încredere crește, crește și valoarea critică a distribuției normale standard și, în consecință, punctele de început și de sfârșit ale intervalului sunt situate mai departe de medie și astfel intervalul de încredere pentru așteptarea matematică crește. .

    Estimări punctiforme și pe intervale ale greutății specifice

    Ponderea unui atribut al eșantionului poate fi interpretată ca o estimare punctuală greutate specifică p de aceeaşi caracteristică în populaţia generală. Dacă această valoare trebuie să fie asociată cu probabilitatea, atunci intervalul de încredere al greutății specifice trebuie calculat p caracteristică în populaţie cu probabilitate P = 1 - α :

    .

    Exemplul 4.Într-un oraș sunt doi candidați OŞi B candideaza pentru functia de primar. 200 de locuitori ai orașului au fost chestionați aleatoriu, dintre care 46% au răspuns că ar vota pentru candidat O, 26% - pentru candidat B iar 28% nu știu pe cine vor vota. Determinați intervalul de încredere de 95% pentru proporția de locuitori ai orașului care susțin candidatul O.

    INTERVALE DE ÎNCREDERE PENTRU FRECVENȚE ȘI FRACȚII

    © 2008

    Institutul Național de Sănătate Publică, Oslo, Norvegia

    Articolul descrie și discută calculul intervalelor de încredere pentru frecvențe și proporții folosind metodele Wald, Wilson, Clopper - Pearson, folosind transformarea unghiulară și metoda Wald cu corecția Agresti - Coull. Materialul prezentat dă Informații generale despre metode de calculare a intervalelor de încredere pentru frecvențe și proporții și are scopul de a trezi interesul cititorilor de reviste nu numai pentru utilizarea intervalelor de încredere în prezentarea rezultatelor propriilor cercetări, ci și pentru citirea literaturii de specialitate înainte de a începe lucrul la viitoarele publicații.

    Cuvinte cheie: interval de încredere, frecvență, proporție

    Una dintre publicațiile anterioare a menționat pe scurt descrierea datelor calitative și a raportat că estimarea intervalului acestora este preferabilă estimării punctuale pentru descrierea frecvenței de apariție a caracteristicii studiate în populație. Într-adevăr, întrucât cercetarea este efectuată folosind date eșantionate, proiecția rezultatelor asupra populației trebuie să conțină un element de imprecizie a eșantionării. Intervalul de încredere este o măsură a acurateței parametrului estimat. Este interesant că unele cărți despre statistici de bază pentru medici ignoră complet subiectul intervalelor de încredere pentru frecvențe. În acest articol vom analiza mai multe moduri de a calcula intervalele de încredere pentru frecvențe, implicând astfel de caracteristici ale eșantionului precum nerepetiția și reprezentativitatea, precum și independența observațiilor unele față de altele. În acest articol, frecvența este înțeleasă nu ca un număr absolut care arată de câte ori apare o anumită valoare în agregat, ci ca o valoare relativă care determină proporția de participanți la studiu la care apare caracteristica studiată.

    În cercetarea biomedicală, intervalele de încredere de 95% sunt cel mai frecvent utilizate. Acest interval de încredere este zona în care proporția reală se încadrează în 95% din timp. Cu alte cuvinte, putem spune cu o fiabilitate de 95% că adevărata valoare a frecvenței de apariție a unei trăsături în populație va fi în intervalul de încredere de 95%.

    Majoritatea manualelor de statistică pentru cercetătorii medicali raportează că eroarea de frecvență este calculată folosind formula

    unde p este frecvența de apariție a caracteristicii în eșantion (valoare de la 0 la 1). Majoritatea articolelor științifice interne indică valoarea frecvenței de apariție a unei trăsături într-un eșantion (p), precum și eroarea (e) acesteia sub forma p ± s. Este mai indicat, însă, să se prezinte un interval de încredere de 95% pentru frecvența de apariție a unei trăsături în populație, care va include valori de la

    la.

    Unele manuale recomandă ca, pentru eșantioane mici, să înlocuiți valoarea de 1,96 cu valoarea t pentru N – 1 grade de libertate, unde N este numărul de observații din eșantion. Valoarea t este găsită din tabelele pentru distribuția t, disponibile în aproape toate manualele de statistică. Utilizarea distribuției t pentru metoda Wald nu oferă avantaje vizibile în comparație cu alte metode discutate mai jos și, prin urmare, nu este recomandată de unii autori.

    Metoda prezentată mai sus pentru calcularea intervalelor de încredere pentru frecvențe sau proporții este numită Wald în onoarea lui Abraham Wald (1902–1950), deoarece utilizarea sa pe scară largă a început după publicarea lui Wald și Wolfowitz în 1939. Cu toate acestea, metoda în sine a fost propusă de Pierre Simon Laplace (1749–1827) încă din 1812.

    Metoda Wald este foarte populară, dar aplicarea ei este asociată cu probleme semnificative. Metoda nu este recomandată pentru eșantioane de dimensiuni mici, precum și în cazurile în care frecvența de apariție a unei caracteristici tinde spre 0 sau 1 (0% sau 100%) și este pur și simplu imposibilă pentru frecvențele de 0 și 1. În plus, aproximarea distribuției normale, care este utilizată la calcularea erorii, „nu funcționează” în cazurile în care n · p< 5 или n · (1 – p) < 5 . Более консервативные статистики считают, что n · p и n · (1 – p) должны быть не менее 10 . Более considerație detaliată Metoda lui Wald a arătat că intervalele de încredere obținute cu ajutorul ei sunt în majoritatea cazurilor prea înguste, adică utilizarea lor creează în mod eronat o imagine prea optimistă, mai ales când frecvența de apariție a caracteristicii este îndepărtată de la 0,5, sau 50%. În plus, pe măsură ce frecvența se apropie de 0 sau 1, intervalul de încredere poate lua valori negative sau poate depăși 1, ceea ce pare absurd pentru frecvențe. Mulți autori, pe bună dreptate, nu recomandă utilizarea acestei metode, nu numai în cazurile deja menționate, ci și atunci când frecvența de apariție a caracteristicii este mai mică de 25% sau mai mare de 75%. Astfel, în ciuda simplității calculelor, metoda Wald poate fi utilizată doar într-un număr foarte limitat de cazuri. Cercetătorii străini sunt mai categoric în concluziile lor și recomandă clar să nu se folosească această metodă pentru eșantioane mici, iar cercetătorii medicali trebuie adesea să se ocupe de astfel de eșantioane.

    Deoarece noua variabilă este distribuită în mod normal, limitele inferioare și superioare ale intervalului de încredere de 95% pentru variabila φ vor fi φ-1,96 și φ+1,96 stânga">

    În loc de 1,96 pentru probele mici, se recomandă înlocuirea valorii t cu N – 1 grade de libertate. Această metodă nu produce valori negative și permite estimări mai precise ale intervalelor de încredere pentru frecvențe decât metoda Wald. În plus, este descris în multe cărți interne de referință privind statistica medicală, ceea ce, totuși, nu a condus la utilizarea sa pe scară largă în cercetarea medicală. Calcularea intervalelor de încredere folosind transformarea unghiulară nu este recomandată pentru frecvențele care se apropie de 0 sau 1.

    Aici se termină de obicei descrierea metodelor de estimare a intervalelor de încredere în majoritatea cărților despre bazele statisticii pentru cercetătorii medicali, iar această problemă este tipică nu numai pentru literatura națională, ci și pentru literatura străină. Ambele metode se bazează pe teorema limită centrală, care implică un eșantion mare.

    Ținând cont de neajunsurile estimării intervalelor de încredere folosind metodele de mai sus, Clopper și Pearson au propus în 1934 o metodă de calcul a așa-numitului interval de încredere exact, având în vedere distribuția binomială a trăsăturii studiate. Această metodă este disponibilă în multe calculatoare online, dar intervalele de încredere obținute astfel sunt în majoritatea cazurilor prea largi. În același timp, această metodă este recomandată pentru utilizare în cazurile în care este necesară o evaluare conservatoare. Gradul de conservativitate al metodei crește pe măsură ce dimensiunea eșantionului scade, mai ales când N< 15 . описывает применение функции биномиального распределения для анализа качественных данных с использованием MS Excel, в том числе и для определения доверительных интервалов, однако расчет последних для частот в электронных таблицах не «затабулирован» в удобном для пользователя виде, а потому, вероятно, и не используется большинством исследователей.

    Potrivit multor statisticieni, cea mai optimă evaluare a intervalelor de încredere pentru frecvențe este realizată prin metoda Wilson, propusă încă din 1927, dar practic neutilizată în cercetarea biomedicală internă. Această metodă nu numai că permite estimarea intervalelor de încredere atât pentru frecvențe foarte mici, cât și pentru frecvențe foarte mari, dar este și aplicabilă pentru un număr mic de observații. ÎN vedere generală Intervalul de încredere conform formulei lui Wilson are forma



    unde ia valoarea 1,96 la calcularea intervalului de încredere de 95%, N este numărul de observații, iar p este frecvența de apariție a caracteristicii în eșantion. Această metodă este disponibilă în calculatoarele online, astfel încât utilizarea sa nu este problematică. și nu recomandăm utilizarea acestei metode pentru n p< 4 или n · (1 – p) < 4 по причине слишком грубого приближения распределения р к нормальному в такой ситуации, однако зарубежные статистики считают метод Уилсона применимым и для малых выборок .

    Pe lângă metoda Wilson, se crede că metoda Wald cu corecție Agresti-Coll oferă o estimare optimă a intervalului de încredere pentru frecvențe. Corecția Agresti-Coll este o înlocuire în formula Wald a frecvenței de apariție a unei caracteristici într-un eșantion (p) cu p`, la calculul care 2 se adaugă la numărător și 4 se adaugă la numitor, adică p` = (X + 2) / (N + 4), unde X este numărul de participanți la studiu care au caracteristica studiată și N este dimensiunea eșantionului. Această modificare produce rezultate foarte asemănătoare cu formula lui Wilson, cu excepția cazului în care frecvența evenimentelor se apropie de 0% sau 100% și eșantionul este mic. Pe lângă metodele de mai sus pentru calcularea intervalelor de încredere pentru frecvențe, au fost propuse corecții de continuitate atât pentru metodele Wald, cât și pentru cele Wilson pentru eșantioane mici, dar studiile au arătat că utilizarea lor este inadecvată.

    Să luăm în considerare aplicarea metodelor de mai sus pentru calcularea intervalelor de încredere folosind două exemple. În primul caz, studiem un eșantion mare de 1.000 de participanți la studiu selectați aleatoriu, dintre care 450 au trăsătura studiată (aceasta ar putea fi un factor de risc, un rezultat sau orice altă trăsătură), reprezentând o frecvență de 0,45 sau 45. %. În al doilea caz, studiul se desfășoară folosind un eșantion mic, să zicem, doar 20 de persoane și doar 1 participant la studiu (5%) are trăsătura studiată. Intervalele de încredere conform metodei Wald, conform metodei Wald cu corectie Agresti-Coll, conform metodei Wilson au fost calculate folosind un calculator online dezvoltat de Jeff Sauro (http://www. /wald. htm). Intervalele de încredere corectate ale lui Wilson au fost calculate utilizând calculatorul furnizat de Wassar Stats: Web Site for Statistical Computation (http://faculty.vassar.edu/lowry/prop1.html). Calculele de transformare Angular Fisher au fost efectuate manual folosind valoarea critică t pentru 19 și, respectiv, 999 de grade de libertate. Rezultatele calculului sunt prezentate în tabel pentru ambele exemple.

    Intervale de încredere calculate cu șase în moduri diferite pentru cele două exemple descrise în text

    Metoda de calcul a intervalului de încredere

    P=0,0500 sau 5%

    95% CI pentru X=450, N=1000, P=0,4500 sau 45%

    –0,0455–0,2541

    Wald cu corectie Agresti–Coll

    <,0001–0,2541

    Wilson cu corecție de continuitate

    „metoda exactă” Clopper-Pearson

    Transformare unghiulară

    <0,0001–0,1967

    După cum se poate observa din tabel, pentru primul exemplu intervalul de încredere calculat folosind metoda Wald „general acceptată” intră în regiunea negativă, ceea ce nu poate fi cazul frecvențelor. Din păcate, astfel de incidente nu sunt neobișnuite în literatura rusă. Modul tradițional de prezentare a datelor în termeni de frecvență și eroarea acesteia maschează parțial această problemă. De exemplu, dacă frecvența de apariție a unei trăsături (în procente) este prezentată ca 2,1 ± 1,4, atunci aceasta nu este la fel de „ofensivă pentru ochi” ca 2,1% (IC 95%: -0,7; 4,9), deși și înseamnă acelasi lucru. Metoda Wald cu corecția Agresti–Coll și calculul folosind transformarea unghiulară oferă o limită inferioară care tinde spre zero. Metoda lui Wilson corectată în funcție de continuitate și „metoda exactă” produc intervale de încredere mai largi decât metoda lui Wilson. Pentru al doilea exemplu, toate metodele dau aproximativ aceleași intervale de încredere (diferențele apar numai în miimi), ceea ce nu este surprinzător, deoarece frecvența de apariție a evenimentului din acest exemplu nu este mult diferită de 50%, iar dimensiunea eșantionului este destul de mare.

    Pentru cititorii interesați de această problemă, le putem recomanda lucrările lui R. G. Newcombe și Brown, Cai și Dasgupta, care oferă avantajele și dezavantajele utilizării a 7 și, respectiv, 10 metode diferite pentru calcularea intervalelor de încredere. Dintre manualele interne, recomandăm cartea și, care, pe lângă o descriere detaliată a teoriei, prezintă metodele lui Wald și Wilson, precum și o metodă de calcul a intervalelor de încredere ținând cont de distribuția binomială a frecvenței. Pe lângă calculatoarele online gratuite (http://www. /wald. htm și http://faculty. vassar. edu/lowry/prop1.html), intervalele de încredere pentru frecvențe (și nu numai!) pot fi calculate folosind Programul CIA (Confidence Intervals Analysis), care poate fi descărcat de pe http://www. şcoala de medicină. soton. ac. uk/cia/ .

    Următorul articol va analiza modalități univariate de a compara datele calitative.

    Referințe

    Statistica medicală în limbaj clar: un curs introductiv / A. Banerjee. – M.: Medicină practică, 2007. – 287 p. Statistici medicale / . – M.: Agenția de Informații Medicale, 2007. – 475 p. Statistică medicală şi biologică / S. Glanz. – M.: Praktika, 1998. Tipuri de date, testare de distribuție și statistică descriptivă // Ecologie umană – 2008. – Nr. 1. – P. 52–58. CU. Statistici medicale: manual / . – Rostov n/d: Phoenix, 2007. – 160 p. Statistici medicale aplicate / , . – Sankt Petersburg. : Foliot, 2003. – 428 p. F. Biometrie / . – M.: Şcoala superioară, 1990. – 350 p. O. Statistica matematică în medicină / , . – M.: Finanțe și Statistică, 2007. – 798 p. Statistica matematică în cercetarea clinică / , . – M.: GEOTAR-MED, 2001. – 256 p. Junkerov V. ŞI. Prelucrarea medicala si statistica a datelor de cercetare medicala / , . – Sankt Petersburg. : VmedA, 2002. – 266 p. Agresti A. Aproximat este mai bine decât exact pentru estimarea pe intervale a proporțiilor binomiale / A. Agresti, B. Coull // Statistician american. – 1998. – N 52. – P. 119–126. Altman D. Statistici cu încredere // D. Altman, D. Machin, T. Bryant, M. J. Gardner. – Londra: BMJ Books, 2000. – 240 p. Brown L.D. Estimarea intervalului pentru o proporție binomială / L. D. Brown, T. T. Cai, A. Dasgupta // Statistical science. – 2001. – N 2. – P. 101–133. Clopper C.J. Utilizarea limitelor de încredere sau fiduciale ilustrate în cazul binomului / C. J. Clopper, E. S. Pearson // Biometrika. – 1934. – N 26. – P. 404–413. Garcia-Perez M.A. Despre intervalul de încredere pentru parametrul binom / M. A. Garcia-Perez // Calitate și cantitate. – 2005. – N 39. – P. 467–481. Motulsky H. Biostatistică intuitivă // H. Motulsky. – Oxford: Oxford University Press, 1995. – 386 p. Newcombe R. G. Intervale de încredere pe două părți pentru o singură proporție: comparație a șapte metode / R. G. Newcombe // Statistics in Medicine. – 1998. – N. 17. – P. 857–872. Sauro J. Estimarea ratelor de finalizare din eșantioane mici folosind intervale de încredere binomiale: comparații și recomandări / J. Sauro, J. R. Lewis // Proceedings of the human factors and ergonomics society annual meeting. – Orlando, FL, 2005. Wald A. Limite de încredere pentru funcțiile de distribuție continuă // A. Wald, J. Wolfovitz // Annals of Mathematical Statistics. – 1939. – N 10. – P. 105–118. Wilson E.B. Inferență probabilă, legea succesiunii și inferență statistică / E. B. Wilson // Journal of American Statistical Association. – 1927. – N 22. – P. 209–212.

    INTERVALE DE ÎNCREDERE PENTRU PROPORȚII

    O. M. Grjibovski

    Institutul Național de Sănătate Publică, Oslo, Norvegia

    Articolul prezintă mai multe metode de calcul a intervalelor de încredere pentru proporții binomiale, și anume, metodele Wald, Wilson, arcsinus, Agresti-Coull și exacte Clopper-Pearson. Lucrarea oferă doar o introducere generală a problemei estimării intervalului de încredere a unei proporții binomiale și scopul său este nu numai de a stimula cititorii să folosească intervalele de încredere atunci când prezintă rezultatele propriilor cercetări empirice, ci și de a-i încuraja să consulte cărți de statistică. înainte de a analiza propriile date și de a pregăti manuscrise.

    Cuvinte cheie: interval de încredere, proporție

    Informații de contact:

    Consilier principal, Institutul Național de Sănătate Publică, Oslo, Norvegia

    Intervalul de încredere ne vine din domeniul statisticii. Acesta este un anumit interval care servește la estimarea unui parametru necunoscut cu un grad ridicat de fiabilitate. Cel mai simplu mod de a explica acest lucru este cu un exemplu.

    Să presupunem că trebuie să studiați o variabilă aleatorie, de exemplu, viteza de răspuns a serverului la o solicitare a clientului. De fiecare dată când un utilizator introduce adresa unui anumit site, serverul răspunde cu viteze diferite. Astfel, timpul de răspuns studiat este aleatoriu. Deci, intervalul de încredere ne permite să determinăm limitele acestui parametru și apoi putem spune că cu o probabilitate de 95% serverul va fi în intervalul pe care l-am calculat.

    Sau trebuie să aflați câți oameni știu despre marca comercială a companiei. Când se calculează intervalul de încredere, se va putea spune, de exemplu, că, cu o probabilitate de 95%, ponderea consumatorilor conștienți de acest lucru este în intervalul de la 27% la 34%.

    Strâns legată de acest termen este valoarea probabilității de încredere. Reprezintă probabilitatea ca parametrul dorit să fie inclus în intervalul de încredere. Cât de mare va fi intervalul nostru dorit depinde de această valoare. Cu cât este mai mare valoarea pe care o ia, cu atât intervalul de încredere devine mai îngust și invers. De obicei, este setat la 90%, 95% sau 99%. Valoarea 95% este cea mai populară.

    Acest indicator este influențat și de dispersia observațiilor, iar definiția sa se bazează pe presupunerea că caracteristica studiată se supune acestei afirmații, de asemenea, cunoscută sub numele de Legea lui Gauss. Potrivit lui, normala este o distribuție a tuturor probabilităților unei variabile aleatoare continue care poate fi descrisă printr-o densitate de probabilitate. Dacă ipoteza unei distribuții normale este incorectă, atunci estimarea poate fi incorectă.

    Mai întâi, să ne dăm seama cum să calculăm intervalul de încredere pentru Există două cazuri posibile aici. Dispersia (gradul de răspândire a unei variabile aleatoare) poate fi cunoscută sau nu. Dacă este cunoscut, atunci intervalul nostru de încredere este calculat folosind următoarea formulă:

    xsr - t*σ / (sqrt(n))<= α <= хср + t*σ / (sqrt(n)), где

    α - semn,

    t - parametru din tabelul de distribuție Laplace,

    σ este rădăcina pătrată a varianței.

    Dacă varianța este necunoscută, atunci poate fi calculată dacă cunoaștem toate valorile caracteristicii dorite. Pentru aceasta se folosește următoarea formulă:

    σ2 = х2ср - (хср)2, unde

    х2ср - valoarea medie a pătratelor caracteristicii studiate,

    (хср)2 este pătratul acestei caracteristici.

    Formula prin care se calculează intervalul de încredere în acest caz se modifică ușor:

    xsr - t*s / (sqrt(n))<= α <= хср + t*s / (sqrt(n)), где

    xsr - medie eșantion,

    α - semn,

    t este un parametru care se găsește folosind tabelul de distribuție Student t = t(ɣ;n-1),

    sqrt(n) - rădăcina pătrată a dimensiunii totale a eșantionului,

    s este rădăcina pătrată a varianței.

    Luați în considerare acest exemplu. Să presupunem că pe baza rezultatelor a 7 măsurători, caracteristica studiată a fost determinată a fi egală cu 30, iar varianța eșantionului să fie egală cu 36. Este necesar să se găsească, cu o probabilitate de 99%, un interval de încredere care să conțină adevăratul valoarea parametrului măsurat.

    Mai întâi, să determinăm cu ce t este egal: t = t (0,99; 7-1) = 3,71. Folosind formula de mai sus, obținem:

    xsr - t*s / (sqrt(n))<= α <= хср + t*s / (sqrt(n))

    30 - 3,71*36 / (sqrt(7))<= α <= 30 + 3.71*36 / (sqrt(7))

    21.587 <= α <= 38.413

    Intervalul de încredere pentru varianță se calculează atât în ​​cazul unei medii cunoscute, cât și atunci când nu există date despre așteptarea matematică și se cunoaște doar valoarea estimării punctuale a varianței. Nu vom da aici formule de calcul, deoarece acestea sunt destul de complexe și, dacă se dorește, pot fi întotdeauna găsite pe Internet.

    Să remarcăm doar că este convenabil să determinați intervalul de încredere folosind Excel sau un serviciu de rețea, care se numește astfel.