FactCheck.lk විග්රහයකි
නියැදිය “කුඩා” වීම නිසා ඒ තුළින් සමස්ත ජාතික ජනගහනයේ ලක්ෂණ සාධාරණ ලෙස පිළිබිඹු කළ නොහැකි වන්නේය යන තර්කය මත නියැදි සමීක්ෂණවල වලංගුභාවය ප්රශ්න කිරීම ශ්රී ලංකාව තුළ දක්නට ලැබෙන සාමාන්ය දෙයකි.
ඒ පිළිබඳ සැකසංකා මතු කරන අදහස් උදහස් සඳහා නිදසුන් බහුලය. ජනප්රිය රූපවාහිනී නාලිකාවක ප්රමුඛ පෙළේ සිංහල මාධ්ය චරිතයක් විකල්ප ප්රතිපත්ති කේන්ද්රයේ (Centre for Policy Alternatives) ආර්ථික ප්රතිසංස්කරණ දර්ශකයේ සොයාගැනීම්වල වලංගුභාවය ප්රශ්න කළේ , “මෙම සමීක්ෂණයේ නියැදි තරම 1,000 ක්….මිලියන 22 ගේ මානසිකත්වය මනින්නේ පුද්ගලයින් 1,000 ක් යොදා ගෙනනම්, එය වැරදියි” යනුවෙන් පවසමිනි. ඒ හා සමානව, වෙරිටේ රිසර්ච් ආයතනය විසින් කාර්තුමය වශයෙන් සිදු කරනු ලබන “රට හිතන හැටි” (Mood of the Nation) මත විමසුමේ ප්රතිඵල පළ කිරීමේදී ද පුද්ගලයින් 1,000ක පමණ නියැදියකින් සැබවින්ම ‘රට හිතන හැටි’ පිළිබිඹු කළ හැකි ද යන්න සමහරු ප්රශ්න කරති.
ශ්රී ලංකාවේ වැඩිහිටි ජනගහනය ආසන්න වශයෙන් මිලියන 14 කි. විරැකියා අනුපාතය හෝ රජය පිළිබඳ දරන අදහස වැනි ජනගහනයේ වැදගත් ලක්ෂණ සොයා දැනගැනීම සඳහා සෑම වැඩිහිටි පුරවැසියෙකු සමඟම කතාබහ කිරීම සාමාන්යයෙන් ප්රායෝගික නොවේ. ජන සංගණනයක් වසර 10කට වරක් පමණක් සිදු කිරීමටත් ඊට වඩා වැඩි වාර ගණනක් සිදු නොකිරීමටත් හේතු වන්නේ ඒ සඳහා අවශ්ය වන අතිවිශාල කාලය සහ මානව සම්පතයි.
මේ හේතුවෙන් නියැදි සමීක්ෂණ ප්රයෝජනවත් මෙවලමක් වේ. ජනගහනයේ ඉතා කුඩා, අහඹු ලෙස තෝරාගත් නියැදියක ලක්ෂණ දෙස බැලීමෙන් සමස්ත ජනගහනයේ ලක්ෂණ පිළිබඳව සාධාරණ තක්සේරුවක් ලබා ගත හැකි බව නියැදි සමීක්ෂණවලට අදාළ සංඛ්යාන විද්යාව පෙන්වා දේ.
එහෙත්, සමස්ත ජනගහනයේ ලක්ෂණ පිළිබඳ සාධාරණ තක්සේරුවක් සිදු කිරීමට නම් ඒ සඳහා යොදා ගනු ලබන සසම්භාවී නියැදි සමීක්ෂණය කොපමණ විශාල විය යුතුද? එම ප්රශ්නයට වඩාත් හොඳින් පිළිතුරු ලැබෙනුයේ ගණිතමය සංඛ්යානය තුළින් මිස පුද්ගලබද්ධ මත ඔස්සේ නොවේ. එම ප්රශ්නයට විද්යාත්මක පිළිතුරක් ලබා දීම සඳහා ගනු ලබන, වාස්තවිකව (objectively) නිර්වචනය කර ඇති සංඛ්යානමය (statistical) ප්රවේශය මෙම FactCheck.lk විග්රහය මගින් විස්තර කෙරේ.
සංඛ්යාලේඛනඥයින් යම් නියැදි සමීක්ෂණයකට අදාළ සාධාරණ තක්සේරුවක් කුමක් දැයි නිර්වචනය කරන්නේ කෙසේ ද?
නියැදි සමීක්ෂණයක් ඇසුරින් ලබා ගත් ඇස්තමේන්තුවක් කෙතරම් සාධාරණ වන්නේ දැයි ගණිතමය වශයෙන් නිර්ණය කිරීම සඳහාසංඛ්යාලේඛනඥයෝ නිර්ණායක දෙකක් භාවිතා කරති. (1) ආන්තික දෝෂය (margin of error) සහ (2) විශ්රම්භ මට්ටම (confidence level) එම නිර්ණායක වේ. මෙම නිර්ණායක දෙක නියැදි තරම (sample size) සහ නියැදිය තෝරා ගන්නා ආකාරය මත රඳා පවතී. මෙම නිර්ණායක සපුරා තිබේ ද යන්න තක්සේරු කිරීම මගින් සමීක්ෂණයේ විශ්වසනීයත්වය පිළිබඳ වාස්තවික ඇගයීමක් සිදු කිරීමට ඉඩ සැලසේ.
(1) ආන්තික දෝෂය
සමීක්ෂණ නියැදියෙන් යම් ප්රශ්නයකට ලැබෙන සාමාන්ය පිළිතුර සමස්ත ජනගහනයේ සාමාන්ය පිළිතුරෙන් කොපමණ වෙනස් විය හැකි ද යන්න පිළිබඳ මිනුම ආන්තික දෝෂයයි. එය කුඩා වන තරමට නියැදිය සඳහා ලැබෙන ප්රතිඵලය සමස්ත ජනගහනය සඳහා ලැබිය හැකි ප්රතිඵලයට වඩාත් ආසන්න වේ.
උදාහරණයක් ලෙස, යම් නියැදියකින් 50%ක්, ප්රතිශත ලකුණු (+/-) 5 ක ආන්තික දෝෂයක් සහිතව එක්තරා දේශපාලන අපේක්ෂකයෙකුට සහය දක්වන බවට සමීක්ෂණයකින් පෙන්නුම් කළේ යැයි සිතමු. සැබවින්ම එම අපේක්ෂකයාට සහය දක්වන ප්රමාණය සමස්ත ජනගහනයෙන් 45% සහ 55% අතර වන බවට අපේක්ෂා කෙරෙන බව මෙයින් අදහස් කෙරේ. ආන්තික දෝෂය (+/-) ප්රතිශත ලකුණු 3ක් පමණක් නම්, සමස්ත ජනගහනයෙන් එම අපේක්ෂකයාට සහය දක්වන ප්රතිශතය වඩා පටු ප්රාන්තරයක් තුළ, එනම්, 47% සහ 53% අතර පවතිනු ඇතැයි අපේක්ෂා කෙරේ.
(2) විශ්රම්භ මට්ටම
සමස්ත ජනගහනයෙන් ප්රශ්න විමසීමෙන් ලැබෙන ප්රතිඵල ද නියැදියට තෝරා ගන්න ලද ජනගහනයෙන් ලැබෙන “ප්රතිඵල පරාසය” තුළම පවතින බවට අපට ඇති කර ගත හැකි විශ්වාසය පිළිබඳ මිනුම විශ්රම්භ මට්ටමයි. මෙහිදී “ප්රතිඵල පරාසය” යනු නියැදියේ සාමාන්ය අගයෙන් ආන්තික දෝෂය අඩු කළ විට ලැබෙන අගයේ සිට නියැදියේ සාමාන්ය අගයට ආන්තික දෝෂය එකතු කළ විට ලැබෙන අගය දක්වාදිවෙන පරාසයයි. තෝරා ගත් නියැදිය ලබා දෙන ප්රතිඵලය ආන්තික දෝෂය තුළ පැවතීමේ සම්භාවිතාව, එනම්, සමස්ත ජනගහනයෙන්ම ලද හැකි ප්රතිඵලයට සමාන වීමේ සම්භාවිතාව මින් දැක් වේ.
උදාහරණයක් ලෙස, ඉහත සමීක්ෂණයේ (+/-) ප්රතිශත ලකුණු 3 ක ආන්තික දෝෂයක් සහිතව, විශ්රම්භ මට්ටම 95% කි. එනම්, එමසමීක්ෂණය 100 වතාවක් එකම නියැදි තරම සහ එකම තේරීම් ක්රමවේදය භාවිතා කර පවත්වනු ලැබුවහොත්, සමීක්ෂණ 100 න් 95 ක්ම(+/-) 3 ආන්තික දෝෂයක් තුළ, සමස්ත ජනගහනය සඳහාම ලද හැකි ප්රතිඵලවලට සමාන ප්රතිඵල ලබා දෙනු ඇත. මෙයින් අදහස් කරන්නේ ඉහත උදාහරණයේ අපේක්ෂකයාට සැබවින්ම පවතින සහයෝගය 47% සහ 53% අතර වීමට 95% ක සම්භාවිතාවක් ඇති බවයි.
ආන්තික දෝෂය සහ විශ්රම්භ මට්ටම සඳහා සංඛ්යානමය සම්මතය කුමක් ද?
ආන්තික දෝෂය සහ විශ්රම්භ මට්ටම යන අගයන් දෙකම සමීක්ෂණ ප්රතිඵල සමස්ත ජනගහනයේ සැබෑ ප්රතිඵලවලට කෙතරම් සමීප විය හැකි ද යන්න දැක්වීමට භාවිතා කළ හැකි ක්රම වේ. අඩු ආන්තික දෝෂ සමඟ ඉහළ විශ්රම්භ මට්ටම් පැවතීම මගින් සමීක්ෂණ ප්රතිඵල සමස්ත ජනගහනය සඳහාම ලද හැකි ප්රතිඵලවලට වඩාත් සමීප වීමට ඇති ඉඩකඩ වැඩි කෙරේ. ශ්රී ලංකාවේ සමස්ත ජනගහනයම සමීක්ෂණය සඳහා සහභාගි කර ගත්තේ නම්, ආන්තික දෝෂය ශුන්ය වන අතර විශ්රම්භ මට්ටම 100 වනු ඇත. එබැවින්, නියැදි සමීක්ෂණයක් සඳහා අහඹු ලෙස තෝරාගත් නියැදිය විශාල වන තරමට, ආන්තික දෝෂය වඩාත් අඩු වී සහ/හෝ විශ්රම්භ මට්ටම වඩාත් ඉහළ යයි.
මෙම සන්දර්භය තුළ, මෙම ප්රමිතික දෙක අනුව පිළිගත හැකි සමීක්ෂණ නියැදියක් යනු කුමක් ද? ලොව පුරා සිදු කර ඇති නියැදි සමීක්ෂණ සඳහා, විශේෂයෙන්ම මත විමසුම් හා ජනගහන ලක්ෂණ අවබෝධ කර ගැනීම සම්බන්ධයෙන් සිදු කර ඇති සමීක්ෂණ සඳහා, ප්රතිශත ලකුණු (+/-) 3 ක ආන්තික දෝෂයක් සහ 95% ක විශ්රම්භ මට්ටමක් පවත්වා ගැනීමේ ප්රවණතාවක් තිබී ඇත.
ආන්තික දෝෂය සහ විශ්රම්භ මට්ටමට අදාළව යම්කිසි සංඛ්යානමය ප්රමිතියක් අත් කර ගැනීම, නියැදි තරම සහ නියැදිය තෝරා ගන්නා ක්රමවේදය යන දෙකම මත තීරණය වේ.
සසම්භාවී තේරීම් (random selection) ක්රමවේදය
ජනගහනයෙන් නියැදියක් තෝරා ගැනෙනුයේ සසම්භාවී (අහඹු) ලෙස වීම මත ආන්තික දෝෂය සහ විශ්රම්භ මට්ටම ගණනය කිරීම පදනම් වී ඇත. සසම්භාවී තේරීම් ක්රමවේද මගින් ජනගහනයට අයත් සෑම කෙනෙකුටම සමීක්ෂණය සඳහා තේරී පත් වීමේ ආසන්න වශයෙන් සමාන අවස්ථාවක් ලබා දෙන අතර, සමස්ත ජනගහනයම නියෝජනය කරන කුඩා කොටසක් විය හැකි නියැදි ඉන් ගොඩනඟයි.
සසම්භාවී තේරීමේ මෙම අපේක්ෂාව උල්ලංඝනය වී නියැදියක් තේරීමේදී ජනගහනයේ යම් කණ්ඩායමක් කෙරෙහි නැඹුරුවක් තිබේ නම් කුමක් සිදුවේ ද? එවිට, නියැදි සමීක්ෂණයේ ප්රතිඵල ද එම කණ්ඩායමේ ප්රතිඵල වෙත නැඹූරු වනු ඇති අතර, එය සමස්ත ජනගහනයේ ප්රතිඵලට වඩා වෙනස් විය හැක. නිදසුනක් වශයෙන්, සමීක්ෂණය අන්තර්ජාලය හරහා පමණක් සිදු කළේ නම් එම නියැදියේ ප්රතිඵලඅන්තර්ජාලයට ප්රවේශ වීමට හැකියාව ඇති (උපාංග සහ දත්ත) පුද්ගලයින් වෙත නැඹුරුවක් දක්වනු ඇත. ශ්රී ලංකාවේ සමස්ත ජනගහනය වැඩි වශයෙන් සිංහල හෝ දෙමළ කතා කරන බැවින්, ඉංග්රීසි කතා කිරීමට හැකියාව ඇති අය පමණක් තෝරා ගත්තේ නම් නියැදි ප්රතිඵලමගින් ශ්රී ලංකාවේ සමස්ත ජනගහනය අඩු වශයෙන් නියෝජනය කෙරෙනු ඇත .
සසම්භාවී තේරීමක් සිදු කිරීමට බොහෝ ක්රමවේදයන් තිබේ. ලොතරැයි ටිකට් පතක් අදිනා ලෙසට සමස්ත ජනගහනයෙන් අහඹු ලෙස පුද්ගලයින් තෝරා ගන්නා සරල සසම්භාවී නියැදීම (simple random sampling) ඉන් එකකි. ස්තෘත සසම්භාවී නියැදීම (stratified random sampling) තවෙකකි. මෙහිදී, ප්රථමයෙන් ජනගහනය ස්ථරවලට බෙදා (සමස්ත ජනගහනය විවිධ, අතිච්ඡේදනය නොවන කාණ්ඩවලට බෙදීම) අනතුරුව සෑම කණ්ඩායකින්ම සරල සසම්භාවී නියැදීම යටතේ නියැදියක් තෝරා ගනු ලැබේ. බොහෝ විට, ජාතික නියැදි සමීක්ෂණවලදී, නියෝජනය ඉහළ මට්ටමක පවතින සසම්භාවී තේරීමක් සිදු කරන බව තහවුරු කර ගැනීමට බහු-අදියර ස්තෘත සසම්භාවී නියැදීම යටතේ තෝරා ගත් නියැදියක් උපකාරී වේ.
නිදසුනක් වශයෙන්, ශ්රී ලංකාව සැලකූ විට, බහු-අදියර ස්තෘත සසම්භාවී නියැදීම යටතේ තෝරා ගන්නා නියැදියක පළමු අදියර සඳහා සමස්ත ජනගහනය දිස්ත්රික්ක 24 කට බෙදා ඇති බව සැලකිය හැක. දෙවන අදියර වනුයේ එක් එක් දිස්ත්රික්කය තුළින් දිස්ත්රික්කයේජනගහනයට සමානුපාතිකව යම් නිශ්චිත ග්රාම නිලධාරී කොට්ඨාශ සංඛ්යාවක් තෝරා ගැනීමයි (ජනගහනය වැඩි දිස්ත්රික්කවලින් වැඩි කොට්ඨාශ සංඛ්යාවක් තෝරා ගැනීම). අවසාන අදියර වනුයේ ග්රාම නිලධාරී කොට්ඨාශවල ජනගහනයට සමානුපාතිකව (විශාල ජනගහනයක් සහිත කොට්ඨාශවලින් වැඩි පිරිසක්) එක් එක් ග්රාම නිලධාරී කොට්ඨාශයෙන් යම් නිශ්චිත පුද්ගලයින් සංඛ්යාවක් තෝරා ගැනීමයි.
සසම්භාවී ලෙස තෝරාගත් නියැදියක තරම සඳහා පිළිගත හැකි අවම අගය
ඉහත දැක්වෙන්නේ සංඛ්යානමය වශයෙන් වලංගු ප්රතිඵල සඳහා ප්රමාණවත් වන නියැදි තරම වාස්තවිකව ගණනය කිරීමට පාඨකයින්ට උපකාර කිරීම සඳහා නියැදි සමීක්ෂණ පිළිබඳ ඉදිරිපත් කරන ලද මූලික පැහැදිලි කිරීමකි. අදාළ ගණිතමය සමීකරණ භාවිතයෙන් අවශ්යනියැදි තරම ගණනය කළ හැක; නොමිලේ ප්රවේශ විය හැකි මාර්ගගත ගණක යන්ත්ර මගින් ද ඒම ප්රතිඵලය ජනනය කර ගත හැක.
ශ්රී ලංකාවේ වැඩිහිටි ජනගහනය මිලියන 14 ක් වන අතර කුටුම්භ සංඛ්යාව මිලියන 5.7 කි. සමීකරණය මෙන්ම ගණක යන්ත්රය ද යෙදූ විට ශ්රී ලංකාව සඳහා පහත ප්රතිඵලය ලැබේ: දීපව්යප්ත සමීක්ෂණයකදී සසම්භාවී ලෙස තෝරාගත් පුද්ගලයින් 1,000 ක නියැදියක් මගින් 95% ක විශ්රම්භ මට්ටමක් සහ ප්රතිශත ලකුණු 3 ක ආන්තික දෝෂයක් අත් කර ගත හැක.
මේ අනුව, බොහෝ දුරට නිවැරදි වන සමීක්ෂණ ප්රතිඵල ලබා ගැනීම සඳහා නියැදි තරම ඉතා විශාල වීම අවශ්ය බව ප්රකාශ කිරීම ප්රචලිතව ඇති වැරදි මතයකි. ඒකක 1,000 ක නියැදියක් ඊට ප්රමාණවත් වන බවට වාස්තවිකව නිගමනය කිරීමට සංඛ්යාන විද්යාව සහ ගණිතය අපව යොමු කරයි. මීට වඩා විශාල නියැදි භාවිතා කළ හැකි නමුත් එහිදී පිරිවැයට සාපේක්ෂව ලැබෙන ප්රතිලාභය කුඩා විය හැක. උදාහරණයක් ලෙස, නියැදි තරම 2,400 වන ලෙස එය දෙගුණයකටත් වඩා වැඩි ප්රමාණයකින් ඉහළ නැංවූ විට උපරිම ආන්තික දෝෂය අඩු වන්නේ ප්රතිශත ලකුණු 3 ක සිට 2 දක්වා පමණි. ඔබට එය පරීක්ෂා කිරීමට මෙම මාර්ගගත ගණක යන්ත්රය භාවිතා කළ හැක: https://www.surveymonkey.com/mp/sample-size-calculator/ .