Buzz and My Privacy

Buzz ကိုဒီနေ့တော့ တော်တော်လေး ဒေါသထွက်တယ် Auto Suggession မှာ ကိုယ်မိတ်ဆွေ မဟုတ်တာတွေလည်း Following လုပ်ပြီးသားပါနေတယ် ဖြစ်ပုံက Personal နဲ့ Nick E-Mail တွေခွဲထားတယ် ဒါပေမယ့် နောက်ဆုံးတော့ အီးမေးတစ်ခုအထဲမှာ Auto Forward လုပ်ထားပြီးထားတာ Reply ပြန်တော့လည်း ကိုယ်စားအနေနဲ့ နာမည်တစ်ခုစီနဲ့ပြန်တယ် ဒီတော့ Sent မှာပါနေလည်း သူကတော့ Friend လို့သတ်မှတ်ပြီးတော့ Auto Suggession မှာပါသွားတယ်။

ပြီးတော့ အရင်ကတည်းက Twitter ကိုမသုံးဘူး အချင်းချင်း Information Share လုပ်တာကို သဘောကျပါတယ် ဒါပေမယ့် အားတိုင်း Web Site ပေါင်းစုံဝင်ကြည့် URL တွေအကုန် Share လုပ် ကြာတော့ ဒါတွေပဲတွေ့နေတယ် တစ်ရက်ကို URL ပေါင်း ၁၀ဝ လောက် Share တဲ့လူတောင်ရှိတယ် ဒီတော့ ကိုယ်တောင် ကုန်အောင်မဖတ်တဲ့ Site တွေကို သူများကို အတင်းထိုးပေး ဖတ်လို့ပြောနေသလို ခံစားမိတယ်။ ဒီတော့ Spam တွေဖြစ်လာတယ် ကိုယ်ကလည်း Spam ဆိုရင်သဘောမကျဘူး။ တစ်ရက်တစ်ရက် ဒါတွေပဲတွေ့နေတယ် Social Activities တစ်ခုမှကိုမမြင်လာတော့ဘူး။ ဒါနဲ့ တပ်ထားတဲ့ Twitter Plugin တွေအကုန်ဖြုတ်လိုက်တယ် ဝင်ကိုမဝင်တော့ဘူး။

နောက်ပြီးတော့ Follow လာလုပ်ရင် ကိုယ်လက်ခံချင်မှန်းမသိ လက်မခံချင်မှန်းမသိ တစ်ခါတည်း Follow ဖြစ်သွားတယ် ဒီတော့ ကိုယ့်အနေနဲ့ မသိသူကို Banned လို့ရပေမယ့် သူ Follow လုပ်တာကို မသိလိုက်ခင်ကြားအချိန်မှာ သူ့အနေနဲ့ ကိုယ့်ထဲက Tweet တွေကိုဖတ်လို့ရသွားပြီ။ ဒါပေမယ့် Twitter မှာလည်း Request လုပ်ပြီး Accept လုပ်မှ Follow လုပ်လို့ရမယ့် Option တော့ပါပါတယ်။

Buzz မှာက တစ်ခြားသူငယ်ချင်း တစ်ယောက်ဆီမှာ တွေ့လို့ဘယ်သူမှန်းမသိပဲ လာပြီး Follow လုပ်လည်းရနေတယ် နောက်ပြီးတော့ Twitter မှာက လူတစ်ယောက် Follow လာလုပ်ရင် Notification ရှိတယ် အခုက Notification မရှိဘူး လူအရေအတွက် မှတ်ထားနေရတယ် အသစ်တိုးလာရင် ဘယ်သူလည်းလိုက်ရှာနေရတယ်။ တွေ့သမျ Option တွေအကုန်လုံးလိုက်ပြီး ရှာကြည့်တယ် အဲဒါတွေမတွေ့သေးဘူး။

နောက်တစ်ခုက Buzz ရဲ့ Privacy Policy ကိုဖတ်ကြည့်တယ် Follow လုပ်လာရင် လက်မခံချင်က Banned လို့ရမယ်လို့ ရေးထားတာပဲတွေ့တယ်။ တစ်ကယ်ဆို Banned ဆိုတာရယ် Ignore ဆိုတာရယ်က ခြားနားပါတယ်။ လူတစ်ယောက်က Follow လာလုပ်တယ် သွားကြည့်လို့လည်း ဘယ်သူမှန်းမသိဘူး အဲဒါဆိုရင် Banned မှာလား သူ့ Profile မှာက အချက်အလက် ပြည့်ပြည့်စုံစုံမပါလာရင် စဥ်းစားစရာဖြစ်လာပြီ မသေချာပဲ Banned လုပ်လိုက်မိပြီး မိတ်ဆွေဖြစ်နေရင် ဘယ်လိုလုပ်မလဲ Banned ပြီးမှပြန်ပြီး ဖြုတ်ရဦးမယ်ဆိုရင်လည်း မကောင်းသေးဘူး။ ဘယ်သူမှန်းမသိလို့ လက်မခံသေးဘူး သိမှလက်ခံလို့ရတာပဲ အဆင်ပြေတယ်လို့ ယူဆမိတယ်။

သာမန်လူနေမှု့ဘဝက အပေါင်းအသင်းတွေရှိတယ် မိတ်ဆွေတွေရှိတယ် သူငယ်ချင်းတွေရှိတယ် ဒီဟာတွေနဲ့ အွန်လိုင်းပေါ်က မိတ်ဆွေတွေနဲ့ အပေါင်းအသင်းတွေနဲ့ ရောရောထွေးထွေး မထားတတ်ဘူး။ နောက်ပြီးတော့ ကိုယ်ရဲ့ ပြင်ပဘဝက အကြောင်းအရာတွေကို မတတ်သာတဲ့ ကျောင်းကိစ္စတွေကလွဲရင် အွန်လိုင်းမှာမထားတတ်ဘူး နာမည်အရင်းနဲ့ဘယ်တော့မှ အသုံးမပြုဘူး။ Personal သုံးတဲ့ အီးမေးနဲ့ ကိုယ်မသိပဲ Follow လုပ်လို့ရတာကို စိတ်ထဲမှာမလုံခြုံဘူးလို့ ခံစားရတယ်။ ကြည့်ဦးမယ် Twitter လို Spam လို့ခံစားလာရရင်တော့ Buzz ကိုလည်း ပိတ်ထားလိုက်မှာပါပဲ။

မှုံတာလား ပိုမြင်တာလား ????

အခုနောက်ပိုင်း သဘာဝပါတ်ဝန်းကျင် ထိမ်းသိမ်းရေး အားပေးတဲ့အနေနဲ့ စာတွေကို ပရင့်ထုတ်မဖတ်တာ တစ်နှစ်ခွဲလောက်ရှိပြီ မတတ်သာမှသာ ပရင်ထုတ်ပါတယ်။ လက်ချာတွေ ပရင့်မထုတ်ပဲ ဖတ်လွန်းလို့ စာမေးပွဲနားနီးရင် စာရွက်ကိုဖတ်စရာမရှိလို့ ပြဿနာတက်တတ်ပါတယ်။ မျက်စေ့က ဘာဖြစ်နေမှန်းမသိဘူး အနည်းဆုံး စာမျက်နှာ ၅ဝ – ၆ဝ လောက်ဖတ်ပြီးရင် ခဏနားပြီးပြန်ဖတ်လိုက် ဗမာစကားလုံးတွေဆိုရင် အဝိုင်းဒေါင့်အချိုးတွေက Pixel တွေကိုပါ မြင်နေရတယ်ဗျ။ တစ်ကယ်က LCD တွေမှာ Clear Type မှာ Shadding တွေပါတော့ တစ်ကယ်ဆို ဗမာစာလုံးအဝိုင်းက Pixel တွေမသပ်မရပ်နဲ့ မမြင်ရဘူးရယ် အဲဒါကြောင် တစ်ခါတစ်လေ စိတ်က Clear Type များပိတ်မိသလား သွားကြည့်မိတတ်တယ်။ ဒါနဲ့အသေအချာကြည့်တော့ ဒေါင့်ချိုးမှမဟုတ်ဘူး ကျန်တဲ့နေရာတွေလည်း Pixel တွေနဲ့ ဆွဲထားတာကို သေသေချာချာမြင်နေရတယ်။ ဖြစ်နေတာက ကြာပါပြီ အခုမှသတိရလို့ အသေအချာ ကြည့်လိုက်မှ သတိထားမိတာပါ။ အိမ်ကစက်ကြောင့်လားဆိုပြီး စဥ်းစားတော့လည်း မဟုတ်သေးဘူး ကျောင်းကစက်လည်း အတူတူပဲရယ်။ မျက်မှန်က ဆလင်ဒါကြောင့်သာ ညဘက်ဆိုရင် မီးလုံးတို့ဘာတို့ နှစ်လုံးထပ်မြင်တတ်လို့ တပ်ထားတာ တစ်ကယ်က အနီးရောအဝေးပါ ပါဝါမရှိဘူးရယ်။ အိမ်မှာသာ ဆိုင်ကယ်စီးတော့ ညဘက်ဆို မတပ်ရင် ကားမောင်းလာတာ ဆိုင်ကယ်နှစ်စီး အပြိုင်စီးတာ အလယ်ကရှောင်လိုက်မယ်ဆို လုပ်လိုက်မိရင် ပြဿနာတက်မယ် မဟုတ်လား အခုတော့ လမ်းကူးတောင် မီးပွိုင့်ကပဲကူးတယ် အနည်းဆုံးတော့ အတိုက်ခံရရင် အာမခံကြေးရမယ်မဟုတ်လား။ အခုဟာက ပါဝါတက်တယ်ဆိုလည်း သူများတွေလို နည်းနည်းဖတ်ပြီး မျက်စေ့ပင်ပန်းလာရင် မမြင်ရပဲဝါးသွားတာ စာလုံးတွေတော့မြင်တယ် ဖတ်လို့မရတာ ဒါမျိုးပဲဖြစ်တတ်တယ် ကြားဖူးပါတယ်။ အခုဟာက မျက်စေ့ပင်ပန်းအောင် လုပ်လိုက်မှ ပိုမြင်သလိုဖြစ်နေတယ်။ တစ်ခုတော့ရှိပါတယ် ဝါးသွားတာကို စိတ်က Pixel မြင်ရတယ်ပဲထင်နေမိသလား။ ဒါပေမယ့်လည်း ကြည်ကြည်လင်လင်ကြီး ဖတ်လို့ရနေတယ် Pixle ပါမြင်နေရတော့ ပိုပြီးပါဝါတက်တယ်လို့ လက်ခံရခက်နေတယ်။

ဘာတဲ့ သဝေထိုး ရယ်ရသကွာ

တစ်ခါလာလည်း Search Engine ကိုအကြောင်းပြတယ် လူနားမလည်တဲ့ အကြောင်းအရာလို့များ ထင်နေကြသလား အင်မတန်ရှုပ်ထွေးတဲ့ အများထင်နေလို့ ဇဝေဇဝါဖြစ်အောင်များ ပြောစရာတစ်ခုအဖြစ် ရနေသလား။ ငါကိုယ်တိုင်လည်း အများနားမလည်တဲ့ အရာတွေကိုပြောတတ်တယ် ဒါပေမယ့် အဲဒါတွေကို လူအများနားမလည်တာကို ခုတုံးလုပ်ပြီးတော့ ဘယ်တော့မှမလိမ်ဘူး အဲဒီ့လိုပြောတာကို အကြီးကျယ်ဆုံးလိမ်လည်မှု့လို့ ငါသတ်မှတ်တယ်။

လတ်တလောအနေနဲ့ ဗမာစာတွေ Google မှာအလုပ်လုပ်နေပုံကို အကြမ်းပြောမယ်ဆိုရင် Preprocess ဘာမှမလုပ်နိုင်ဘူး Space နဲ့ Tokenize လုပ်ပြီး Index လုပ်ထားတယ် Sorting လည်း စာလုံးတွေရဲ့ Code အပေါ်မူတည်ပြီး Lexicographically ပဲစီထားတာပါပဲ။ ဒီတော့ ကိုယ့်ဝဘ်ဆိုက်မှာရေးထားတဲ့ Space ခြားထားတဲ့အပေါ် မူတည်ပြီးတော့ ရှာလို့ရမှာပါပဲ။ ဥပမာပြောရင် “မော်လမြိုင်” နဲ့ “မော်လမြိုင်သို့” ဆိုရင်မတူဘူး။ Search Engine ဆိုတာ ဂူဂဲတစ်ခုတည်းမဟုတ်ဘူး ကိုယ်ပိုင်လည်းလုပ်လို့ရတာပဲ ဗမာစာအတွက် လုပ်နိုင်တာတွေရှိပါတယ်။ ဗမာစာ Search Engine ဆိုတာ လူအမြင်ကပ်အောင်ပြောရရင် Lucene, Sphinx, Sciencenet, …. ဒါတွေကို ယူသုံးတတ်တာလား။ အဲဒါတွေက ခက်ခဲ့တဲ့အရာတွေမပါပါဘူး ဖတ်ကြည့်သုံးတတ်ပါတယ်။ အရေးကြီးတာက ဗမာစာအတွက် ဘယ်နေရာက Improve လုပ်ဖို့လိုအပ်သလဲ။ လက်ရှိအနေနဲ့က စကားလုံး ဘယ်လိုဖြတ်မလဲက အရေးအကြီးဆုံး ဖြစ်နေတယ်။ ဖြစ်နိုင်တဲ့နည်းလမ်း ၂ ခုရှိမယ်။

ပထမတစ်ခုက ဗမာစာလုံးတွေဟာ Syllabic ဖြစ်နေလို့ Consonant ကနေအစပြုပြီးတော့ Syllabic တွေကုန်သွားရင် တစ်လုံးအဖြစ် သတ်မှတ်တာက အခြေခံအကျဆုံးနည်းစနစ်ပဲ။ ဒီတော့ ဗမာစကားလုံးမှာက ပဌ်ဆင့်နဲ့ အသတ်ဆုံးတာတွေမှာက နောက်ထပ် Consonant တစ်ခုအပိုပါတယ် အဲဒါကိုပါတစ်ခုတည်းအဖြစ် စဥ်းစားလိုက်ရင် Syllabic နဲ့ဖြတ်တာလွယ်ပါတယ်။ ဒီနေရာမှာ ဇော်ဂျီနဲ့လား ယူနီကုဒ်နဲ့လား ဒါကအရေးပါတယ်။ ဒါလည်း ခက်ခက်ခဲခဲမဟုတ်သေးပါဘူး ယူနီကုဒ်ဆိုရင် Consonant တစ်ခုအစကနေ Syllabic တွေအဆုံးသတ်တဲ့အထိ သို့မဟုတ် နောက်ထပ် Consonant မှာအသတ် (သို့) ပဌ်ဆင့် Syllabic အထိဆို တစ်လုံးပေါ့။ ဇော်ဂျီနဲ့ဆို Consonant တစ်ခုတည်းမဟုတ်ပဲ သဝေထိုး (သို့) ရရစ်လိုလည်း အစပြုနိုင်သည်ပေါ့။ Index လုပ်ရင် Bigram နဲ့လုပ်ပေါ့ ပြောမယ်ဆိုရင် Bidex ပေါ့။ ဥပမာ- မော်လမြိုင် လို့ရှာမယ်ဆိုရင် “မော်လ” AND “လမြိုင်” ဆိုပြီးတော့ Phrasal Search နဲ့ရှာလို့ရတယ်။ Precision မြင့်တဲ့ Search Engine တစ်ခုဖြစ်လာနိုင်တယ်။ ဒါတွေက Technical ဖြစ်လာလို့ အသေးစိတ်မရေးတော့ဘူး။

ဒုတိယတစ်ခုကတော့ ခက်ဖို့များတယ် ဗမာစာကြောင်းတစ်ခုကို Part of Speech နဲဲ့ဖြတ်ပေးမယ့် Parser တစ်ခုလိုမယ်။ ထွက်လာမယ့် စကားလုံးတွေကိုပဲ Index လုပ်ယူလို့ရတယ်။ ဒီနေရာမှာ Preprocessing လုပ်မှာလားဆိုတာကလည်း လိုအပ်ချက်အပေါ်မူတည်တယ်။ ကိုသာသာနဲ့ တစ်ခါက ဗမာစကားလုံးတွေစုပြီးတော့ Stemming လုပ်ကြည့်ဖူးတယ်။ မဆိုးပါဘူး ရလဒ်တွေက စကားလုံးကို မူရင်းပုံစံရောက်အောင် ၉၀% လောက်ပြန်ပို့လို့ရတယ်။ တစ်ခုပဲချို့ယွင်းချက်ရှိတယ် ဗမာစာ Parser မရှိလို့ Space နဲ့ဖြတ်ထားရတယ်။ ဒီနေရာမှာ ဗမာစာ Parser တစ်ခု လုပ်ကြမယ်ဆိုပါစို့။ သတ်မှတ်ချက်အတိုင်း အစဥ်အလိုက်သိမ်းတဲ့ ယူနီကုဒ်က လုပ်လို့လွယ်မှာငြင်းစရာမလိုဘူး။ ဇော်ဂျီကတော့ ဗြောက်သောက်ရိုက်တဲ့ အက္ခရာစဥ်နဲ့ဆို သေလုအောင်လုပ်ရမယ် ဘာလို့လဲဆိုတော့ အမှန်လို့ သတ်မှတ်ထားတာမရှိတော့ ဖြစ်နိုင်သမျကို လိုက်ပြင်ကြည့်ပြီးသုံးရမလိုဖြစ်မယ်။ ပြောမယ်ဆိုရင် မူရင်းကိုပြင်တယ်ဆိုတာ တန်ဖိုးကျပါတယ် ဖြစ်နိုင်သမျပြင်ကြည့်ပြီး စဥ်းစားဖို့ဆိုတာ အဓိပ္ပာယ်မရှိဘူး။ ဒီနည်းကတော့ Bidex, Tridex လိုမသုံးပဲ Term Index နဲ့ပဲ Search Engine လုပ်လို့ရမယ်။

လတ်တလော နည်းပညာအခြေအနေအရ ပထမနည်းက အတိကျဆုံး ဗမာစာ Search Engine ဖြစ်လာနိုင်မယ်။ ဒုတိယနည်းမှာတော့ Parser တစ်ခုလိုအပ်နေလို့ သိပ်မလွယ်လှသေးဘူး Research လိုအပ်နေတယ်။ ဒီနေရာမှာ သုံးတ
ဲ့လူတွေကို အနည်းငယ်ယုံကြည်လိုက်ပြီး Space and Punctuation တွေနဲ့ဖြတ်ပြီး ယာယီအစားထိုးထားနိုင်တယ်။ လက်ရှိသုံးနေတဲ့ ဂူဂဲက အဲဒီ့နည်းစနစ်လို့ ပြောလို့ရမယ် သူ့အနေနဲ့ Preprocess မလုပ်နိုင်ဘူး နောက်ပြီးတော့ စာလုံးဖြတ်တာမမှန်နိုင်ဘူးဖြစ်နေတယ်။ အဲဒါတွေ ထပ်ထည့်နိုင်ရင် လက်ရှိထက်ကောင်းတဲ့ အဖြေတွေထွက်မှာ သေချာပါတယ်။ ဟုတ်ပြီ ယူနီကုဒ်နဲ့ဇော်ဂျီစကားလုံးတွေ Index တစ်ခုထဲမှာ သိမ်းလို့ရသလားဆိုတာ စဥ်းစားစရာရှိတယ်။ သိမ်းလို့တော့ရတယ်လို့ ပြောလို့ရပါတယ် ပထမနည်းမှာကတော့ Syllabic ကိုဦးစားပေးလို့ ရှာတဲ့လူကတော့ သူဘာနဲ့ရိုက်တယ်ဆိုတာ ပြောဖို့တော့လိုလိမ့်မယ် အဲဒါဆိုရင် Query ကိုသက်ဆိုင်ရာနဲ့ Syllabic ဖြတ်လိုက်ဖို့လိုမယ်။ ဒုတိယနည်းကတော့ လက်ရှိအနေထားနဲ့ ဘာနဲ့သုံးတယ်ဆိုတာ မလိုအပ်သေးဘူး ဒါ့ကြောင့် ဂူဂဲမှာဘာနဲ့ရှာရှာ ရှာလို့ရနေတာပေါ့။ ဒါပေမယ့် Parser တစ်ခုသုံးလိုက်ရင်တော့ သူလည်းဘာသုံးတယ်ဆိုတာ သိဖို့လိုအပ်ပါတယ်။

အဲဒါကို တစ်ခါကကြားဖူးတယ် ယူနီကုတ်များ စည်းရုံးရေးဆင်းနေတုံးက ဂူဂဲကသုံးတဲ့ Database ကများ ဇော်ဂျီကို Support လုပ်လို့မရတော့ရင် အားလုံးရှာလို့မရတော့ဘူးဆိုပဲ။ ဂူဂဲက Index ကို Database သုံးတယ်လို့ ဘယ်သူကများပြောလိုက်ပါလိမ့်။ အခုလည်းလာပြန်ပြီနောက်တစ်ဖွဲ့ ဇော်ဂျီမှာ သဝေထိုးအရှေ့ထားတာ Search Engine နဲ့ဆိုင်လို့ဆိုပဲ ငါပဲဥာဏ်မမှီတာဖြစ်မယ် အပေါ်မှာပြောခဲ့တာတွေနဲ့ ဆက်စပ်ကြည့်တယ် ဘယ်လိုသက်ဆိုင်မှန်း စဥ်းစားလို့မရဘူး။ ဇော်ဂျီကို စလုပ်ကာစအခြေအနေက Microsoft Keyboard Layout Creator မှာ Input အတွက် Keystroke Order ကို Swap လုပ်မပေးနိုင်ဘူး နောက်ပြီးတော့ Shaping Engine မရှိဘူးဒါ့ကြောင့် သဝေထိုးနဲ့ ရရစ်တွေက အရှေ့မှာရောက်နေတယ် အဲဒီလိုပဲငါနားလည်ထားတာ။ အေးလေ ငါသိတာမှားနေတာပဲ ဖြစ်မယ်ထင်ပါတယ်။ ဘယ်သူဖြစ်ဖြစ် နောက်ဆုံး Search Engine အကြောင်းပြတာ ထုံးစံဖြစ်လာသလား။

ပျက်နေတာကို ပြန်မပြင်ဖြစ်တာက နားလည်လို့ရပါတယ် အခြေအနေအရပေါ့ အခုအချိန်မှာသုံးနေတဲ့ မှားနေတာတွေက အများကြီးဖြစ်နေပြီမဟုတ်လား ပြင်ဖို့မလွယ်ဘူးဆိုတာ လက်ခံပါတယ်။ လတ်တစ်လော လိုအပ်ချက်တစ်ခုအရ မှန်နေပြီးသားအရာတစ်ခုကို ငါ့လိုလိုက်မှားစေမယ်ဆိုရင်တော့ အဲဒါကိုကန့်ကွက်ရမယ်။ သိမ်းချင်သလို သိမ်းခွင့်လို့အော်မလား အဲဒါဆိုလည်း ဘာလို့အပင်ပန်းခံနေကြလဲ ဟိုးအရင်က ASCII Fonts တွေလည်း သုံးရနေသားပဲ။ ဗမာစာနဲ့ ရှမ်းစာမှာ ဘုံသုံးတဲ့ အက္ခရာတွေ ရှိနေတာငါလည်းသိတယ် ကိုယ်ကိစ္စနဲ့ကိုယ် ဘယ်နားမှာ သဝေထိုးထားထား အစကတည်းက စံကိုလိုက်နာတဲ့ ရှမ်းစာက သဝေထိုးတော့ ရှေ့ကိုပို့စရာ အကြောင်းမရှိပါဘူးလေ။ Search Engine နဲ့သဝေထိုး ဂူဂဲရဲ့ Database ဟေးဟေးဟေး ကြားဖူးသမျ ဟာသတွေထဲမှာ ဒီဟာသတွေအရယ်ရဆုံးပဲ။ ဘယ်ဘက်အဖွဲ့ကမှမနေဘူး ဒါပေမယ့် ဘယ်သူလိမ်တာမှမခံဘူး လူနားမလည်ဘူးဆိုပြီး အလုံးကြီးကြီးပြောပြီး ထင်ယောင်ထင်မှားပြောတာကို အင်မတန်သောက်မြင်ကပ်တယ်။