سرچ انجنز وہ خاص ویب سائیٹس ہوتی ہیں جن کی مدد سے ہم انٹرنیٹ پر موجود دیگر ویب سائیٹس کے متعلق معلومات حاصل کرتے ہیں۔ انٹرنیٹ پر موجود معروف سرچ انجنز میں Yahoo ،Google اور Bing وغیرہ شامل ہیں۔ اگر سرچ انجنز موجود نہ ہوتے تو ہمارے لیے انٹرنیٹ پر موجود کروڑوں ویب سائیٹس کے اربوں ویب پیجز میں سے اپنی ضرورت کے صفحات تلاش کرنا ممکن نہ ہوتا۔ یوں ہم انٹرنیٹ پر موجود بے شمار مفید ویب سائیٹس سے خاطر خواہ فائدہ نہ اٹھا سکتے۔ کوئی بھی سرچ انجن کیسے کام کرتا ہے، یہ بات جاننے کی حد تک بہت سادہ اور آسان ہے لیکن حقیقت میں یہ ایک پیچیدہ اور مشکل عمل ہے۔
ایک عمومی (General purpose) سرچ انجن بنانے میں سب سےمشکل مرحلہ وسائل کا انتظام کرنا ہے۔ اس لیے کہ اربوں کی تعداد میں موجود ویب پیجز کو پڑھنے، ڈیٹابیس میں ان ویب پیجز کے متعلق معلومات محفوظ کرنے، اور پھر یہ معلومات لوگوں تک پہنچانے کے لیے ہزاروں کی تعداد میں کمپیوٹرز درکار ہوتے ہیں۔ ایسے کمپیوٹرز جنہیں قابل عمل درجہ حرارت مہیا کرنے کے لیے ایئر کنڈیشننگ، چوبیس گھنٹے کام کرنے کے لیے بجلی کی فراہمی، اور ڈیٹا کی ترسیل کے لیے انٹرنیٹ کے بہت سے کنکشنز دستیاب ہوں۔ پھر ایسے ماہرین کی ضرورت ہوتی ہے جو نہ صرف اتنا بڑا سسٹم تیار کریں بلکہ اسے ہر قسم کے خطرات سے محفوظ رکھتے ہوئے مستقل طور پر چلا بھی سکیں۔
البتہ انٹرنیٹ پر بہت سے ایسے سرچ انجنز بھی موجود ہیں جو کسی خاص علاقے، زبان یا شعبے کے متعلق معلومات اکٹھی اور مہیا کرتے ہیں ۔ ظاہر ہے کہ ایسے سرچ انجنز کو اپنے حجم کے اعتبار سے کم وسائل درکار ہوتے ہیں۔ اور پھر Cloud hosting کی مقبولیت نے ایسے اداروں کا کام آسان کر دیا ہے جو بڑے پیمانے کی ایپلی کیشنز انٹرنیٹ پر چلانا چاہتے ہیں لیکن اس مقصد کے لیے اپنا ہوسٹنگ انفرا سٹرکچر قائم کرنے کی سکت نہیں رکھتے۔ کلاؤڈ ہوسٹنگ میں ایک خاصیت Auto scaling کی ہوتی ہے، یعنی جیسے جیسے ایپلی کیشن یا ویب سائیٹ کی ٹریفک بڑھتی جاتی ہے ویسے ویسے مزید کمپیوٹرز (ویب سرورز) اس ٹریفک کو سنبھالنے کے لیے ایپلی کیشن کے لیے دستیاب ہوتے جاتے ہیں۔ اور جیسے جیسے ٹریفک کم ہوتی جاتی ہے یہ اضافی کمپیوٹرز ایپلی کیشن سے الگ ہوتے چلے جاتے ہیں۔
آئیں مختصر طور پر سرچ انجنز کے کام کرنے کا طریقہ کار دیکھتے ہیں۔ سرچ انجنز تین مراحل میں کام کرتے ہیں:
- Crawling یعنی انٹرنیٹ پر موجود ویب سائیٹس کے ویب پیجز پڑھ کر ان کے متعلق معلومات اکٹھی کرنا۔
- Indexing یعنی ویب پیجز کے متعلق اکٹھی کی گئی معلومات کو ایک خاص ترتیب کے ساتھ ڈیٹابیس میں محفوظ کرنا۔
- Retrieval یعنی لوگوں کے تلاش کرنے پر مطلوبہ معلومات مہیا کرنا۔
1- Crawling
ایک سرچ انجن خاص طور پر تیار کیے گئے سافٹ ویئرز انٹرنیٹ پر بھیجتا ہے۔ یہ سافٹ ویئرز انٹرنیٹ پر موجود ویب سائیٹس کے متعلق معلومات اکٹھی کرتے ہیں۔ ایسے سافٹ ویئر کے لیے مختلف نام استعمال کیے جاتے ہیں، مثلاً Web Crawler, Spider, Robot وغیرہ۔ یہ اسپائیڈر سافٹ ویئرز بڑی ویب سائیٹس سے شروع کرتے ہیں اور ان کے تمام صفحات پڑھتے ہیں۔ پھر ان ویب سائیٹس پر موجود دیگر ویب سائیٹس کے لنکس کی مدد سے یہ اسپائیڈرز ان ویب سائیٹس کے تمام صفحات پڑھتے ہیں۔ اس طرح یہ ایک ویب سائیٹ سے دوسری تک، دوسری سے تیسری تک، اور اس سے آگے مزید ویب سائیٹس تک پہنچتے ہیں۔ یوں Crawling کا یہ عمل انٹرنیٹ پر پھیلتا چلا جاتا ہے یہاں تک کہ یہ اسپائیڈرز انٹرنیٹ پر موجود اربوں صفحات کے متعلق معلومات حاصل کر لیتے ہیں۔ اسی طرح سرچ انجن کے پاس جن ویب پیجز کا ریکارڈ پہلے سے موجود ہوتا ہے وہ بھی اس کرالنگ کا حصہ بنتے ہیں، اس لیے کہ ممکن ہے ان میں سے کچھ صفحات ختم ہوگئے ہوں یا پھر ان میں کچھ تبدیلیاں کی گئی ہوں۔ چنانچہ ایک سرچ انجن اپنی ڈیٹابیس بہتر سے بہتر حالت میں رکھنے کے لیے نئے اور پرانے تمام ویب پیجز پڑھتا ہے۔
ویب پیج کے متعلق کونسی معلومات اکٹھی کی جاتی ہیں: ایک ویب پیج کے متعلق کیا معلومات اکٹھی کی جائیں، اس کے لیے ہر سرچ انجن کی اپنی ترجیحات ہوتی ہیں۔ لیکن عام طور پر ایک ویب پیج کے متعلق یہ معلومات اکٹھی کی جاتی ہیں: ویب پیج کا ٹائٹل، ویب پیج کا ایڈریس، ویب پیج پر موجود اہم الفاظ کی فہرست، ویب پیج کی عبارت کا ایک مختصر حصہ، ویب پیج میں استعمال کی گئی اہم فائلز مثلاً تصاویر وغیرہ کے ویب ایڈریسز۔ اس کے علاوہ سرچ انجن کسی ویب پیج کے متعلق یہ معلومات بھی اپنے پاس محفوظ رکھتا ہے کہ اس کا لنک کونسی دیگر ویب سائیٹ کے ویب پیجز میں موجود ہے۔
ویب پیج میں موجود اہم الفاظ کی اہمیت: ایک اسپائیڈر جب کوئی ویب پیج پڑھتا ہے تو وہ اس ویب پیج پر موجود اہم الفاظ کی ایک فہرست بناتا ہے۔ اس فہرست میں یہ معلومات بھی ہوتی ہیں کہ کونسے الفاظ کتنی مرتبہ ویب پیج پر استعمال کیے گئے ہیں اور یہ الفاظ ویب پیج کے کس کس حصے میں موجود ہیں۔ یہ اہم الفاظ ویب پیج پر جتنی تعداد میں موجود ہوں اور صفحہ کے جس حصے میں پائے جائیں، ان دونوں چیزوں کا لحاظ کر کے ان الفاظ کی اہمیت مقرر کی جاتی ہے۔ ایک ویب پیج کے مختلف حصے ہوتے ہیں، مثلاً:
- ٹائٹل جو براؤزر کی ٹیب پر نظر آتا ہے۔
- ایڈریس یعنی URL۔
- ویب پیج کے متعلق معلومات کے meta ٹیگز۔
- عبارتوں کے عنوانات یعنی h2, h1 ٹیگز وغیرہ۔
- عبارتوں کےپیراگرافس یعنی p ٹیگز وغیرہ۔
- اندرونی و بیرونی لنکس یعنی a ٹیگز۔
- تصاویر کے img ٹیگز ۔
سرچ انجن پروگرامنگ کے ذریعے یہ معلوم کرتا ہے کہ کونسا مواد اس ویب پیج پر منفرد ہے، اور کونسے حصے ایسے ہیں جو ویب سائیٹ کے دیگر ویب پیجز پر بھی موجود ہیں مثلاً مرکزی مینیو، ہیڈر اور فوٹر سیکشنز وغیرہ۔ البتہ ویب پیجز کی تیاری کے لیے HTML 5 میں متعارف ہونے والے نئے ایلی منٹس نے سرچ انجنز کے کام کو قدرے آسان کر دیا ہے۔
2- Indexing
اگر سرچ انجن پر ’’اردو شاعری‘‘ کے الفاظ کی مدد سے تلاش کیا جائے تو کونسے ویب پیجز سرچ انجن پر سب سے پہلے نظر آنے چاہئیں؟ اس لیے کہ سرچ انجن کے پاس ایسے بے شمار ویب پیجز کا ریکارڈ موجود ہوگا جن پر یہ الفاظ استعمال کیے گئے ہوں گے۔ Indexing یعنی ویب پیجز کے متعلق اکٹھی کی گئی معلومات کو ڈیٹابیس میں ایک خاص ترتیب سے محفوظ کرنا ایک پیچیدہ کام ہے۔ اس عمل میں یہ طے کرنا ہوتا ہے کہ کونسا صفحہ کس درجہ میں آئے گا، یعنی مختلف ویب پیجز کی رینکنگ کیا ہوگی۔ کسی ویب پیج کا درجہ مقرر کرنے کے لیے سرچ انجن Crawling کے مرحلے میں اکٹھی کی گئی معلومات استعمال کرتا ہے۔ پھر سرچ انجن اپنا فیصلہ بہتر سے بہتر کرنے کے لیے یہ بھی دیکھتا ہے کہ کسی ویب پیج کا لنک دوسری ویب سائیٹس پر موجود ہے یا نہیں۔ اگر ایک ویب پیج کا لنک دوسری ویب سائیٹس پر موجود ہے تو وہ ویب سائیٹس کتنی قابل اعتماد ہیں، یعنی ان کی اپنی رینکنگ کیا ہے۔ چنانچہ سرچ انجن ہر ویب پیج کے متعلق یہ معلومات بھی اپنی ڈیٹابیس میں محفوظ رکھتے ہیں کہ ایک ویب پیج کا لنک دیگر کونسی ویب سائیٹس پر موجود ہے۔ یوں سرچ انجن ان تمام معلومات کو پیش نظر رکھتے ہوئے اپنی سمجھ (Algorithm) استعمال کرتا ہے اور ایک ہی طرح کے ویب پیجز کے لیے مختلف درجے مقرر کر کے انہیں ڈیٹابیس میں محفوظ کرتا ہے۔
3- Retrieval
جب ایک صارف سرچ انجن کو تلاش کے مخصوص الفاظ مہیا کرتا ہے تو سرچ انجن اپنی ڈیٹابیس میں ایسے ویب پیجز تلاش کرتا ہے جن پر یہ الفاظ استعمال کیے گئے ہوں اور جو رینکنگ میں پہلے ہوں۔ لیکن ایسا کرتے ہوئے سرچ انجن صرف ویب پیجز کی رینکنگ اور ان پر موجود الفاظ کا اعتبار نہیں کرتا بلکہ یہ بھی دیکھتا ہے کہ صارف دنیا کے کس حصے میں موجود ہے۔ مثلاً اگر امریکہ میں leather shoes کے الفاظ کی مدد سے تلاش کیا جائے تو اس کے نتیجے میں مختلف ویب پیجز کی فہرست ظاہر ہوگی۔ لیکن اگر پاکستان میں انہی الفاظ کی مدد سے تلاش کیا جائے تو اس کے نتیجے میں بالکل مختلف ویب پیجز کی فہرست سامنے آئے گی۔
Modified: Wed, 05/30/2018 - 13:29