วันอาทิตย์ที่ 12 พฤศจิกายน พ.ศ. 2560

บทที่3 การสืบค้นข้อมูลบนอินเตอร์เน็ต

บทที่3 การสืบค้นข้อมูลบนอินเตอร์เน็ต
ผลการค้นหารูปภาพสำหรับ การสืบค้นข้อมูลบนอินเทอร์เน็ต
3.1ความรู้เกี่ยวกับอินเตอร์เน็ต
ความหมายของอินเทอร์เน็ต
             อินเทอร์เน็ต ( Internet ) คือ เครือข่ายของคอมพิวเตอร์ขนาดใหญ่ที่เชื่อมโยงเครือข่ายคอมพิวเตอร์ทั่วโลกเข้าด้วยกัน โดยอาศัยเครือข่ายโทรคมนาคมเป็นตัวเชื่อมเครือข่าย ภายใต้มาตรฐานการเชื่อมโยงด้วยโปรโตคอลเดียวกันคือ TCP/IP (Transmission Control Protocol / Internet Protocol) เพื่อให้คอมพิวเตอร์ทุกเครื่องในอินเทอร์เน็ตสามารถสื่อสารระหว่างกันได้ นับว่าเป็นเครือข่ายที่กว้างขวางที่สุดในปัจจุบัน เนื่องจากมีผู้นิยมใช้ โปรโตคอลอินเทอร์เน็ตจากทั่วโลกมากที่สุด
อินเทอร์เน็ตจึงมีรูปแบบคล้ายกับเครือข่ายคอมพิวเตอร์ระบบ WAN แต่มีโครงสร้างการทำงานที่แตกต่างกันมากพอสมควร เนื่องจากระบบ WAN เป็นเครือข่ายที่ถูกสร้างโดยองค์กรๆ เดียวหรือกลุ่มองค์กร เพื่อวัตถุประสงค์ด้านใดด้านหนึ่ง และมีผู้ดูแลระบบที่รับผิดชอบแน่นอน แต่อินเทอร์เน็ตจะเป็นการเชื่อมโยงกันระหว่างคอมพิวเตอร์นับล้านๆ เครื่องแบบไม่ถาวรขึ้นอยู่กับเวลานั้นๆ ว่าใครต้องการเข้าสู่ระบบอินเทอร์เน็ตบ้าง ใครจะติดต่อสื่อสารกับใครก็ได้ จึงทำให้ระบบอินเทอร์เน็ตไม่มีผู้ใดรับผิดชอบหรือดูแลทั้งระบบ
ความเป็นมาของอินเทอร์เน็ต
            อินเตอร์เน็ต มีพัฒนาการมาจาก อาร์พาเน็ต (Arp Anet เรียกสั้น ๆ ว่า อาร์พา) ที่ตั้งขึ้นในปี 2512 เป็นเครือข่ายคอมพิวเคอร์ของกระทรวงกลาโหม สหรัฐอเมริกา ที่ใช้ในงานวิจัยด้านทหาร (ARP : Advanced Research Project Agency)มาถึงปี 2515 หลังจากที่เครือข่ายทดลองอาร์พาประสบความสำเร็จอย่างสูง และได้มีการปรับปรุงหน่วยงานจากอาร์พามาเป็นดาร์พา (Defense Advanced Research Project Agency: DARPA) และในที่สุดปี 2518 อาร์พาเน็ตก็ขึ้นตรงกับหน่วยการสื่อสารของกองทัพ (Defense Communication Agency)ในปี 2526 อาร์พาเน็ตก็ได้แบ่งเป็น 2 เครือข่ายด้านงานวิจัย ใช้ชื่ออาร์พาเน็ตเหมือนเดิม ส่วนเครือข่ายของกองทัพใช้ชื่อว่า มิลเน็ต (MILNET : Millitary Network) ซึ่งมีการเชื่อมต่อโดยใช้ โพรโตคอล TCP/IP (Transmission Control Protocol/Internet) เป็นครั้งแรกในปี 2528 มูลนิธิวิทยาศาสตร์แห่งชาติของอเมริกา (NSF) ได้ ให้เงินทุนในการสร้างศูนย์ซูเปอร์คอมพิวเตอร์ 6 แห่ง และใช้ชื่อว่า NSFNETและพอมาถึงปี 2533 อาร์พารองรับภาระที่เป็นกระดูกสันหลัง (Backbone) ของระบบไม่ได้ จึงได้ยุติอาร์พาเน็ต และเปลี่ยนไปใช้ NSFNET และเครือข่ายขนาดมหึมา จนถึงทุกวันนี้ และเรียกเครือข่ายนี้ว่า อินเตอร์เน็ต โดยเครือข่ายส่วนใหญ่จะอยู่ในอเมริกา และปัจจุบันนี้มีเครือข่ายย่อยมากถึง 50,000 เครือข่ายทีเดียว และคาดว่า ภายในปี 2543 จะมีผู้ใช้อินเตอร์เน็ตทั้งโลกประมาณ 100 ล้านคน หรือใกล้เคียงกับประชากรในโลกทั้งหมดสำหรับประเทศไทยนั้น อินเตอร์เน็ตเริ่มมีบทบาทอย่างมากในช่วงปี 2530-2535 โดยเริ่มจากการเป็นเครือข่ายในระบบคอมพิวเตอร์ระดับมหาวิทยาลัย (Campus Network) แล้วจึงเชื่อมต่อเข้าสู่อินเตอร์เน็ตอย่างสมบูรณ์เมื่อเดือนสิงหาคม 2535และ ในปี 2538 ก็มี การเปิดให้ บริการอินเตอร์เน็ตในเชิงพาณิชย์ (รายแรก คือ อินเตอร์เน็ตเคเอสซี) ซึ่งขณะนั้น เวิร์ลด์ไวด์เว็บกำลังได้รับความนิยมอย่างมากในอเมริกาอย่างไรก็ตาม อินเตอร์เน็ต บางครั้งก็มีการเรียกย่อเป็น เน็ต (Net) หรือ The Net ด้วยเช่นเดียวกัน อีกคำหนึ่งที่หมายถึงอินเตอร์เน็ตก็คือ เว็บ (Web) และ เวิร์ลด์ไวด์เว็บ (World – Wide Web) (จริง ๆ แล้ว เว็บเป็นเพียงบริการหนึ่งของอินเตอร์เน็ตเท่านั้น แต่บริการนี้ ถือว่าเป็นบริการที่มีผู้นิยมใช้มากที่สุด
 อินเทอร์เน็ตในประเทศไทย
         ประเทศไทยได้เริ่มติดต่อกับอินเทอร์เน็ตในปี พ.ศ. 2530 ในลักษณะการใช้บริการ จดหมายเล็กทรอนิกส์แบบแลกเปลี่ยนถุงเมล์เป็นครั้งแรก โดยเริ่มที่มหาวิทยาลัยสงขลานครินทร์ วิทยาเขตหาดใหญ่ (Prince of Songkla University) และสถาบันเทคโนโลยีแห่งเอเชียหรือสถาบันเอไอที (AIT) ภายใต้โครงการความร่วมมือระหว่างประเทศไทยและออสเตรเลีย (โครงการ IDP) ซึ่งเป็นการติดต่อเชื่อมโยงโดยสายโทรศัพท์ จนกระทั่งปี พ.ศ. 2531 มหาวิทยาลัยสงขลานครินทร์ วิทยาเขตหาดใหญ่ ได้ยื่นขอที่อยู่อินเทอร์เน็ตในประเทศไทย โดยได้รับที่อยู่อินเทอร์เน็ต Sritrang.psu.th ซึ่งนับเป็นที่อยู่อินเทอร์เน็ตแห่งแรกของประเทศไทย ต่อมาปี พ.ศ. 2534 บริษัท DEC (Thailand) จำกัดได้ขอที่อยู่อินเทอร์เน็ตเพื่อใช้ประโยชน์ภายในของบริษัท โดยได้รับที่อยู่อินเทอร์เน็ตเป็น dect.co.th โดยที่คำ “th” เป็นส่วนที่เรียกว่า โดเมน (Domain) ซึ่งเป็นส่วนที่แสดงโซนของเครือข่ายอินเทอร์เน็ตในประเทศไทย โดยย่อมาจากคำว่า Thailand
3.2 เว็บไซต์และโปรแกรมเว็บเบราเซอร์


       
      เบราเซอร์ (Browser) เป็นชื่อที่ใช้เรียกโปรแกรมที่เราใช้ท่องเว็บกัน ซึ่งชื่อนี้หลายท่านไม่คุ้นและไม่รู้จัก ส่วนมากเวลาถามว่าใช้อะไรเล่นเน็ตก็มักจะได้คำตอบว่า IE บ้าง Chrome บ้าง Firefox บ้าง แต่พอถามว่าใช้เบราเซอร์อะไร กลับได้รับคำตอบคือ งงๆๆๆ อะไรคือเบราเซอร์?
      เบราเซอร์ (Browser) คือโปรแกรมหรือซอฟต์แวร์ที่ใช้ท่องเว็บหรือใช้ดูข้อมูลที่อยู่ในเว็บไซต์  เบราเซอร์มีความสามารถในการเปิดดูไฟล์ต่างๆ ที่สนับสนุนเช่น Flash  JavaScript  PDF  Media ต่างๆ ซึ่งเบราเซอร์มีหลายตัวและความสามารถของแต่ละตัวก็แตกต่างกันขึ้นอยู่กับว่าผู้พัฒนาเบราเซอร์  พัฒนาให้มีความสามารถอะไรบ้าง เบราเซอร์มักใช้เปิดดูเว็บเป็นส่วนใหญ่ และการใช้งานต่างๆในระบบเครือข่ายอินเตอร์เน็ตก็มักจะทำผ่านเบราเซอร์ เช่น การดูภาพยนตร์ผ่าน Youtube  การส่งเมล์  การซื้อขายสินค้าในระบบ e-commerce  การใช้สื่อสังคมออนไลน์ (Social Media)  การดาวน์โหลดไฟล์  การเล่นเกมผ่านเน็ต  การเรียนออนไลน์  เป็นต้น  ล้วนแล้วแต่ทำผ่านเบราเซอร์ทั้งสิ้น 
         การใช้งานอินเตอร์เน็ตนั้นเราจะต้องใช้งานผ่าน Web Browser (เว็บบราวเซอร์) ทุกครั้งแน่นอนว่าหลายคนยังไม่รู้ความหมายจริงๆของเว็บบราวเซอร์ซึ่งเป็นโปรแกรมและเครื่องมือในการท่องอินเตอร์เน็ต ทำให้สามารถเปิด Webpage ต่างๆได้อย่างราบรื่น สวยงาม ไม่ว่าจะเป็นการอ่านเนื้อหา เว็บบอร์ด ดูหนัง ฟังเพลง หรือแม้กระทั่ง Social network ยอดนิยมอย่าง Facebook
3.3 วิธีการสืบค้นข้อมูลโดยใช้สารบนเว็บ
         วิธีการสืบค้นข้อมูลบนอินเทอร์เน็ตการสืบค้นข้อมูลบนอินเทอร์เน็ต     
ในโลกไซเบอร์สเปซมีข้อมูลมากมายมหาศาล การที่จะค้นหาข้อมูลจำนวนมากมายอย่างนี้เราไม่อาจจะคลิกเพื่อค้นหาข้อมูลพบได้ง่ายๆ  จำเป็นจะต้องอาศัยการค้นหาข้อมูลด้วยเครื่องมือค้นหาที่เรียกว่า Search Engine เข้ามาช่วยเพื่อความสะดวกและรวดเร็ว เว็บไซต์ที่ให้บริการค้นหาข้อมูลมีมากมายหลายที่ทั้งของคนไทยและ   ถ้าเราเปิดไปทีละหน้าจออาจจะต้องเสียเวลาในการค้นหา และอาจหาข้อมูลที่เราต้องการไม่พบ การที่เราจะค้นหาข้อมูลให้พบอย่างรวดเร็วจึงต้องพึ่งพา Search Engine Site ซึ่งจะทำหน้าที่รวบรวมรายชื่อเว็บไซต์ต่างๆ เอาไว้ โดยจัดแยกเป็นหมวดหมู่ ผู้ใช้งานเพียงแต่ทราบหัวข้อที่ต้องการค้นหาแล้วป้อน คำหรือข้อความของหัวข้อนั้นๆ ลงไปในช่องที่กำหนด คลิกปุ่มค้นหา เท่านั้น รอสักครู่ข้อมูลอย่างย่อๆ และรายชื่อเว็บไซต์ที่เกี่ยวข้องจะปรากฏให้เราเข้าไปศึกษาเพิ่มเติมได้ทันที
การค้นหาข้อมูลมีกี่วิธี ?
1. การค้นหาในรูปแบบ Index Directory
2. การค้นหาในรูปแบบ Search Engine
การค้นหาในรูปแบบ Index Directory
              วิธีการค้นหาข้อมูลแบบ Index นี้ข้อมูลจะมีความเป็นระเบียบเรียบร้อยมากกว่าการค้นหาข้อมูลด้วย วิธีของ Search Engineโดยมันจะถูกคัดแยกข้อมูลออกมาเป็นหมวดหมู่ และจัดแบ่งแยก Site ต่างๆออก เป็นประเภท สำหรับวิธีใช้งาน คุณสามารถที่จะ Clickเลือกข้อมูลที่ต้องการจะดูได้เลยใน Web Browser จากนั้นที่หน้าจอก็จะแสดงรายละเอียดของหัวข้อปลีกย่อยลึกลงมาอีกระดับหนึ่ง ปรากฏขึ้นมาให้เราเลือกอีก ส่วนจะแสดงออกมาให้เลือกเยอะแค่ไหนอันนี้ก็ขึ้นอยู่กับขนาดของฐานข้อมูลใน Index ว่าในแต่ละประเภท จัดรวบรวมเก็บเอาไว้มากน้อยเพียงใด เมื่อคุณเข้าไปถึงประเภทย่อยที่คุณสนใจแล้ว ที่เว็บเพจจะแสดงรายชื่อของเอกสารที่เกี่ยวข้องกับ ประเภทของข้อมูลนั้นๆออกมา หากคุณคิดว่าเอกสารใดสนใจหรือต้องการอยากที่จะดู สามารถ Click ลงไปยัง Link เพื่อขอเชื่อต่อทางไซต์ก็จะนำเอาผลของข้อมูลดังกล่าวออกมาแสดงผลทันที นอกเหนือไปจากนี้ ไซต์ที่แสดงออกมานั้นทางผู้ให้บริการยังได้เรียบเรียงโดยนำเอา Site ที่มีความเกี่ยว ข้องมากที่สุดเอามาไว้ตอนบนสุดของรายชื่อที่แสดง
การค้นหาในรูปแบบ Search Engine 
              วิธีการอีกอย่างที่นิยมใช้การค้นหาข้อมูลคือการใช้ Search Engine ซึ่งผู้ใช้ส่วนใหญ่กว่า 70% จะใช้วิธีการค้นหาแบบนี้ หลักการทำงานของ Search Engine จะแตกต่างจากการใช้ Indexลักษณะของมันจะเป็นฐานข้อมูลขนาดใหญ่มหาศาลที่กระจัดกระจายอยู่ทั่วไป บน Internet ไม่มีการแสดงข้อมูลออกมาเป็นลำดับขั้นของความสำคัญ การใช้งานจะเหมือนการสืบค้นฐานข้อมูล อื่นๆคือ คุณจะต้องพิมพ์คำสำคัญ (Keyword) ซึ่งเป็นการอธิบายถึงข้อมูลที่คุณต้องการจะเข้าไป ค้นหานั้นๆเข้าไป จากนั้น Search Engine ก็จะแสดงข้อมูลและ Site ต่างๆที่เกี่ยวข้องออกมา
ประเภทของ Search Engine
Search Engine แต่ละแห่งมีวิธีการและการจัดเก็บฐานข้อมูลที่แตกต่างกันไปตามประเภทของ Search Engine ที่แต่ละเว็บไซต์นำมาใช้เก็บรวบรวมข้อมูล ดังนั้นการที่คุณจะเข้าไปหาข้อมูลหรือเว็บไซต์ โดยวิธีการ Search นั้น อย่างน้อยคุณจะต้องทราบว่า เว็บไซต์ที่คุณเข้าไปใช้บริการ ใช้วิธีการหรือ ประเภทของ Search Engine อะไร เนื่องจากแต่ละประเภทมีความละเอียดในการจัดเก็บข้อมูลต่างกันไป ที่นี้เราลองมาดูซิว่า Search Engine ประเภทใดที่เหมาะกับการค้นหาข้อมูลของคุณ
             1.  Keyword Index เป็นการค้นหาข้อมูล โดยการค้นจากข้อความในเว็บเพจที่ได้ผ่านการสำรวจมาแล้ว จะอ่านข้อความ ข้อมูล อย่างน้อยๆ ก็ประมาณ 200-300 ตัวอักษรแรกของเว็บเพจนั้นๆ โดยการอ่านนี้จะหมายรวมไปถึงอ่านข้อความที่อยู่ในโครงสร้างภาษาHTML ซึ่งอยู่ในรูปแบบของข้อความที่อยู่ในคำสั่ง alt ซึ่งเป็นคำสั่งภายใน TAG คำสั่งของรูปภาพ แต่จะไม่นำคำสั่งของ TAG อื่นๆ ในภาษา HTML และคำสั่งในภาษา JAVA มาใช้ในการค้นหา วิธีการค้นหาของ Search Engine ประเภทนี้จะให้ความสำคัญกับการเรียงลำดับข้อมูลก่อน-หลัง และความถี่ในการนำเสนอข้อมูลนั้น การค้นหาข้อมูล โดยวิธีการเช่นนี้จะมีความรวดเร็วมาก แต่มีความละเอียดในการจัดแยกหมวดหมู่ของข้อมูลค่อนข้างน้อย เนื่องจากไม่ได้คำนึงถึงรายละเอียดของเนื้อหาเท่าที่ควร แต่หากว่าคุณต้องการแนวทางด้านกว้างของข้อมูล และความรวดเร็วในการค้นหา วิธีการนี้ก็ใช้ได้ผลดี
             2. Subject Directories การจำแนกหมวดหมู่ข้อมูล Search Engine ประเภทนี้ จะจัดแบ่งโดยการวิเคราะห์เนื้อหา รายละเอียด ของแต่ละเว็บเพจ ว่ามีเนื้อหาเกี่ยวกับอะไร โดยการจัดแบ่งแบบนี้จะใช้แรงงานคนในการพิจารณาเว็บเพจ ซึ่งทำให้การจัดหมวดหมู่ขึ้นอยู่กับวิจารณญาณของคนจัดหมวดหมู่แต่ละคนว่าจะจัดเก็บข้อมูลนั้นๆ อยู่ในเครือข่ายข้อมูลอะไร ดังนั้นฐานข้อมูลของ Search Engine ประเภทนี้จะถูกจัดแบ่งตามเนื้อหาก่อน แล้วจึงนำมาเป็นฐานข้อมูลในการค้นหาต่อไป การค้นหาค่อนข้างจะตรงกับความต้องการของผู้ใช้ และมีความถูกต้องในการค้นหาสูง เป็นต้นว่า หากเราต้องการหาข้อมูลเกี่ยวกับเว็บไซต์ หรือเว็บเพจที่นำเสนอข้อมูลเกี่ยวกับคอมพิวเตอร์ Search Engine ก็จะประมวลผลรายชื่อเว็บไซต์ หรือเว็บเพจที่เกี่ยวกับคอมพิวเตอร์ล้วนๆ มาให้คุณ

           3. Metasearch Engines จุดเด่นของการค้นหาด้วยวิธีการนี้ คือ สามารถเชื่อมโยงไปยัง Search Engine ประเภทอื่นๆ และยังมีความหลากหลายของข้อมูล แต่การค้นหาด้วยวิธีนี้มีจุดด้อย คือ วิธีการนี้จะไม่ให้ความสำคัญกับขนาดเล็กใหญ่ของตัวอักษร และมักจะผ่านเลยคำประเภท Natural Language (ภาษาพูด) ดังนั้น หากคุณจะใช้ Search Engine แบบนี้ละก็ ขอให้ตระหนักถึงข้อบกพร่องเหล่านี้ด้วย
3.4 วิธีการสืบค้นข้อมูลโดยใช้เครื่องมือช่วยค้น
เครื่องมือสืบค้นอาจแบ่งเป็น 4 ประเภท ดังนี้
1. Crawler Based Search Engine
2. Meta Search Engine
3. Classified Directory
4. Subject Gateway
       โครงสร้างของ Crawler Based Search Engine จะประกอบไปด้วย 3 ส่วนหลักๆ คือ
1. Spider หรือ Web Robot
Spider หรืออาจเรียกในชื่ออื่นว่า Web Robot หรือ ครอเลอร์ (Crawler) Search Engine ทุกตัว จะส่ง robot ของตัวเอง เช่น หากเป็น Google จะเรียกว่า Google bot , MSN จะเรียกของตัวเองว่า MSN bot หรือแม้แต่ Yahoo หรือ Search Engine ตัวอื่น ๆ ก็จะเรียกชื่อที่ต่างกันออกไป เพื่อจุดประสงค์ไปไต่ (Craw) ตามเว็บ Link ต่างๆ เช่น และเก็บเอาเนื้อหา หรือ Content ต่างๆ กลับมาวิเคราะห์ที่ Server ของตัวเอง เพื่อหาว่า เนื้อหาใน Web ที่ไปเก็บมานั้น มีเนื้อหาเกี่ยวกับอะไร เช่น กีฬา , ข่าว , Blog หรือเนื้อหาอื่น ๆ โดยจะใช้กรรมวิธีในการคิด วิเคราะห์ (Algorithm) ที่แตกต่างกันออกไป เพื่อวิเคราะห์ให้ได้ว่า Web นั้น มีเนื้อหาด้านนั้นจริงๆ และนำมาจัดเก็บใน Index Server เพื่อให้ผู้ที่ต้องการค้นหาคำที่ต้องการ มาค้นหาจาก Index Server เพื่อจะได้ค้นหา Website ที่เขาต้องการได้รวดเร็ว และตรงตามใจที่สุด
นอกจาก Spider จะทำงานหาลิงค์เพิ่มโดยอัตโนมัติแล้ว Search Engine ส่วนใหญ่อนุญาตให้ส่ง URL เพื่อกำหนดให้ Spider มาทำดัชนีที่เว็บไซต์ใดๆได้ ในปัจจุบันมีบริการที่จะส่ง URL ไป Search Engine หลายๆแห่งพร้อมกันในคราวเดียวเช่นที่ www.submit-it.com Spider หรือ Web Robot จะมีโปรแกรมคำสั่งที่เรียกว่า robots.txt คือการคำสั่งให้ Web Robot ของแต่ละ search engine นั้น ทำตามเก็บ index แต่ละอย่างที่เว็บไซต์ที่อนุญาติ โดยบางเว็บไซต์อาจไม่ต้องการให้ search engine เข้าไปในเว็บบางอย่าง ก็จะเขียนกำหนดได้บน Robot.txt นี้เอง robots.txt เป็น fileที่บอก Search engine ว่า ไม่ต้องมาเก็บเว็บไซต์นี้ หรือเว็บเพจบางหน้า หรือไฟล์บางไฟล์ Robot เป็นโปรแกรมเก็บข้อมูลในอินเตอร์เน็ต ซึ่งบางครั้ง เรียกว่า Spider หรือ ครอว์เลอร์(Crawler) จะทําหน้าที่รวบรวมไฟล์ HTML เพื่อมาเป็นข้อมูล สําหรับสร้างดัชนีค้นหา ให้กับ Search Engine โดยทั่วไปแล้ว โรบอตจะกลับมาที่เว็บไซต์ที่อ่านไปแล้ว เพื่อตรวจสอบ การเปลี่ยนแปลง ตามระยะเวลาที่กําหนด
2. indexer
Indexer ( อินเด็กเซอร์ ) หรือบางครั้งเรียก catalogue ( แคตตาล็อก ) จะรับข้อมูลจาก Spider มาทำดัชนี เทคนิคการทำดัชนีมักใช้การจัดเก็บแบบแฮชชิง เพื่อที่ช่วยให้ค้นหาข้อมูลได้สามารถค้นหาได้อย่างรวดเร็ว ขั้นตอนการทำงานของ index ( อินเด็กซ์ ) แบ่งออกได้เป็น 3 ขั้นตอน คือ
- กรองคำด้วยฟิลเตอร์ เนื่องจากไฟล์ที่ทำดัชนีอาจไม่เป็น HTML หรือไฟล์แอสกี ดังนั้นฟิลเตอร์จะตรวจสอบไฟล์ที่ได้ว่าเป็นไฟล์ชนิดใดสามารถนำมาทำดัชนีได้หรือไม่ ถ้าได้ก็จะส่งต่อสู่ภาคการแยกคำต่อไป Search Engine บางตัวสามารถ ทำดัชนีไฟล์อื่นๆนอกเหนือจากไฟล์ HTML ได้ด้วยเช่น Index Server ของไมโครซอฟต์สามารถทำดัชนีคำของแฟ้มเวิร์ดหรือเอกเซลได้
- แยกคำ ขั้นตอนนี้จะรับสายอักขระมาจากฟิลเตอร์ แล้วตัดแบ่งสายอักขระนั้นๆออกเป็นคำๆ และเพื่อตรวจสอบต่อไปว่าควรจะนำคำนั้นมาทำดัชนีหรือไม่
- จัดทำดัชนี ขั้นตอนนี้จะทำหน้าที่ตรวจสอบคำศัพท์แต่ละคำที่ได้มาจากการแยกคำ แล้วพิจารณาว่าคำศัพท์คำนั้นสมควรที่จะนำมาทำดัชนีหรือไม่ เช่นคัดทิ้งคำบางคำที่ไม่ได้ใช้ประโยชน์ในการค้นหา คำสิ้นเปลืองและคำหยุด (Common word หรือ stop word) ออกไปจากหน้าเอกสาร เช่น a, the, is, on, of, it เป็นต้น เพื่อลดอัตราการสิ้นเปลืองในการประมวลผลแต่ละครั้งให้เหลือน้อยที่สุด
3. Search Engine software
เป็นส่วนของโปรแกรมที่รับคำศัพท์ที่ต้องการให้ค้นหา แล้วค้นหาในดัชนี หลังจากนั้นจะนำข้อมูลที่ค้นหามาจัดลำดับตามความสำคัญก่อนหลังเพื่อแสดงกลับไปบนหน้าจอ โปรแกรมส่วนนี้มักเป็นโปรแกรม cgi ที่เขียนเชื่อมโยงเข้ากับเว็บเพจที่รอให้ผู้ใช้ป้อนคำศัพท์

ตัวอย่าง Crawler Based Search Enginewww.google.com


    Google ซึ่งเป็น Search Engine ที่ได้รับความนิยมอย่างมากในขณะนี้ มี Spider ที่มีความเร็วในการเก็บข้อมูลโดยที่ความเร็วสูงสุด Spider 4 ตัวสามารถรวบรวมข้อมูลได้มากกว่า 100 เว็บเพจต่อวินาที หรือไข้ข้อมูลประมาณ 600 Kต่อวินาที เวลาปรกติประสิทธิภาพของ Spider และ indexer ทำให้ Google ดาวน์โหลดข้อมูลล่าสุด 11 ล้านหน้าในเวลาเพียง 63 ชั่วโมงเฉลี่ยเพียง 4 ล้านหน้าต่อวันหรือ 48.5 หน้าต่อวินาทีเพราะ indexer ทำงานเร็วกว่า Spider จีงมีเวลาพอเพียงเพิ่มประสิทธิภาพการทำ indexer เพื่อให้มันไม่คั่งค้าง
3.5 ตัวอย่างเว็บไซต์ที่ให้บริการสืบค้นข้อมูลทั้งของไทยและของต่างประเทศ
เว็บไทย
-www.thaiall.com
-www.siamguru.com
-www.sanook.com
-www.thaiseek.com
-www.saim-search.com
-www.sansarn.com
เว็บต่างประเทศ

- http://www.yahoo.com
Yahoo (อ่านว่า ยา-ฮู) เป็น Search Engine ที่เก่าแก่และเรียกว่ามีชื่อเสียงโด่งดังที่สุดตัวหนึ่งในอาณาจักรอินเทอร์เน็ต จุดเด่นหลักของเว็บไซต์นี้คงมาจากความสามารถในการค้นหาข้อมูลที่ทำได้อย่างรวดเร็วจุดหนึ่งที่ทำให้ Yahoo โดดเด่นเป็นพิเศษก็คือการ แบ่งเว็บไซต์ที่เก็บในฐานข้อมูลออกเป็นหมวดหมู่และยังมีการโยงใยระหว่างกลุ่มย่อยแต่ละกลุ่มเข้าด้วยกันอย่างเป็นระบบ


-http://www.ipl.org/ref/RR
เว็บนี้เป็นแหล่งข้อมูลอ้างอิงที่ได้แยกออกไว้เป็นหัวข้อใหญ่ต่าง ๆ (เหมือนกับเอ็นไซโคพีเดียหรือดิกชันนารี) โดยประกอบไปด้วย ศิลปะและมนุษย์ ธุรกิจและเศรษฐศาสตร์ คอมพิวเตอร์และอินเตอร์เน็ต การศึกษา สุขภาพและวิทยาศาสตร์การแพทย์ กฎหมาย องค์กรรัฐบาลและการเมือง วิทยาศาสตร์และเทคโนโลยี
-http://www.webopaedia.com
เป็นเว็บเอ็นไซโคพีเดียและเสิร์ชเอ็นจินที่ได้รับความนิยมมากที่สุดแห่งหนึ่ง คุณสามารถค้นหาข้อมูลได้โดยใช้คีย์เวิร์ดหรือไประเภท ไซต์นี้ได้แบ่งหัวข้อต่าง ๆ ไว้ 15 หัวเรื่อง โดยคุณสามารถให้ทางไชต์ส่งข้อมูลอัพเดตมาที่คุณได้
-http://www.whatis.com
เว็บนี้เป็นข้อมูลที่เกี่ยวกับเทคโนโลยีสารสนเทศ มีเอ็นไซโคพีเดีย คำจำกัดความ/หัวข้อเรื่อง และเพจสำหรับอ้างอิงรวดเร็วมากกว่า 2,000 เพจ เว็บนี้มีหัวข้อเรื่องต่าง ๆ ที่ลิงก์ไปยังอ้างอิงของคำจำกัดความและหัวเรื่องอื่น ๆ มากกว่า 10,000 ลิงก์ และยังมีลิงก์ไปยังไซต์อื่น เพื่อดูข้อมูลเพิ่มเติมอีกด้วย คุณจะชอบส่วนพิเศษของเว็บนี้


ไม่มีความคิดเห็น:

แสดงความคิดเห็น