สวัสดีค่าทุกคน วันนี้พี่พลอยมีสิ่งดีๆมานำเสนอกันอีกแล้วค่า เนื่องจากมีหลายคนถามเรื่องนี้มาเยอะมากเว่อ นั่นก็คืออออ การอ่านข้อมูลจากไฟล์ PDF นั่นเองจ้าาาา ไม่รอช้า! มาเริ่มกันเลย
เราจะใช้ Library ที่ชื่อว่า Pdf2TextLibrary ค่ะ
วิธีการติดตั้ง ตามขั้นตอนกันเลยจ้า
- Download Pdf2TextLibrary.zip ที่ link นี้นะคะ เป็น library ที่พี่พลอยเอามาแก้ไขและนำขึ้น github จ้า
- แตก Zip file และติดตั้ง library โดยใช้ command
python setup.py install
- จากนั้น install pdfminer library ด้วยนะคะ เนื่องจาก Pdf2TextLibrary มีการเรียกใช้งาน library นี้ค่ะ โดยเปิด Command และ พิมพ์
pip install pdfminer
- Import Library Pdf2TextLibrary โลด
เรามาดูในส่วนของ Test Script กัน
*** Settings *** Library Pdf2TextLibrary *** Test Cases *** Read PDF ${noPage} Count Pdf Pages C:\\document\\Test\\Test_PDF.pdf ${data} Convert Pdf To Txt C:\\document\\Test\\Test_PDF.pdf Log ${data} Should Contain ${data} QA Engineer walks into a bar.
ลองทดสอบกันเลย
นี่คือไฟล์ PDF ที่พี่พลอยเอามาใช้เป็นตัวอย่างค่ะ
Test_PDF.pdf
เมื่อ Run Test script ข้างบน นี่คือผลที่ได้
ในส่วนของการตรวจสอบข้อมูล เราสามารถใช้ Keyword Should Contain ในการตรวจสอบผลได้เลยค่ะ
โดยตัวอย่าง P’Ploy ตรวจสอบว่าข้อมูลที่อ่านได้มาจาก PDF นั้น มีข้อความ “QA Engineer walks into a bar” อยู่หรือไม่ ผลคือ มีข้อความ ทำให้ test script ข้อนี้ผ่านค่ะ
จบแล้วค่า ไม่ยากเนอะ ลองเอาไปใช้งานดูนะคะ และหากใครอยากสอบถามเพิ่มเติม ถามกันมาได้เลย P’Ployจะไปเสาะหา เอา Tip ดีๆ มาฝากกันอีกแน่นอนจ้าาา 🙂
Ref
PDF to text