Smart stock market analysis with PowerBI tool (ตอนที่ 1)

ภาพรวมของบทความ

บทความนี้จะแนะนำการเขียนโปรแกรมและใส่ปัญญาประดิษฐ์ที่สร้างขึ้น (Artificial Intelligence, AI)  เข้าไปใน PowerBI เพื่อที่จะประมวลผลข้อมูลราคาหุ้นที่ผ่านการโหลด เตรียมและจัดเก็บอยู่ใน PowerBI  รวมถึงการนำเสนอข้อมูลที่สรุปแล้วผ่านภาพหรือกราฟที่ตอบโต้กับผู้ใช้ได้ (Dashboard) แบบง่ายๆ จากความสามารถของ PowerBI   โดยที่ผู้ใช้สามารถเห็นแนวโน้มของกราฟราคาหุ้น  ปรับเลือกช่วงที่ต้องการดู   กดเลือกแสดงค่าราคาในวันที่เลือก

ผู้เขียนจะแบ่งเนื้อหาเป็นตอนๆ ไป   ตอนที่ 1 นี้จะเป็นการแนะนำพื้นฐานด้านต่างๆ ที่เกี่ยวกับการวิเคราะห์ตลาดหุ้นด้วยเครื่องมือ PowerBI

ปัจจุบันนี้เทคโนโลยีทางด้านข้อมูลได้มีการเปลี่ยนแปลงไปอย่างรวดเร็ว  เนื่องจาก

  1. ทุกอย่างรอบตัวเราสามารถถูกจัดเก็บให้อยู่ในรูปแบบข้อมูลแบบดิจิตอลได้
  2. เทคโนโลยีการวิเคราะห์ข้อมูลก็ได้พัฒนาไปอย่างมาก

เมื่อมีข้อมูลที่ครอบคลุมและเทคโนโลยีด้าน AI ที่พัฒนาไปมาก   ทำให้ปัจจุบันนี้  เราสามารถนำข้อมูลเหล่านี้มาใช้ประโยชน์ได้อย่างมากมาย  เช่น  การติดตามพฤติกรรมของลูกค้าทั้งจากลูกค้าในร้านค้าจริงหรือลูกค้าในอินเตอร์เน็ต    การพัฒนารถยนต์ขับขี่อัตโนมัติที่ทำให้รถยนต์สามารถขับขี่ไปถึงปลายทางได้อย่างปลอดภัยโดยเรานั่งพักผ่อนได้     การกำหนดราคาไฟล์ตบิน และการทำนายการล่าช้าของเครื่องบินในงานอุตสาหกรรมการบินการพัฒนาระบบบ้านอัจฉริยะที่ช่วยดูแล สั่งงานเครื่องใช้ไฟฟ้าในบ้านไปจนกระทั้งรักษาความปลอดภัยให้เรา  ดังแสดงในรูปที่ 1

ในตอนที่ 1 นี้จะแบ่งเนื้อหาเป็น 3 ส่วน  เริ่มต้นจากการแนะนำความรู้เบื้องต้นของ PowerBI ในส่วนที่ 1 แนวทางการวิเคราะห์ข้อมูล ในส่วนที่ 2และโมเดลการเรียนรู้เชิงลึก (Deep learning model) ในส่วนที่ 3

รูปที่ 1 แสดงตัวอย่างงานประยุกต์ที่เกี่ยวกับข้อมูล จาก [1]

ส่วนที่ 1 เครื่องมือ PowerBI

PowerBI เป็นเครื่องที่ช่วยในการวิเคราะห์ข้อมูลที่มีความสามารถหลัก ๆ ต่อไปนี้

  1. การเชื่อมต่อกับแหล่งข้อมูล (Data source connectivity) และความปลอดภัยของข้อมูล เนื่องจาก PowerBI พัฒนาโดยไมโครซอพท์ (Microsoft) ที่เป็นบริษัทใหญ่ที่พัฒนาผลิตภัณฑ์บนคอมพิวเตอร์หลายประเภทตั้งแต่ระบบปฏิบัติการ มีความชำนาญทางด้านความปลอดภัย  และพัฒนาแอพลิเคชันต่าง ๆ ที่นิยมเช่น word excel เป็นต้น   ดังนั้นทำให้เครื่องมือที่พัฒนาโดยบริษัทนี้สามารถเข้าถึงไฟล์ข้อมูลที่มีรูปแบบหลากหลายๆ ได้ง่ายและค่อนข้างมีความปลอดภัยในการจัดการเกี่ยวกับข้อมูล
  2. การจัดการข้อมูล (Data Manageability) การจัดเตรียมข้อมูล (Data Preparation) การจัดการแคตตาล็อกข้อมูล (Catalog) การนำเสนอข้อมูล (Data visualization) ความสามารถในการเล่าเรื่อง (Data storytelling) การรายงานผลลัพธ์  (Reporting)  การเชื่อมต่อผู้ใช้ (User Interface) ในการจัดการข้อมูลของ PowerBI จะคล้ายๆกับ Excel ดังนั้นทำให้ผู้ใช้ปรับตัวได้ง่าย  มีการใช้สูตรสำเร็จรูปคล้ายๆกันในรูปแบบ M และ DAX ฟังก์ชั่น
  3. ความสามารถในการทำงานและการวิเคราะห์ข้อมูลบนคลาวด์ (Cloud analytics) Microsoft มี Azure cloud platform ที่สามารถทำงานเด่นที่สุดสำหรับความสามารถด้านนี้ทั้งการใช้ ML และในส่วนของ NLP

รูปที่ 2 แสดง Magic Quadrant (MQ)  ของ Gartner ปี 2022 [2]

นอกจากนี้ Gartner ที่ปรึกษาทางเทคโนโลยีทางธุกิจที่ได้รับการยอมรับทั่วโลกได้สรุปความสามารถของผลิตภัณฑ์ระบบการวิเคราะห์ธุรกิจอัจฉริยะ( Analytic and business intelligence, ABI)  ในปี 2022 ออกมาเป็นรูปที่ 2 ที่เรียกว่า Magic Quadrant (MQ) โดยที่แกนแนวนอนถูกเรียกว่า Completeness of Vision จะได้มาจากการนำสิ่งใหม่ๆใส่เข้ามาในผลิตภัณฑ์ (Innovation) ส่วนแกนแนวตั้งถูกเรียกว่า Ability to Execute ที่ได้มาจากองค์ประกอบทางด้านศักยภาพของผู้พัฒนาเครื่องมือ การตอบสนองต่อตลาด การพัฒนาทางผลิตภัณฑ์ ฐานลูกค้าที่มีแล้ว   และจากรูปที่ 2 จะเห็นได้ว่า จะมีผู้นำเป็น Microsoft และ Tableau    และเนื่องจาก PowerBI เป็น Tool  ที่สามารถโหลดมาใช้งานแบบเบื้องต้นได้ฟรีดังนั้นในบทความนี้เราจะแสดงตัวอย่างโดยการใช้งาน PowerBI  ในการวิเคราะห์ราคาหุ้นในตลาดหุ้นดด้วยโมเดลที่เราสร้างเอง

ส่วนที่ 2 แนวทางการวิเคราะห์ข้อมูล

รูปที่ 3 การวิเคราะห์ข้อมูลตามมาตรฐาน CRIPS-DM [3]

CRIPS-DM (The Cross Industry Standard Process for Data Mining) เป็นหนึ่งแนวคิดของกระบวนการวิเคราะห์ข้อมูลที่เริ่มต้นโดยบริษัทชั้นนำและกลายเป็นมาตรฐานที่ยอมรับในวงการอุตสาหกรรม  โดยแบ่งกระบวนการสร้างและตรวจสอบโมเดลในการวิเคราะห์ข้อมูลเป็น 6 ขั้นตอนตามรูปที่ 3

  • Business understanding ทำเข้าใจความต้องการของงานที่นำเสนอหรือโจทย์   โดยลงลึกไปถึงการทำความเข้าใจธุรกิจที่เกี่ยวข้องกับโจทย์ให้ครอบคลุม    เพื่อที่จะอธิบายหรือตอบความต้องการของโจทย์ได้ชัดเจน.
  • Data understanding ทำความเข้าใจข้อมูลที่มี ว่าสามารถอธิบายหรือเชื่อมโยงทั้งทางตรงหรือทางอ้อมแบบไหนได้บ้าง หรือจำเป็นต้องการใช้ข้อมูลเพิ่มเติม   รวมไปถึงการประเมินคุณภาพของข้อมูล
  • Data preparation การจัดเตรียมและแปลงข้อมูลที่มีให้พร้อม รวมถึงรูปแบบ ประเภทของข้อมูลสำหรับการสร้างกราฟหรือโมเดลข้อมูลในขั้นตอนถัดไป
  • Modeling ความสัมพันธ์ของการเชื่อมโยงข้อมูล    รวมไปถึงโมเดลทางคณิตศาสตร์ที่เชื่อมโยงข้อมูล    การวิเคราะห์ความสัมพันธ์อาจจะมาจากคนหรือจากการเรียนรู้ของเครื่อง    นอกจากนี้ยังรวมไปถึงการถ่ายทอดความสัมพันธ์ในเชิงรูปภาพ กราฟ และการเชื่อมโยงของแต่ละความสัมพันธ์
  • Evaluation ประเมินผลของโมเดล กราฟ ที่นำมาใช้ว่าตอบโจทย์ของความต้องการหรือของลูกค้าหรือไม่ ถ้าไม่ก็ต้องวนกลับไปทำความเข้าใจกับโจทย์อีกครั้ง
  • Deployment ถ้าโมเดลหรือกราฟที่นำมาใช้ ตอบโจทย์ลูกค้าชัดเจนก็จะถูกนำไปใช้งาน

ส่วนที่ 3 โมเดลการเรียนรู้เชิงลึก (Deep learning model)

การเรียนรู้เชิงลึก (Deep learning) เป็นส่วนหนึ่งในการพัฒนาระบบความชาญฉลาดหรืออัจฉริยะของเครื่องจักร  (Artificial intelligence, AI)  การเรียนรู้เชิงลึกเป็นการพัฒนาโดยหลักการของโครงข่ายประสาทเทียมและมีการให้ผลลัพธ์ที่ดีมากในปัจจุบันกับการใช้งานประยุกต์ด้านต่างๆ  ดังนั้น AI สำหรับการทำนายของมูลราคาหุ้นในบทความนี้นั้น เราจะสร้างขึ้นมาจากเทคนิคการเรียนรู้ Deep learning   สิ่งที่ได้จะเรียกว่าแบบจำลองโมเดลหรือกล่องที่สามารถทำนายราคาหุ้นเมื่อมีป้อนข้อมูลหุ้นตามที่กำหนดไว้   เนื่องจากข้อมูลราคาหุ้นที่เปลี่ยนแปลงต่อเนื่องตามวันและเวลา (time-series data) ดังนั้นจะเหมาะกับการใช้ต้นแบบโมเดลแบบ RNN, LSTM และ Transformer.  ก่อนที่จะเข้าสู่สร้างโมเดลจาก LSTM   บทความจะข้อมูลภาพกว้างๆ และสั้นๆ ของ RNN, LSTM และ Transformer จะเป็นดังต่อไปนี้

  1. ทั้งสามโมเดลเป็นโมเดลที่ใช้สำหรับข้อมูลที่มีลำดับต่อเนื่องก่อนและหลังหรืออดีตและปัจจุบัน เช่น ข้อมูลราคาหุ้น  ภาษา เป็นต้น
  2. RNN แสดงในรูปที่ 4 เหมาะสำหรับข้อมูลต่อเนื่องที่ข้อมูลในแต่ละลำดับมีความสัมพันธ์ ข้อมูลก่อนหน้าจะถูกประมวลด้วยตัวแปรพารามิเตอร์และส่งเปลี่ยนทิศทางกลับไป (recurrent) รวมกับข้อมูลลำดับอื่น ๆได้และจะทำให้ผลลัพธ์ที่มาจากข้อมูลลำดับต่าง ๆ การส่งข้อมูลเก่าย้อนกลับไปเสมือนกับการมีหน่วยจัดเก็บข้อมูลเก่า   อย่างไรก็ดี RNN ไม่เหมาะกับข้อมูลขนาวยาวๆ เพราะจะทำเกิดปัญหาที่ Gradient ได้

รูปที่ 4 แบบจำลองของ Recurrent neural network ที่ถูกแผ่ออกมาให้เข้าใจง่าย [4]

  1. LSTM แสดงในรูปที่ 5 ได้มีการพัฒนาเพื่อแก้ไขปัญหา Gradient ในข้อมูลที่ยาวๆ โดยเพิ่มประตูเปิด/ปิด (Gate) และหน่วยข้อมูลความจำ

รูปที่ 5 เพื่อกำหนดค่าความสำคัญให้แก่กลุ่ม หน่วยข้อมูล คำ ต่าง ๆ ดังนั้นจึงเหมาะกับข้อมูลที่ยาวมาก และมีความสัมพันธ์ของข้อมูลในตำแหน่งที่ห่างกันมากกว่า หรือกำหนดความสัมพันธ์ในภาพรวม ปัจจุบันโมเดลแบบนี้ถูกนำมาใช้กับ ChatGPT ที่กำลังเป็นที่นิยม

4. Transformer จะไม่ได้ใช้การเปลี่ยนทิศทางข้อมูลในลำดับต่าง ๆ แต่จะโดยปกติข้อมูลจะถูกแปลงเป็นกลุ่ม หน่วยข้อมูล คำ (Token) (RNN LSTM ก็มีการแปลงข้อมูลเป็นหน่วยข้อมูลขึ้นกับการใช้งาน) และมีการใช้เทคนิค Self-attention แสดงในรูปที่ 5 เพื่อกำหนดค่าความสำคัญให้แก่กลุ่ม หน่วยข้อมูล คำ ต่าง ๆ ดังนั้นจึงเหมาะกับข้อมูลที่ยาวมาก และมีความสัมพันธ์ของข้อมูลในตำแหน่งที่ห่างกันมากกว่า หรือกำหนดความสัมพันธ์ในภาพรวม ปัจจุบันโมเดลแบบนี้ถูกนำมาใช้กับ ChatGPT ที่กำลังเป็นที่นิยม

รูปที่ 6 การแยกข้อมูลแบบข้อความ “I kicked the ball” ออกเป็นหน่วยและเชื่อมความสัมพันธ์ระหว่างหน่วยในภาพรวม [4]

การอ้างอิงบทความ

  • [1] Hemant Sharma, “What is Data Science? A Beginner’s Guide To Data Science.” edureka.co. https://www.edureka.co/blog/what-is-data-science (accessed April 23, 2023).
  • [2] Microsoft, “2022 Gartner® Magic Quadrant™ for Analytics and Business Intelligence Platforms.” microsoft.com. https://info.microsoft.com/ww-landing-2022-gartner-mq-report-on-bi-and-analytics-platforms.html?LCID=EN-US (accessed April 23, 2023).
  • [3] NICK HOTZ, “What is CRISP DM?.” datascience-pm.com. https://www.datascience-pm.com/crisp-dm-2 (accessed April 23, 2023).
  • [4] Giuliano Giacaglia, “How Transformers Work.” towardsdatascience.com. https://towardsdatascience.com/transformers-141e32e69591 (accessed April 23, 2023).
This entry was posted in Blog 101. Bookmark the permalink.