ภาพรวมของบทความ
บทความนี้จะแนะนำการเขียนโปรแกรมและใส่ปัญญาประดิษฐ์ที่สร้างขึ้น (Artificial Intelligence, AI) เข้าไปใน PowerBI เพื่อที่จะประมวลผลข้อมูลราคาหุ้นที่ผ่านการโหลด เตรียมและจัดเก็บอยู่ใน PowerBI รวมถึงการนำเสนอข้อมูลที่สรุปแล้วผ่านภาพหรือกราฟที่ตอบโต้กับผู้ใช้ได้ (Dashboard) แบบง่ายๆ จากความสามารถของ PowerBI โดยที่ผู้ใช้สามารถเห็นแนวโน้มของกราฟราคาหุ้น ปรับเลือกช่วงที่ต้องการดู กดเลือกแสดงค่าราคาในวันที่เลือก
ผู้เขียนจะแบ่งเนื้อหาเป็นตอนๆ ไป ตอนที่ 1 นี้จะเป็นการแนะนำพื้นฐานด้านต่างๆ ที่เกี่ยวกับการวิเคราะห์ตลาดหุ้นด้วยเครื่องมือ PowerBI
ปัจจุบันนี้เทคโนโลยีทางด้านข้อมูลได้มีการเปลี่ยนแปลงไปอย่างรวดเร็ว เนื่องจาก
- ทุกอย่างรอบตัวเราสามารถถูกจัดเก็บให้อยู่ในรูปแบบข้อมูลแบบดิจิตอลได้
- เทคโนโลยีการวิเคราะห์ข้อมูลก็ได้พัฒนาไปอย่างมาก
เมื่อมีข้อมูลที่ครอบคลุมและเทคโนโลยีด้าน AI ที่พัฒนาไปมาก ทำให้ปัจจุบันนี้ เราสามารถนำข้อมูลเหล่านี้มาใช้ประโยชน์ได้อย่างมากมาย เช่น การติดตามพฤติกรรมของลูกค้าทั้งจากลูกค้าในร้านค้าจริงหรือลูกค้าในอินเตอร์เน็ต การพัฒนารถยนต์ขับขี่อัตโนมัติที่ทำให้รถยนต์สามารถขับขี่ไปถึงปลายทางได้อย่างปลอดภัยโดยเรานั่งพักผ่อนได้ การกำหนดราคาไฟล์ตบิน และการทำนายการล่าช้าของเครื่องบินในงานอุตสาหกรรมการบินการพัฒนาระบบบ้านอัจฉริยะที่ช่วยดูแล สั่งงานเครื่องใช้ไฟฟ้าในบ้านไปจนกระทั้งรักษาความปลอดภัยให้เรา ดังแสดงในรูปที่ 1
ในตอนที่ 1 นี้จะแบ่งเนื้อหาเป็น 3 ส่วน เริ่มต้นจากการแนะนำความรู้เบื้องต้นของ PowerBI ในส่วนที่ 1 แนวทางการวิเคราะห์ข้อมูล ในส่วนที่ 2และโมเดลการเรียนรู้เชิงลึก (Deep learning model) ในส่วนที่ 3
รูปที่ 1 แสดงตัวอย่างงานประยุกต์ที่เกี่ยวกับข้อมูล จาก [1]
ส่วนที่ 1 เครื่องมือ PowerBI
PowerBI เป็นเครื่องที่ช่วยในการวิเคราะห์ข้อมูลที่มีความสามารถหลัก ๆ ต่อไปนี้
- การเชื่อมต่อกับแหล่งข้อมูล (Data source connectivity) และความปลอดภัยของข้อมูล เนื่องจาก PowerBI พัฒนาโดยไมโครซอพท์ (Microsoft) ที่เป็นบริษัทใหญ่ที่พัฒนาผลิตภัณฑ์บนคอมพิวเตอร์หลายประเภทตั้งแต่ระบบปฏิบัติการ มีความชำนาญทางด้านความปลอดภัย และพัฒนาแอพลิเคชันต่าง ๆ ที่นิยมเช่น word excel เป็นต้น ดังนั้นทำให้เครื่องมือที่พัฒนาโดยบริษัทนี้สามารถเข้าถึงไฟล์ข้อมูลที่มีรูปแบบหลากหลายๆ ได้ง่ายและค่อนข้างมีความปลอดภัยในการจัดการเกี่ยวกับข้อมูล
- การจัดการข้อมูล (Data Manageability) การจัดเตรียมข้อมูล (Data Preparation) การจัดการแคตตาล็อกข้อมูล (Catalog) การนำเสนอข้อมูล (Data visualization) ความสามารถในการเล่าเรื่อง (Data storytelling) การรายงานผลลัพธ์ (Reporting) การเชื่อมต่อผู้ใช้ (User Interface) ในการจัดการข้อมูลของ PowerBI จะคล้ายๆกับ Excel ดังนั้นทำให้ผู้ใช้ปรับตัวได้ง่าย มีการใช้สูตรสำเร็จรูปคล้ายๆกันในรูปแบบ M และ DAX ฟังก์ชั่น
- ความสามารถในการทำงานและการวิเคราะห์ข้อมูลบนคลาวด์ (Cloud analytics) Microsoft มี Azure cloud platform ที่สามารถทำงานเด่นที่สุดสำหรับความสามารถด้านนี้ทั้งการใช้ ML และในส่วนของ NLP
รูปที่ 2 แสดง Magic Quadrant (MQ) ของ Gartner ปี 2022 [2]
นอกจากนี้ Gartner ที่ปรึกษาทางเทคโนโลยีทางธุกิจที่ได้รับการยอมรับทั่วโลกได้สรุปความสามารถของผลิตภัณฑ์ระบบการวิเคราะห์ธุรกิจอัจฉริยะ( Analytic and business intelligence, ABI) ในปี 2022 ออกมาเป็นรูปที่ 2 ที่เรียกว่า Magic Quadrant (MQ) โดยที่แกนแนวนอนถูกเรียกว่า Completeness of Vision จะได้มาจากการนำสิ่งใหม่ๆใส่เข้ามาในผลิตภัณฑ์ (Innovation) ส่วนแกนแนวตั้งถูกเรียกว่า Ability to Execute ที่ได้มาจากองค์ประกอบทางด้านศักยภาพของผู้พัฒนาเครื่องมือ การตอบสนองต่อตลาด การพัฒนาทางผลิตภัณฑ์ ฐานลูกค้าที่มีแล้ว และจากรูปที่ 2 จะเห็นได้ว่า จะมีผู้นำเป็น Microsoft และ Tableau และเนื่องจาก PowerBI เป็น Tool ที่สามารถโหลดมาใช้งานแบบเบื้องต้นได้ฟรีดังนั้นในบทความนี้เราจะแสดงตัวอย่างโดยการใช้งาน PowerBI ในการวิเคราะห์ราคาหุ้นในตลาดหุ้นดด้วยโมเดลที่เราสร้างเอง
ส่วนที่ 2 แนวทางการวิเคราะห์ข้อมูล
รูปที่ 3 การวิเคราะห์ข้อมูลตามมาตรฐาน CRIPS-DM [3]
CRIPS-DM (The Cross Industry Standard Process for Data Mining) เป็นหนึ่งแนวคิดของกระบวนการวิเคราะห์ข้อมูลที่เริ่มต้นโดยบริษัทชั้นนำและกลายเป็นมาตรฐานที่ยอมรับในวงการอุตสาหกรรม โดยแบ่งกระบวนการสร้างและตรวจสอบโมเดลในการวิเคราะห์ข้อมูลเป็น 6 ขั้นตอนตามรูปที่ 3
- Business understanding ทำเข้าใจความต้องการของงานที่นำเสนอหรือโจทย์ โดยลงลึกไปถึงการทำความเข้าใจธุรกิจที่เกี่ยวข้องกับโจทย์ให้ครอบคลุม เพื่อที่จะอธิบายหรือตอบความต้องการของโจทย์ได้ชัดเจน.
- Data understanding ทำความเข้าใจข้อมูลที่มี ว่าสามารถอธิบายหรือเชื่อมโยงทั้งทางตรงหรือทางอ้อมแบบไหนได้บ้าง หรือจำเป็นต้องการใช้ข้อมูลเพิ่มเติม รวมไปถึงการประเมินคุณภาพของข้อมูล
- Data preparation การจัดเตรียมและแปลงข้อมูลที่มีให้พร้อม รวมถึงรูปแบบ ประเภทของข้อมูลสำหรับการสร้างกราฟหรือโมเดลข้อมูลในขั้นตอนถัดไป
- Modeling ความสัมพันธ์ของการเชื่อมโยงข้อมูล รวมไปถึงโมเดลทางคณิตศาสตร์ที่เชื่อมโยงข้อมูล การวิเคราะห์ความสัมพันธ์อาจจะมาจากคนหรือจากการเรียนรู้ของเครื่อง นอกจากนี้ยังรวมไปถึงการถ่ายทอดความสัมพันธ์ในเชิงรูปภาพ กราฟ และการเชื่อมโยงของแต่ละความสัมพันธ์
- Evaluation ประเมินผลของโมเดล กราฟ ที่นำมาใช้ว่าตอบโจทย์ของความต้องการหรือของลูกค้าหรือไม่ ถ้าไม่ก็ต้องวนกลับไปทำความเข้าใจกับโจทย์อีกครั้ง
- Deployment ถ้าโมเดลหรือกราฟที่นำมาใช้ ตอบโจทย์ลูกค้าชัดเจนก็จะถูกนำไปใช้งาน
ส่วนที่ 3 โมเดลการเรียนรู้เชิงลึก (Deep learning model)
การเรียนรู้เชิงลึก (Deep learning) เป็นส่วนหนึ่งในการพัฒนาระบบความชาญฉลาดหรืออัจฉริยะของเครื่องจักร (Artificial intelligence, AI) การเรียนรู้เชิงลึกเป็นการพัฒนาโดยหลักการของโครงข่ายประสาทเทียมและมีการให้ผลลัพธ์ที่ดีมากในปัจจุบันกับการใช้งานประยุกต์ด้านต่างๆ ดังนั้น AI สำหรับการทำนายของมูลราคาหุ้นในบทความนี้นั้น เราจะสร้างขึ้นมาจากเทคนิคการเรียนรู้ Deep learning สิ่งที่ได้จะเรียกว่าแบบจำลองโมเดลหรือกล่องที่สามารถทำนายราคาหุ้นเมื่อมีป้อนข้อมูลหุ้นตามที่กำหนดไว้ เนื่องจากข้อมูลราคาหุ้นที่เปลี่ยนแปลงต่อเนื่องตามวันและเวลา (time-series data) ดังนั้นจะเหมาะกับการใช้ต้นแบบโมเดลแบบ RNN, LSTM และ Transformer. ก่อนที่จะเข้าสู่สร้างโมเดลจาก LSTM บทความจะข้อมูลภาพกว้างๆ และสั้นๆ ของ RNN, LSTM และ Transformer จะเป็นดังต่อไปนี้
- ทั้งสามโมเดลเป็นโมเดลที่ใช้สำหรับข้อมูลที่มีลำดับต่อเนื่องก่อนและหลังหรืออดีตและปัจจุบัน เช่น ข้อมูลราคาหุ้น ภาษา เป็นต้น
- RNN แสดงในรูปที่ 4 เหมาะสำหรับข้อมูลต่อเนื่องที่ข้อมูลในแต่ละลำดับมีความสัมพันธ์ ข้อมูลก่อนหน้าจะถูกประมวลด้วยตัวแปรพารามิเตอร์และส่งเปลี่ยนทิศทางกลับไป (recurrent) รวมกับข้อมูลลำดับอื่น ๆได้และจะทำให้ผลลัพธ์ที่มาจากข้อมูลลำดับต่าง ๆ การส่งข้อมูลเก่าย้อนกลับไปเสมือนกับการมีหน่วยจัดเก็บข้อมูลเก่า อย่างไรก็ดี RNN ไม่เหมาะกับข้อมูลขนาวยาวๆ เพราะจะทำเกิดปัญหาที่ Gradient ได้
รูปที่ 4 แบบจำลองของ Recurrent neural network ที่ถูกแผ่ออกมาให้เข้าใจง่าย [4]
- LSTM แสดงในรูปที่ 5 ได้มีการพัฒนาเพื่อแก้ไขปัญหา Gradient ในข้อมูลที่ยาวๆ โดยเพิ่มประตูเปิด/ปิด (Gate) และหน่วยข้อมูลความจำ
รูปที่ 5 เพื่อกำหนดค่าความสำคัญให้แก่กลุ่ม หน่วยข้อมูล คำ ต่าง ๆ ดังนั้นจึงเหมาะกับข้อมูลที่ยาวมาก และมีความสัมพันธ์ของข้อมูลในตำแหน่งที่ห่างกันมากกว่า หรือกำหนดความสัมพันธ์ในภาพรวม ปัจจุบันโมเดลแบบนี้ถูกนำมาใช้กับ ChatGPT ที่กำลังเป็นที่นิยม
4. Transformer จะไม่ได้ใช้การเปลี่ยนทิศทางข้อมูลในลำดับต่าง ๆ แต่จะโดยปกติข้อมูลจะถูกแปลงเป็นกลุ่ม หน่วยข้อมูล คำ (Token) (RNN LSTM ก็มีการแปลงข้อมูลเป็นหน่วยข้อมูลขึ้นกับการใช้งาน) และมีการใช้เทคนิค Self-attention แสดงในรูปที่ 5 เพื่อกำหนดค่าความสำคัญให้แก่กลุ่ม หน่วยข้อมูล คำ ต่าง ๆ ดังนั้นจึงเหมาะกับข้อมูลที่ยาวมาก และมีความสัมพันธ์ของข้อมูลในตำแหน่งที่ห่างกันมากกว่า หรือกำหนดความสัมพันธ์ในภาพรวม ปัจจุบันโมเดลแบบนี้ถูกนำมาใช้กับ ChatGPT ที่กำลังเป็นที่นิยม
รูปที่ 6 การแยกข้อมูลแบบข้อความ “I kicked the ball” ออกเป็นหน่วยและเชื่อมความสัมพันธ์ระหว่างหน่วยในภาพรวม [4]
การอ้างอิงบทความ
- [1] Hemant Sharma, “What is Data Science? A Beginner’s Guide To Data Science.” edureka.co. https://www.edureka.co/blog/what-is-data-science (accessed April 23, 2023).
- [2] Microsoft, “2022 Gartner® Magic Quadrant™ for Analytics and Business Intelligence Platforms.” microsoft.com. https://info.microsoft.com/ww-landing-2022-gartner-mq-report-on-bi-and-analytics-platforms.html?LCID=EN-US (accessed April 23, 2023).
- [3] NICK HOTZ, “What is CRISP DM?.” datascience-pm.com. https://www.datascience-pm.com/crisp-dm-2 (accessed April 23, 2023).
- [4] Giuliano Giacaglia, “How Transformers Work.” towardsdatascience.com. https://towardsdatascience.com/transformers-141e32e69591 (accessed April 23, 2023).