Hồ dữ liệu cho ngân hàng số

(Taichinhcongnghe.vn) Ngân hàng số là một hình thức ngân hàng số hóa tất cả những hoạt động và dịch vụ ngân hàng truyền thống. Nghiên cứu thị trường cho thấy, ngân hàng số đã bước sang giai đoạn sử dụng dữ liệu với bất kể cấu trúc nào cho dù tốc độ tăng trưởng hay sự đa dạng của dữ liệu ngày càng lớn.

Tóm tắt: Ngân hàng số là một hình thức ngân hàng số hóa tất cả những hoạt động và dịch vụ ngân hàng truyền thống. Nghiên cứu thị trường cho thấy, ngân hàng số đã bước sang giai đoạn sử dụng dữ liệu với bất kể cấu trúc nào cho dù tốc độ tăng trưởng hay sự đa dạng của dữ liệu ngày càng lớn. Điều này đặt ra thách thức là làm thế nào để tích hợp, truy cập, khai thác khối dữ liệu đó một cách hiệu quả và hồ dữ liệu chính là giải pháp. Bài viết tập trung nghiên cứu về sự cần thiết của hồ dữ liệu cho ngân hàng số và quy trình triển khai hồ dữ liệu cho ngân hàng số. Cuối cùng là trình bày kiến trúc hồ dữ liệu cho ngân hàng số. 
 
Từ khóa: Ngân hàng số, hồ dữ liệu, kho dữ liệu, dữ liệu lớn.
 
Data Lakes for Digital Banks
 
Abstract: Digital banking is a form of banking which digitizes all of the traditional banking operations and services. Market research has shown that digital banks have entered the stage of using data regardless of its structure despite the rising growth rate and data diversity. This is a challenge for efficient integration, accession, and mining blocks of data and the data lake is a solution for this problem. The article focuses on analyzing the necessity of data lake to digital banks and the process in which the data lake is implemented. After that, the data lake architecture is presented for digital banking.
 
Keywords: Digital banking, data lake, data warehouse, big data.
 
1. Thực trạng ngân hàng số trên thế giới và ở Việt Nam
 
Thị trường ngân hàng số dự kiến ​​sẽ tăng trưởng với tốc độ kép hằng năm CAGR (Compounded Annual Growth Rate) là 11,2% trong giai đoạn 2021 - 2026. Sự chuyển đổi kỹ thuật số đang phát triển nhanh chóng trong lĩnh vực ngân hàng, đặc biệt thị trường ngân hàng số đang đạt được sức hút do các tổ chức tài chính ngày càng áp dụng các giải pháp dựa trên công nghệ điện toán đám mây và sự gia tăng của điện thoại thông minh dự kiến ​​sẽ thúc đẩy sự tăng trưởng chung của thị trường ngân hàng số (Research And Markets, 2022).
 
Phần lớn các ngân hàng muốn triển khai ngân hàng số bởi một số lợi ích như: Giảm chi phí cơ sở hạ tầng công nghệ thông tin, thời gian đưa ra thị trường nhanh chóng, ngân hàng mở, khả năng cấu hình sẵn có, trải nghiệm khách hàng đa kênh và dịch vụ vi mô (Microservices). Tháng 4 năm 2020, ngân hàng Brattleboro Savings & Loan (Hoa Kỳ) đã chọn nền tảng số NCR Digital Banking để cung cấp cho khách hàng và doanh nghiệp trải nghiệm ngân hàng số vượt trội. Bắc Mỹ có nhiều ngân hàng lớn nhất, đây là nhân tố chính thúc đẩy thị trường cho các nền tảng ngân hàng số. Hệ thống ngân hàng lõi (Core Banking) giúp các ngân hàng số mới của Hoa Kỳ hoạt động hiệu quả với việc cung cấp dịch vụ ngân hàng số tiên tiến nhất về mặt chức năng và công nghệ tiên tiến nhất.
 
Tại một số quốc gia khu vực châu Á - Thái Bình Dương (APAC) đã chứng kiến ​​sự gia tăng số lượng các công ty khởi nghiệp Fintech, để bắt kịp với tốc độ phát triển nhanh chóng này, các ngân hàng truyền thống đang tiến hành các dự án chuyển đổi số. Thị trường khổng lồ chưa được khai thác cho ngành Ngân hàng ở Ấn Độ, Trung Quốc, Bangladesh và một số quốc gia khác của APAC là động lực thúc đẩy sự phát triển của các ngân hàng trong khu vực. Điều này thúc đẩy các ngân hàng áp dụng các chiến lược để số hóa các dịch vụ của họ. Với sự gia tăng số lượng người dùng thiết bị di động, cũng như sự gia tăng sử dụng các công nghệ ngân hàng số và thương mại trực tuyến sẽ thúc đẩy sự phát triển của thị trường ngân hàng số trong khu vực.
 
Tại Việt Nam, các ngân hàng thương mại đã tích cực, chủ động triển khai chuyển đổi số và coi đó là xu hướng không thể đảo ngược. Theo khảo sát của Vụ Thanh toán - Ngân hàng Nhà nước năm 2021, 95% các ngân hàng ở Việt Nam đã hoặc đang thực hiện chuyển đổi số, số chưa tính đến khả năng này chỉ chiếm tỷ lệ nhỏ 5%. Việt Nam hiện có khoảng 30 triệu người sử dụng hệ thống thanh toán ngân hàng qua Internet mỗi ngày. Tốc độ tăng trưởng về lượng giao dịch trên Mobile Banking tại Việt Nam là 200%. Giá trị giao dịch tiền với riêng kênh điện thoại di động hiện đạt khoảng 300 nghìn tỷ đồng/ngày (Lê Thị Thúy Hằng và Hà Quỳnh Mai, 2022).
 
Mặc dù các ngân hàng số hay ngân hàng thế hệ mới (Neobank) vẫn là một thị trường hẹp, nhưng với ​​tốc độ tăng trưởng cao hơn về thị phần và phục vụ khách hàng với chi phí chỉ bằng khoảng 1/3 so với các ngân hàng truyền thống nên tốc độ phát triển ngân hàng số dự báo vẫn tăng cao trong thời gian tới. Hơn thế nữa do hậu quả của đại dịch Covid-19, nên gia tăng các hoạt động giao dịch số của các ngân hàng và sụt giảm sự di chuyển của khách hàng đến các chi nhánh truyền thống. Đại dịch hiện tại đã buộc khách hàng cá nhân cũng như các doanh nghiệp từng không thích ngân hàng trực tuyến thì giờ đây phải sử dụng các ứng dụng ngân hàng số như là nhu cầu thiết yếu. 
 
2. Sự cần thiết của hồ dữ liệu cho ngân hàng số
 
Ngân hàng số cung cấp dịch vụ đơn giản, tinh gọn cho người dùng và ngày càng trở nên phổ biến do khả năng hiểu khách hàng tốt hơn cũng như cung cấp trải nghiệm ngân hàng tuyệt vời cho họ. Việc hiểu được khách hàng thông qua phân tích dữ liệu còn cho phép ngân hàng số có thể thực hiện điều mà ngân hàng truyền thống gần như không thể làm được: Cá nhân hóa sản phẩm đến từng khách hàng. Tại các ngân hàng Việt Nam, việc phê duyệt nhanh hạn mức thẻ tín dụng đã dần trở nên phổ biến, thậm chí một số ngân hàng đã triển khai cấp khoản vay cực nhanh. Ví dụ như VPBank cho vay mua ô tô “siêu tốc” chỉ trong vòng 05 phút mà không cần chứng minh thu nhập bởi ngân hàng đã nghiên cứu kỹ hồ sơ khách hàng và hành vi chi trả của khách hàng trong quá khứ, cũng như thiết lập quy trình đánh giá phù hợp (Tùng Lâm, 2021).
 
Tuy nhiên, khi phải đối mặt với khối lượng dữ liệu khổng lồ có thể đến từ các nguồn như hồ sơ dữ liệu khách hàng, hoặc từ các giao dịch thẻ tín dụng đến các hành vi tìm kiếm trực tuyến... cùng với đó là sự đa dạng về chủng loại: Dữ liệu có cấu trúc, phi cấu trúc, bán cấu trúc như văn bản, hình ảnh, video...khiến cho cách thức lưu trữ tại các cơ sở dữ liệu truyền thống như kho dữ liệu không đáp ứng được. Vì vậy, ngoài kho dữ liệu để lưu trữ dữ liệu có cấu trúc và dữ liệu đã được chuyển đổi, các ngân hàng số cần triển khai hồ dữ liệu để quản lý dữ liệu phi cấu trúc và dữ liệu thô ở tất cả các định dạng.
 
Hồ dữ liệu là khái niệm được đưa ra đầu tiên vào năm 2010 bởi James Dixon - CTO của Penthao (James Dixon, 2010). James Dixon dự đoán rằng, các hồ dữ liệu sẽ là nơi lưu trữ dữ liệu thô khổng lồ, có cấu trúc hoặc không có cấu trúc, mà người dùng có thể sử dụng cho các mục đích lấy mẫu, khai thác hoặc phân tích trong các nghiệp vụ cụ thể. Sau đó đến năm 2014, Gartner đưa ra ý tưởng về một hồ dữ liệu không gì khác hơn là một kho lưu trữ dữ liệu hiện đại với chi phí thấp. Điểm này đã được sửa đổi một vài năm sau đó, dựa trên thực tế rằng các hồ dữ liệu hiện được coi là quan trọng trong nhiều doanh nghiệp. Hiện nay Gartner đã nhận thấy tầm quan trọng của mô hình hồ dữ liệu trong việc phân tích phát hiện ra giá trị mới đang tiềm ẩn trong khối dữ liệu khổng lồ của tổ chức.
 
Một số đặc điểm quan trọng của hồ dữ liệu
 
Dữ liệu được lưu trữ tại kho lưu trữ được chia sẻ duy nhất trong Hệ thống tệp phân tán. Hệ thống này cho phép theo dõi các thay đổi trên dữ liệu trong suốt vòng đời dữ liệu, đây là một chức năng hữu ích cho mục đích tuân thủ và kiểm toán nội bộ.
 
Khả năng điều phối và lập lịch công việc của hồ dữ liệu cho phép quản lý tài nguyên, đồng thời cung cấp nền tảng để quản trị dữ liệu, bảo mật dữ liệu và hoạt động nhất quán trên các cụm dữ liệu. Do đó, các tiến trình phân tích có thể truy cập vào các cụm dữ liệu và tính toán theo yêu cầu.
 
Hồ dữ liệu cho phép chia sẻ dữ liệu chung cho các bên liên quan và mỗi bên làm việc trên hệ thống theo đúng nhu cầu nghiệp vụ của họ.
 
Với các đặc điểm trên thì các lợi ích mà hồ dữ liệu mang lại cho tổ chức là:
 
- Khai thác giá trị từ các kiểu dữ liệu, không giới hạn bất cứ kiểu dữ liệu nào.
 
- Tính linh hoạt của hồ dữ liệu thể hiện ở việc gần như không thực hiện tiền xử lý dữ liệu ban đầu để có thể thích ứng với bất kỳ lược đồ nào và cho phép phân tích các luồng dữ liệu một cách kịp thời.
 
- Lưu trữ bất kỳ loại dữ liệu có cấu trúc và phi cấu trúc nào ở dạng thô ban đầu, có thể là dữ liệu của hệ thống quản trị quan hệ khách hàng hoặc các bài đăng trên mạng xã hội.
 
- Không giới hạn các phương pháp truy vấn dữ liệu, xử lý khắc phục hiện tượng thông tin xuất hiện rời rạc ở các hệ thống khác nhau trong một tổ chức.
 
- Cung cấp quyền truy cập dữ liệu thông qua một chế độ xem dữ liệu thống nhất trên toàn hệ thống của tổ chức.
 
Theo nghiên cứu năm 2020 của tổ chức Outperformer, các ngân hàng tạo ra giá trị kinh doanh thành công từ dữ liệu có hiệu quả tốt hơn các ngân hàng khác. Với khả năng lưu trữ và khai thác dữ liệu hiệu quả thì các tổ chức hoạt động tốt lớn hơn 2,2 lần so với các tổ chức hoạt động kém hơn (Hình 1). Nghiên cứu cũng cho thấy rằng, các ngân hàng triển khai hồ dữ liệu vượt trội hơn các ngân hàng khác khoảng 10% về doanh thu tăng trưởng. 
 
Hình 1: Nghiên cứu về sử dụng dữ liệu


Nguồn: Outperformer (2020)
 
Các ngân hàng trên đã nhanh chóng áp dụng các kỹ thuật học máy với các nguồn dữ liệu mới như tệp nhật ký, dữ liệu click chuột của người dùng trên các phương tiện truyền thông xã hội và dữ liệu từ các thiết bị kết nối Internet được lưu trữ trong hồ dữ liệu. Thành công này giúp ngân hàng quản lý dữ liệu hiệu quả từ giai đoạn thu thập, tổng hợp đến phân tích và báo cáo. Từ đó, các nhà lãnh đạo có thể xác định cơ hội và hành động để phát triển kinh doanh, thu hút và giữ chân khách hàng, thúc đẩy năng suất, chủ động và đưa ra các quyết định sáng suốt. 
 
Như vậy, với sự bùng nổ của Internet, khả năng mở rộng cơ sở hạ tầng dẫn đến lượng dữ liệu trong các tổ chức ngân hàng ngày càng lớn khiến cho việc quản lý dữ liệu gặp nhiều thách thức vì sự đa dạng, tốc độ tăng trưởng nhanh của dữ liệu. Do đó nếu thực hiện chiến lược lấy khách hàng làm trung tâm để tạo ra các nguồn doanh thu mới, thì một số câu hỏi mà ngân hàng cần quan tâm là: Khách hàng mong đợi điều gì ở ngân hàng và họ thích kênh giao dịch nào, tư vấn trực tuyến hay cá nhân... Việc số hóa dữ liệu khách hàng và triển khai hồ dữ liệu là giải pháp tối ưu để đáp ứng nhu cầu quản lý dữ liệu từ khâu thu thập, lưu trữ đến phân tích tại các tổ chức ngân hàng.
 
3. Quy trình triển khai hồ dữ liệu cho ngân hàng số
 
Có nhiều cách để kiến trúc, thiết kế và xây dựng một hồ dữ liệu với các nhà cung cấp khác nhau. Tuy nhiên, cần phải có một cách tiếp cận tỉ mỉ và nhanh chóng để xây dựng một hồ dữ liệu trong thời gian ngắn, với chất lượng dữ liệu tối ưu và chi phí thấp. Quy trình triển khai hồ dữ liệu cho ngân hàng số được đề xuất như sau (Indium Software, 2020):

- Xây dựng kiến trúc nghiệp vụ mô tả việc theo dõi thông tin từ khách hàng/người dùng cuối cho đến nền tảng kỹ thuật số của ngân hàng trên các lớp khác nhau như chức năng, bảo mật, ứng dụng, dữ liệu và cơ sở hạ tầng.
 
- Xây dựng mô hình dữ liệu cho hồ dữ liệu sẽ hỗ trợ báo cáo hoạt động, báo cáo tổng quan cũng như phân tích nâng cao.
 
- Phát triển kiến trúc kỹ thuật của hồ dữ liệu (hoặc nền tảng dữ liệu kết hợp) để thiết lập một khuôn khổ tiêu chuẩn cho việc di chuyển dữ liệu.
 
- Phát triển đưa ra các khung để quản trị dữ liệu, bảo mật, tích hợp, quản lý dữ liệu chủ và siêu dữ liệu.
 
- Xây dựng và triển khai các thành phần như đường ống dữ liệu, cơ sở dữ liệu, thành phần hồ dữ liệu, báo cáo, mô hình phân tích và báo cáo tổng quan.
 
- Vận hành các mô hình phân tích vào các chức năng nghiệp vụ như tiếp thị, thu hút khách hàng, lòng trung thành của khách hàng.
 
Mô hình kiến trúc nghiệp vụ tiêu chuẩn của ngân hàng số
 
Hình 2: Kiến trúc nghiệp vụ tiêu chuẩn của ngân hàng số
 
Nguồn: Indium Software (2020)

Hình 2 minh họa kiến trúc nghiệp vụ tiêu chuẩn của một ngân hàng số. 
 
Kiến trúc trên bao gồm các lớp: Lớp khách hàng; lớp nghiệp vụ; lớp bảo mật; lớp ứng dụng và lớp cơ sở hạ tầng. 
 
- Lớp khách hàng: Bao gồm các kênh tương tác với khách hàng như: Qua điện thoại, email, máy tính, trình duyệt web...
 
- Lớp nghiệp vụ: Bao gồm một số nghiệp vụ như mở tài khoản, quản lý tài khoản, quản lý tài chính, sản phẩm số hóa, nhu cầu khách hàng, dịch vụ thanh toán...
 
- Lớp bảo mật: Bảo mật thông tin người dùng, bảo mật dữ liệu, kiểm toán.
 
- Lớp ứng dụng: Một số ứng dụng lõi như sản phẩm, dịch vụ, kế toán...
 
- Lớp dữ liệu: Quản trị dữ liệu và giao dịch như hệ thống kho dữ liệu, hồ dữ liệu, hệ thống xử lý giao dịch trực tuyến...
 
- Lớp cơ sở hạ tầng: Gồm máy chủ và kho lưu trữ, các cổng giao tiếp...
 
Ngoài ra có một số hệ thống bên ngoài như: Hệ thống phát hiện nguy cơ gian lận, hệ thống mạng xã hội truyền thông, hệ thống tiếp thị điện tử...
 
Mô hình dữ liệu khái niệm của hồ dữ liệu cho ngân hàng kỹ thuật số
 
Hình 3: Mô hình dữ liệu khái niệm


 Nguồn: Indium Software (2020)

Hình 3 minh họa mô hình dữ liệu khái niệm (Conceptual data model) của hồ dữ liệu cho ngân hàng số, sau đó có thể được tùy chỉnh thêm dựa trên nhu cầu của khách hàng.
 
Mô hình dữ liệu khái niệm là mô hình xác định những gì mà hệ thống có thể lưu trữ theo khía cạnh nghiệp vụ của tổ chức ngân hàng. Cụ thể ở đây có thể bao gồm: Dữ liệu về thị trường, sản phẩm, rủi ro, tài khoản, chiến dịch quảng cáo, giao dịch, khách hàng, dịch vụ chăm sóc khách hàng, nguồn nhân lực...
 
Kiến trúc kỹ thuật của hồ dữ liệu cho ngân hàng kỹ thuật số
 
Hình 4: Kiến trúc kỹ thuật của hồ dữ liệu cho ngân hàng số


Nguồn: Indium Software (2020)

 
Hình 4 minh họa kiến trúc kỹ thuật tham chiếu của hồ dữ liệu cho ngân hàng kỹ thuật số, sau đó có thể được tùy chỉnh thêm dựa trên nhu cầu của khách hàng:
 
Kiến trúc chung của hồ dữ liệu cho ngân hàng số gồm 3 lớp: Lớp nhập và chuyển đổi; lớp lưu trữ và phân tích; lớp ứng dụng.
 
- Lớp nhập và chuyển đổi: Chịu trách nhiệm đưa dữ liệu vào hệ thống hồ dữ liệu từ nhiều nguồn khác nhau. Một trong những tính năng chính của hồ dữ liệu là sự dễ dàng mà bất kỳ loại dữ liệu nào cũng có thể được nhập và tải vào hệ thống. Có thể là dữ liệu có cấu trúc đến từ hệ thống hoạch định tài nguyên doanh nghiệp, hoặc từ hệ thống quản trị mối quan hệ khách hàng hoặc từ các hệ thống nghiệp vụ khác của ngân hàng. Dữ liệu phi cấu trúc hoặc bán cấu trúc có thể đến từ các kênh tương tác trên mạng xã hội hoặc từ website của ngân hàng... Dữ liệu sau đó có thể được chuyển đổi sang lớp lưu trữ bằng một số hoạt động như làm sạch, chuyển đổi định dạng...
 
- Lớp lưu trữ và phân tích: Một hệ thống kho lưu trữ dữ liệu hoạt động (Operational Data Store - ODS) chứa thông tin cập nhật được tích hợp từ các nguồn dữ liệu khác nhau và thường được sử dụng như một nguồn dữ liệu cho kho dữ liệu. Kho dữ liệu và hồ dữ liệu là hai thành phần chính của lớp lưu trữ. Kho dữ liệu là nơi lưu trữ các dữ liệu có cấu trúc còn hồ dữ liệu lưu trữ dữ liệu phi cấu trúc của tổ chức. 
 
- Lớp ứng dụng: Tại đây hệ thống sử dụng các công cụ kinh doanh thông minh và phân tích cơ bản để trực quan hóa, chú thích, lựa chọn và lọc dữ liệu. Ngoài ra một số công cụ phân tích nâng cao cũng được vận hành để phân tích rủi ro, dự đoán nhu cầu của khách hàng, xu hướng marketing phù hợp với từng nhóm đối tượng khách hàng...
 
Tài liệu tham khảo:
 
1. Dixon J, 2010, Pentaho, Hadoop, and Data Lake. https://jamesdixon.wordpress.com/2010/10/14/pentaho-hadoop-and-data-lakes/
2. Indium Software, 2020, Data Lakes for Digital Banks, ©Indium Software.
3. Institute of Outperformers, The relationship between Data Transformation and banking, 2020, Innovation An Outperformer Study Publication.
4. Geoffrey Keating, 2021, Data Lakes: What they are and why companies use them, https://segment.com/blog/data-lakes/
5. Marketsandmarkets, 2016, Data lakes market by software. 
6. https://www.marketsandmarkets.com/Market-Reports/data-lakes-market
7. Research And Markets, 2022, Digital Banking Platform Market - Growth, Trends, Covid-19 Impact, and Forecasts (2022 - 2027), https://www.researchandmarkets.com/reports/5239335/digital-banking-platform-market-growth-trends#rela1-4807832
8. Lê Thị Thúy Hằng và Hà Quỳnh Mai, 2022, Tạp chí Tài chính, Thực trạng phát triển ngân hàng số ở Việt Nam.
9. Nguyễn Văn Hiệu, 2021, Tạp chí Ngân hàng, Phát triển ngân hàng số ở Việt Nam - Bức tranh hiện tại và triển vọng.
10. Tùng Lâm, 2021, Tạp chí điện tử Đầu tư Tài chính, Ngân hàng số (kỳ 4): Mấu chốt là nhận diện “chân dung” từng khách hàng.

ThS. Ngô Thùy Linh
Học viện Ngân hàng