Khi Google Analytics 4 (GA4) được ra mắt và người dùng chuyển sang sử dụng nền tảng này, rất nhiều người đã gặp phải cảnh báo về “Ngưỡng đã được áp dụng” (Thresholding applied) trong các báo cáo của mình. Vậy tại sao lại xảy ra tình trạng này? Có giải pháp nào để giải quyết cảnh báo này của GA4 hay không? Trong bài viết này, SE Education sẽ giải thích chi tiết về ngưỡng dữ liệu và làm thế nào để tránh cảnh báo này xuất hiện.
Nguyên nhân Ngưỡng dữ liệu xuất hiện
Thresholds hay Ngưỡng trong Google Analytics 4 được tạo ra bởi tính năng gọi là Google Signals. Tính năng này cho phép theo dõi người dùng trên các thiết bị và nền tảng khác nhau và retargeting. Khi kích hoạt, Google Signals thu thập dữ liệu từ người dùng đã đăng nhập vào tài khoản Google và kích hoạt tính năng này trong mục cài đặt Tài khoản Google của họ. Những dữ liệu về nhân khẩu học như: độ tuổi, giới tính và các đặc điểm khác nhau của khách hàng đã truy cập vào website sẽ được thu thập.
Nếu Google Signals hoạt động, GA4 sẽ thu thập nhiều dữ liệu hơn và mở khóa một số tính năng cụ thể như:
- Cho phép cập nhật dữ liệu nhân khẩu học vào GA4
- Sử dụng đối tượng Google Analytics làm đối tượng để tiếp thị lại (remarketing) trong các quảng cáo Google Ads (do đó, bạn có thể hiển thị nhiều quảng cáo mục tiêu hơn cho khách hàng của mình).
Tác động của Ngưỡng dữ liệu trong GA4
Theo thông báo chính thức, họ nói rằng điều này nhằm ngăn (người dùng GA) nhận diện cá nhân người dùng dựa trên dữ liệu mà Google Signals thêm vào báo cáo (ví dụ: tuổi, giới tính, v.v.). Tuy nhiên, vô hình chung, ngưỡng dữ liệu đã gây ra những tác động đến doanh nghiệp như:
- Tác động đến quá trình phân tích: Khi ngưỡng dữ liệu được áp dụng, các báo của của Google Analystic có thể sẽ không hiển thị những thông số chi tiết hoặc có giá trị thấp. Điều này ảnh hưởng đến khả năng phân tích cũng như thấu hiểu hành vi người dùng của doanh nghiệp. Dữ liệu truy cập vẫn được lưu trữ nhưng không hiển thị trong báo cáo. Do đó, quá trình phân tích dữ liệu sẽ trở nên hạn chế.
- Ảnh hưởng đến độ chính xác của dữ liệu: Việc áp dụng ngưỡng dữ liệu có thể ảnh hưởng đến độ chính xác của dữ liệu trong GA4. Khi dữ liệu không đạt đủ ngưỡng, GA4 sẽ không hiển thị thông tin cụ thể và thay vào đó, sử dụng các giá trị tổng quát hoặc ẩn danh. Điều này có thể làm giảm tính chính xác của dữ liệu và ảnh hưởng đến khả năng đưa ra quyết định dựa trên dữ liệu.
Làm thế nào để tránh ngưỡng dữ liệu trong GA4?
Để tránh xuất hiện ngưỡng dữ liệu trong GA4, bạn có thể tắt Google Signals. Tuy nhiên, việc tắt tính năng này sẽ làm giảm khả năng thu thập thông tin chi tiết về người dùng và hạn chế khả năng tiếp cận dữ liệu nhân khẩu học.
Trường hợp trước đây bạn đã kích hoạt Google Signals thì việc tắt kích hoạt có gây ảnh hưởng gì nghiêm trọng không? Nó sẽ giúp ích cho dữ liệu trong tương lai. Nếu khoảng thời gian bạn phân tích không còn chứa dữ liệu Signals, ngưỡng dữ liệu sẽ không được áp dụng. Nhưng nếu bạn phân tích các khoảng thời gian dài hơn chứa dữ liệu cũ có Signals, thì hiển nhiên ngưỡng dữ liệu sẽ xuất hiện.
Phải làm gì nếu thấy một cảnh báo về ngưỡng dữ liệu?
Một phương pháp tạm thời sẽ giúp bạn tắt chức năng ngưỡng dữ liệu là thay đổi Thông tin nhận dạng của báo cáo mặc định (Default reporting identity). Nhưng có một lưu ý như sau:
Thông tin nhận dạng trong báo cáo mặc định là một tính năng ảnh hưởng đến cách Google Analytics đo lường số lượng người dùng truy cập vào trang web/ứng dụng của bạn. Bạn có thể thay đổi nó bằng cách vào Trình quản lý > Thông tin nhận dạng trong báo cáo (Admin > Reporting Identity).

Cảnh báo ngưỡng dữ liệu khi bạn bật Google Signals
Ở đây, bạn sẽ thấy hai tùy chọn (nhưng trên thực tế là ba). Nhấp vào Hiển thị tất cả (Show All).

Thay đổi báo cáo định danh để tránh ngưỡng dữ liệu
- Báo cáo dựa trên thiết bị (Device-based) là phương pháp cơ bản nhất. Nó chỉ sử dụng ID thiết bị (còn được gọi là cookie bên thứ nhất). Nếu một người dùng sử dụng nhiều trình duyệt hay thiết bị khác nhau, Google Analytics sẽ coi đó là nhiều người dùng riêng biệt.
- Quan sát (Observed) là một tùy chọn nâng cao vì GA sẽ sử dụng dữ liệu cookie, dữ liệu Google Signals (nếu bạn đã kích hoạt) và User ID (Nếu bạn đang theo dõi). Những thông tin như User ID hoặc dữ liệu Google Signals có thể giúp GA loại bỏ bớt những người dùng trùng lặp và hiểu rằng một người sử dụng nhiều thiết bị vẫn có thể là cùng một người.
- Kết hợp (Blended) bao gồm tất cả các phương pháp nhận dạng trước đó và sử dụng phương pháp máy học (machine learning) để điền vào các khoảng trống và dữ liệu mô hình. Bạn cần triển khai chế độ đồng ý của Google (Google consent mode) để mở khóa tính năng này.
Nếu bạn sử dụng báo cáo định danh Quan sát hoặc Kết hợp & cho phép thu thập dữ liệu từ Google Signals, thì ngưỡng dữ liệu sẽ được áp dụng. Nếu bạn chuyển sang Báo cáo dựa trên thiết bị, thì Google Signals sẽ không sử dụng để tính toán người dùng. Từ đó, ngưỡng dữ liệu sẽ biến mất.
Ưu điểm của chức năng báo cáo danh tính là bạn có thể chuyển đổi/thay đổi nó nhiều lần và bất cứ khi nào bạn muốn. Dữ liệu được lưu trữ trong cơ sở dữ liệu của GA sẽ không bị ảnh hưởng và thông tin nhận dạng trong báo cáo cũng được áp dụng ngược trở lại.
Vì vậy, trong hầu hết các trường hợp, bạn có thể tiếp tục sử dụng thông tin nhận dạng Quan sát nếu bạn tò mò về các số liệu nhỏ. Bạn có thể nhanh chóng chuyển đổi giữa thông tin nhận dạng Dựa trên thiết bị và Quan sát.
Khi bạn sử dụng thông tin nhận dạng Dựa trên thiết bị, các yếu tố như User ID sẽ không được tính vào báo cáo của bạn, do đó số lượng người dùng sẽ ít chính xác hơn.
Thông tin nhận dạng trong báo cáo không ảnh hưởng đến việc thu thập dữ liệu. Vì vậy, nếu bạn chuyển sang thông tin nhận dạng Dựa trên thiết bị (trong khi GA4 của bạn đang thu thập User ID), tất cả dữ liệu sẽ được thu thập. Nhưng nó sẽ không được sử dụng trong việc tính toán người dùng cho đến khi bạn chuyển lại thông tin nhận dạng Quan sát hoặc Kết hợp.
Đôi khi, vẫn có lỗi xảy ra
Đôi khi ngưỡng dữ liệu. Trong những trường hợp như vậy, bạn có thể thử tổ hợp phím CTRL + F5 trên Windows để thử lại. Nếu vẫn không hoạt động, có thể bỏ qua cảnh báo vì báo cáo bắt đầu hiển thị các hàng có số lượng nhỏ.
Dựa trên những gì SE Education quan sát thì các hàng có số lượng nhỏ (ít nhất là trong báo cáo về thu thập lưu lượng) thường chiếm dưới 5% tổng lưu lượng. Vì vậy, điều này không ảnh hưởng lớn đến độ chính xác dữ liệu vì GA4 sau đó sẽ cố gắng điền vào một số khoảng trống bằng dữ liệu mô phỏng hoặc user-id/Google Signals.
Tuy nhiên, cũng có thể có những tình huống có tác động lớn hơn. Ví dụ, các trang web nhỏ (chỉ nhận vài trăm lượt truy cập mỗi ngày/mỗi tuần) có thể đối mặt với thách thức lớn hơn. Hãy tưởng tượng rằng bạn không thể thấy một nửa số sự kiện trong các báo cáo vì chúng không nhiều. Lúc đó, bạn sẽ buộc phải sử dụng thông tin nhận dạng của báo cáo Dựa trên thiết bị. Vì vậy, bạn nên thường xuyên chuyển đổi giữa các cài đặt thông tin nhận dạng của báo cáo để kiểm tra dữ liệu một cách khách quan.
Kết luận
Ngưỡng dữ liệu trong Google Analytics 4 không không phải là việc lấy mẫu, đó là hai khái niệm khác nhau. Ngưỡng dữ liệu được áp dụng khi GA4 của bạn đáp ứng tất cả các điều kiện sau đây:
- Bạn đã thu thập một số dữ liệu thông qua Google Signals (bằng cách bật chúng tại một thời điểm nào đó)
- Thông tin nhận dạng trong báo cáo của bạn là Kết hợp hoặc Quan sát
- Báo cáo (mà bạn đang xem) chứa các hàng với số người dùng/sự kiện/phiên nhỏ (tôi không biết số chính xác, nhưng tôi nghĩ nó nên là 50 hoặc ít hơn)
- Trong trường hợp đó, các hàng với số nhỏ sẽ được ẩn và không hiển thị trong báo cáo (mặc dù dữ liệu đó vẫn có sẵn ở một nơi nào đó trong nền tảng).
Để tránh ngưỡng dữ liệu trong tương lai, đừng kích hoạt Google Signals (Nếu bạn không dự định sử dụng các tính năng remarketing hoặc báo cáo nhân khẩu học trong GA4). Nếu bạn đã làm điều đó, bạn có thể thay đổi thông tin nhận dạng trong báo cáo thành Dựa trên thiết bị bất cứ khi nào bạn muốn và bạn có quyền chuyển đổi tùy theo nhu cầu thu thập dữ liệu của mình. Thiết lập này không ảnh hưởng đến dữ liệu bạn đã thu thập, nó ảnh hưởng đến cách số liệu được tính toán.