1. Chuyện gì đã xảy ra?
Theo báo cáo của Trung tâm Nghiên cứu Pew (Pew Research Center) công bố ngày 17/05/2024, tỷ lệ nội dung trên Internet bị xóa sổ sau 10 năm đã gia tăng đáng kể. Cụ thể, 38% trang web tồn tại vào năm 2013 hiện nay đã không còn truy cập được nữa.
Đáng chú ý, tại thời điểm nghiên cứu này được thực hiện (tháng 10/2023), 8% trong số các đường link trên là nội dung đăng tải vào đầu năm 2023. Như vậy có nghĩa chỉ trong chưa đầy một năm, những nội dung trên đã “bay màu” khỏi internet. Điều này dẫn đến sự ra đời của một thuật ngữ mới là “digital decay”, mô tả tình trạng các trang web và nội dung trực tuyến biến mất dần theo thời gian.
2. Những kiểu dữ liệu nào “bay màu” nhiều nhất?
Nghiên cứu của Pew xác định trang web không còn khả dụng (inaccessible) là các trang không còn tồn tại trên máy chủ (internet hosting service) của nó, hoặc bản thân máy chủ không còn tồn tại. Khi vào đường link dẫn tới các trang web này, bạn sẽ nhận thông báo “404 Not Found”. Theo kết quả nghiên cứu, các trang web biến mất nhiều nhất bao gồm:
Các trang tin tức: PRC đã thu thập dữ liệu từ 500,000 đường link của 2000 trang tin tức khác nhau, bao gồm cả trang web của các đài truyền hình. Kết quả cho thấy, hơn 23% trong số này có ít nhất 1 đường link bị gãy.
Các trang chính phủ: Hơn 21% trang web của các chính phủ cũng gặp tình trạng này. Hiện tượng xảy ra phổ biến ở các trang web cấp địa phương (như cấp huyện). Hầu hết các trường hợp gãy link xảy ra trên các trang có độ bảo mật nhất định (như https://). Có 6% link gãy liên quan đến các tệp pdf, và 16% link chuyển hướng tới các trang khác với nội dung ban đầu.
Các trang cộng đồng (như Wikipedia, Reddit): Hơn 54% trong số 50,000 trang Wikipedia tiếng Anh được Pew thu thập có link gãy ở phần Tham khảo (References).
Mạng xã hội: Hơn 5 triệu dòng tweet đăng tải trên X trong tháng 3 & 4/2023 không còn truy cập được trong tháng 6 cùng năm. Phần lớn trong số này là tweet từ các tài khoản chưa được xác nhận, hoặc tweet viết bằng một số ngôn ngữ như tiếng Ả Rập, tiếng Thổ Nhĩ Kỳ.
3. Vì đâu mà dữ liệu trên internet lại “bay màu”?
Theo Koality, một nguyên nhân phổ biến khiến trang web “gãy link” là do nó không còn tồn tại trên máy chủ (host server). Điều này xảy ra do bản thân người đăng tải xóa bỏ hoặc thay đổi quyền truy cập nó, chẳng hạn các nội dung trên mạng xã hội. Một số trang tin cũng xóa bớt hoặc lưu trữ các tin tức đã cũ, để tiết kiệm dung lượng cho các tin mới hơn.
Web “gãy link” còn do các vấn đề kỹ thuật, chẳng hạn công nghệ lỗi thời, không được cập nhật thường xuyên. Cụ thể, một số trang web được lập trình bằng các ngôn ngữ đã cũ, hoặc không được hỗ trợ các plugin để bổ sung các tính năng mới. Điều này cũng xảy ra với các file đính kèm được mã hóa ở những định dạng cũ, mà các ngôn ngữ lập trình hiện đại không đọc được.
Cuối cùng, nội dung đăng tải sẽ biến mất khi chính máy chủ của trang web đó không còn tồn tại. Ví dụ điển hình là trang web của một công ty đã phá sản, không có ai tiếp tục trả phí duy trì.
4. Điều này ảnh hưởng thế nào đến người dùng internet?
Bạn vào mục Đánh dấu (bookmark) trong trình duyệt để tìm một trang web có thông tin quan trọng bạn cần đọc. Nhưng khi mở ra, bạn chỉ thấy vỏn vẹn dòng chữ “404 Not Found”. Nếu từng gặp cảnh éo le này, bạn đã là “nạn nhân” của digital decay.
Chúng ta vẫn thường “bookmark” các trang có thông tin quan trọng, hữu ích nhưng không cấp bách (chẳng hạn bí quyết xin học bổng, mẹo vặt trong cuộc sống…) với tâm thế để lúc nào cần thì truy cập lại. Nhưng đáng tiếc rằng, đến lúc ta cần thì chúng không còn ở đó nữa.
Bên cạnh đó, nếu là digital nomad hoặc làm công việc viết nội dung cho các nền tảng trực tuyến, bạn có thể phải tìm cách lưu trữ chất xám của mình bên ngoài trang web đăng tải. Bởi nếu công ty phá sản hoặc thay đổi trang web, thì các bài viết của bạn cũng dễ “bay màu” theo luôn. Đây sẽ là vấn đề lớn nếu bạn cần đưa chúng vào portfolio phục vụ cho công việc của mình.
5. Có cách nào bảo tồn được dữ liệu trên internet không?
Hiện nay có các thư viện số (internet archive sites) chuyên thu thập thông tin từ hàng loạt trang web để phục vụ mục đích duy trì, giúp các nhà sử học, nhà nghiên cứu và công chúng tra cứu trong tương lai.
Thư viện số lớn nhất phải kể đến Wayback Machine của Internet Archive, hiện đã lưu trữ hơn 850 tỷ trang web cùng hàng loạt file âm thanh, hình ảnh và tư liệu kỹ thuật số. Bằng cách gõ đường link vào thanh tìm kiếm của Wayback Machine, bạn có thể tìm thấy các phiên bản cũ của một trang web bất kỳ, hoặc xem lại một trang web đã “chết”.
Bên cạnh đó, các trang Google Cache, WebCite hay Memento Time Travel cũng mang lại những dịch vụ tương tự bằng cách sử dụng bộ nhớ đệm (cache). Dù vậy, hầu hết các trang này chỉ lưu trữ một phần thay vì toàn bộ trang web đã gãy link. Vì vậy bạn chưa chắc đã tìm lại được thông tin cần thiết, đặc biệt với các trang web không viết bằng tiếng Anh.
Tin tốt là lưu trữ kỹ thuật số (digital preservation) là khía cạnh đang được chú ý nhiều hơn trong lĩnh vực an ninh mạng và quản lý thông tin. Do đó trong tương lai, chúng ta có thể kỳ vọng vào một quá trình tra cứu thông tin cũ thuận lợi hơn, dù digital decay có xảy ra.