Tháng 11 chào đón sự xuất hiện của một thuật toán mới của Google với tên gọi BERT. Đây là một trong những thông tin khiến cả cộng động SEO trên thế giới lẫn tại Việt Nam đều phải quan tâm.
Những thống kê gần đây về sự thay đổi thứ hạng từ khoá mà rất nhiều SEOer đã gặp có phải do thuật toán này gây ra?
Thuật toán BERT là gì? Và có ảnh hưởng như thế nào tới việc tìm kiếm thông tin cũng như xếp hạng website? Hãy cùng seolalen tìm hiểu trong bài viết dưới đây!
Tổng quan về BERT
Đợt cập nhật thuật toán mới nhất của Google mang tên BERT, được thông báo là giúp Google hiểu ngôn ngữ tự nhiên của con người tốt hơn, cụ thể là đối với các truy vấn tìm kiếm dạng “văn nói” (câu dài, tự nhiên).
BERT sẽ tác động tới khoảng 10% số lượng truy vấn. Nó cũng sẽ ảnh hưởng tới thứ hạng từ khoá cũng như hiển thị feature snippet.
Chính vì vậy BERT sẽ gây ra một sự thay đổi không hề nhỏ chút nào!
Nhưng bạn có biết rằng BERT thực sự không chỉ là một cập nhật thuật toán thông thường của Google mà còn là khung xử lý ngôn ngữ tự nhiên-là một tính năng của “cỗ máy tự học” của Google.
Vậy BERT là gì? Cách thức hoạt động của thuật toán này ra sao?
Thuật toán BERT là gì?
BERT là viết tắt của cụm từ Bidirectional Encoder Representations from Transformers.
Nó được biết đến phổ biến hơn như là thành phần/công cụ/khung xử lý dữ liệu có tên là Google BERT. Vai trò của nó là giúp công cụ tìm kiếm hiểu tốt hơn sắc thái và ngữ nghĩa của các từ trong tìm kiếm. Từ đó kết nối tới các truy vấn phù hợp hơn và đưa ra những kết quả chính xác hơn.
BERT đã là một dự án nghiên cứu mã nguồn mở được xuất bản lần đầu tiên vào tháng 11 năm 2018 với tên gọi: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.
Google BERT có thể giải quyết được vấn đề gì?
Có rất nhiều thứ mà chỉ có con người mới có thể xử lý một cách dễ dàng, trong khi máy móc thì không thể hiểu bao gồm cả các công cụ tìm kiếm.
Vấn đề về từ ngữ
Đây luôn là một vấn đề mà những công cụ nhân tạo, máy mọc gặp phải. Ngày càng nhiều nội dung được xuất bản trên các website, nền tảng tìm kiếm,…
Hệ thống ngôn ngữ vô cùng đa dạng và thay đổi theo thời gian, văn hoá, đất nước,… Bởi chúng có vô vàn ý nghĩa, từ đồng nghĩa, từ lóng,…
BERT được thiết kế để giúp giải quyết những câu và cụm từ mơ hồ được tạo nên từ rất rất nhiều từ ngữ với nhiều ý nghĩa.
Sự mơ hồ và đa nghĩa
Các hệ ngôn ngữ trên thế giới đều có sự đa dạng từ tiếng Anh, Pháp, Nhật,… đến Việt Nam. Trong đó, tiếng Việt có thể nói là một trong những ngôn ngữ có sự đa dạng và phức tạp nhất.
Đặc biệt trong ngôn ngữ nói thì còn khó khăn hơn bởi những từ đa nghĩa và âm điệu.
Ví dụ: Chiếc bánh này ngon và chiếc xe này ngon!
Nó không gây khó khăn cho con người bởi chúng ta có nhận thức và bối cảnh sử dụng nên có thể hiểu được tất cả những từ ngữ xung quanh đó.
Ngữ cảnh của từ ngữ
Về bản chất, một từ sẽ không có nghĩa trừ khi nó được sử dụng trong một bối cảnh cụ thể.
Ý nghĩa của một từ có thể thay đổi tuỳ theo vị trí và bối cảnh sử dụng trong câu.
Ví dụ: “Hôm nay mặc cái áo màu đen ra ngoài đường xb thật”
Trong câu ví dụ trên, từ “đen” ban đầu mang ý nghĩa chỉ màu sắc, trong khi đó, từ “đen” thứ hai lại mang ý nghĩa là sự không may mắn.
Như vậy hai từ đen có sự thay đổi ý nghĩa bởi những từ ngữ xung quanh đó.
Câu càng dài thì càng khó kiểm soát những cụm từ, phần khác nhau trong một câu, đoạn,…
NLR và NLU (Natural Language Regconition and Natural Laguage Understanding)
Nhận biết ngôn ngữ không có nghĩa là hiểu
Việc hiểu được ngôn ngữ tự nhiên đòi hỏi phải hiểu được bối cảnh sử dụng và những tư duy lập luận của con người.
Đây là điều cực kỳ thử thách với máy mọc nhưng lại dễ dàng đối với con người.
Hiểu ngôn ngữ không phải dữ liệu cấu trúc
Dữ liệu cấu trúc là cách lưu trữ, tổ chức dữ liệu có thứ tự, có hệ thống để dữ liệu có thể được sử dụng một cách hiệu quả.
Tuy nhiên nó không thể xử lý chính xác ý nghĩa của những thông tin chi tiết trong nội dung.
Không phải mọi thứ đều được hệ thống trong Knowledge Graph
Knowledge Graph được biết đến với tên gọi sơ đồ tri thức của Google. Nó lưu trữ vô số những thông tin, dữ liệu về sự vật, con người, sự kiện,… và kết nối nhữn dữ kiện đó lại trong theo một bản đồ phức tạp.
Tuy nhiên với lượng thông tin khổng lồ của nhân loại thì vẫn còn rất nhiều khoảng trống vẫn chưa được lấp đầy.
BERT sẽ ảnh hưởng như thế nào đến việc tìm kiếm
Giúp Google hiểu tốt hơn về ngôn ngữ của con người
Thuật toán BERT hiểu được các sắc thái nghĩa trong ngôn ngữ sẽ tạo ra một sự thay đổi cực kỳ lớn trong cách Google hiểu và giải thích được ý nghĩa của các truy vấn để có thể đưa ra kết quả chính xác.
Bởi chúng ta đang tạo ra những truy vấn ngày càng dài, chi tiết hơn.
BERT giúp phổ biến việc tìm kiếm bằng giọng nói
Những cải tiến trong việc am hiểu ngôn ngữ chắc chắn sẽ tạo ra một ảnh hưởng lớn tới tính năng tìm kiếm bằng giọng nói.
Bạn có nên tối ưu theo BERT không?
Câu trả lời: Không!
Google BERT là một framework xử lý thông tin để giúp Google hiểu rõ hơn về ngôn ngữ con người. Nó không phải đánh giá nội dung được đăng lên mà chỉ hiểu rõ hơn những gì đang có.
Ví dụ, Google BERT có thể hiểu rõ hơn và phát hiện ra những trang web tối ưu quá đà và từ đó bị phạt bởi các thuật toán khác như Google Panda bởi BERT có thể nhận ra được một trang nào đó chứa thông tin không liên quan tới một chủ đề, sự kiện mà nó đề cập.
Vậy thì bạn cần làm gì?
Việc tốt nhất mà chúng ta có thể làm đó là thực sự hiểu suy nghĩ của người dùng (con người) và cung cấp nội dung hữu ích.
Nguồn: Search engine Journal