Trong hơn một thập kỷ qua, các tổ chức lớn đã đầu tư đáng kể vào những hệ thống có khả năng thu thập, lưu trữ và phân tích sự kiện an ninh. Giải pháp phổ biến nhất trong nhóm này mang tên SIEM, viết tắt của Security Information and Event Management, trong tiếng Việt có thể dịch là hệ thống quản lý thông tin và sự kiện an ninh. Một hệ thống SIEM đứng ở vị trí trung tâm của bộ máy vận hành an ninh, nhận về nhật ký hoạt động từ tường lửa, máy chủ, máy trạm, hạ tầng đám mây cùng nhiều nguồn khác, rồi thực hiện công việc tương quan sự kiện để dựng lên bức tranh tổng thể về tình trạng an ninh của hệ thống.

Tuy nhiên, thực tế vận hành tại nhiều tổ chức cho thấy một nghịch lý đáng lưu ý. Sau khi được đưa vào sử dụng, SIEM thường trở thành nơi lưu trữ nhật ký có chi phí rất cao nhưng không được khai thác đúng mức. Đội ngũ an ninh chìm trong dòng cảnh báo liên tục, trong đó phần lớn là cảnh báo sai dương tính, tức những cảnh báo được tạo ra bởi hệ thống nhưng thực chất không phản ánh một cuộc tấn công thật. Theo báo cáo AI Agent Trends 2026 do Google Cloud công bố, có đến 82 phần trăm chuyên viên an ninh lo ngại rằng họ có thể bỏ sót một mối đe dọa thật sự giữa khối lượng cảnh báo khổng lồ mà họ phải xử lý hằng ngày.

Hai xu hướng đang phát triển song song đã làm cho câu chuyện trở nên cấp thiết. Thứ nhất, kẻ tấn công đã bắt đầu sử dụng trí tuệ nhân tạo để tự động hóa các giai đoạn của chiến dịch xâm nhập, từ thăm dò đến khai thác và duy trì hiện diện. Thứ hai, phía phòng thủ cũng đã có trong tay những công cụ trí tuệ nhân tạo có khả năng thực thi các hành động phức tạp, có thể gọi chung là Agentic AI, tức trí tuệ nhân tạo dạng tác tử, có khả năng tự lập kế hoạch, tự chọn công cụ và tự điều chỉnh theo dữ liệu mới. Bài luận này đặt ra câu hỏi trung tâm sau: trong điều kiện của năm 2026, khi nào một tổ chức nên đầu tư vào SIEM, làm thế nào để hệ thống đó vận hành hiệu quả, và vai trò của kiến trúc tác tử trong việc bù đắp những giới hạn cố hữu của SIEM truyền thống là gì.

Bản chất và vai trò của hệ thống SIEM

Để hiểu vì sao SIEM trở thành thành tố không thể thiếu trong hạ tầng an ninh mạng hiện đại, cần xuất phát từ đặc điểm căn bản của hạ tầng đó. Trong một tổ chức trung bình, các nguồn sinh ra sự kiện an ninh là rời rạc và phân tán. Tường lửa thế hệ mới, viết tắt là NGFW (Next Generation Firewall), ghi nhận các kết nối mạng bị chặn hoặc được cho phép. Máy chủ ghi nhận hoạt động đăng nhập, quản trị và thay đổi cấu hình. Máy trạm cá nhân ghi nhận các tiến trình được khởi chạy và các tập tin được truy cập. Hạ tầng đám mây, hệ quản trị cơ sở dữ liệu, ứng dụng web, hệ thống ảo hóa và các biện pháp bảo vệ khác, mỗi thành phần đều duy trì một dòng nhật ký riêng.

Điểm mấu chốt là, khi nhìn từng nguồn một cách độc lập, một chuyên viên an ninh không thể nhận diện được một cuộc tấn công phối hợp đi qua nhiều điểm trong hạ tầng. Chẳng hạn, việc kẻ tấn công thử mật khẩu VPN và sau đó vài phút khởi chạy PowerShell trên một máy chủ trong mạng nội bộ, mỗi sự kiện riêng lẻ đều có thể được xem là bình thường, nhưng khi ghép chúng lại trên cùng một trục thời gian thì chuỗi hành vi đó trở nên đáng ngờ. Chính ở đây, SIEM đảm nhận bốn chức năng cốt lõi: tập hợp nhật ký về một nơi duy nhất, chuẩn hóa chúng theo một định dạng chung, tương quan các sự kiện thuộc nhiều nguồn khác nhau theo quy tắc đã được định nghĩa sẵn, và cuối cùng phát đi cảnh báo khi phát hiện các mẫu hành vi đáng ngờ.

1.png

Một điểm cần nhấn mạnh và rất dễ bị hiểu lầm trong thực tiễn là, SIEM không phải là một công cụ ngăn chặn tấn công. Khác với tường lửa hay giải pháp phòng chống mã độc, SIEM chỉ quan sát và phát hiện, chứ không can thiệp trực tiếp vào quá trình diễn biến của một sự cố. Nhiệm vụ ra quyết định cách ly, ngắt phiên, hay chặn địa chỉ IP vẫn thuộc về con người hoặc về các giải pháp hành động tự động được kết nối với SIEM thông qua những lớp trên. Do đó, SIEM tự thân nó không thể tạo ra giá trị phòng thủ nếu không có đội ngũ vận hành đủ năng lực để diễn giải và hành động dựa trên những gì hệ thống phát hiện ra.

Những sai lầm thường gặp khi triển khai

Dù là một giải pháp thành thục, SIEM không mang lại giá trị ngay khi được cài đặt. Giá trị của nó là hàm số của chất lượng triển khai, của sự trưởng thành quy trình, và của năng lực con người vận hành. Theo phân tích của Kurilenko, các tổ chức thường mắc một chuỗi sai lầm có tính hệ thống, mỗi sai lầm đều làm suy giảm đáng kể hiệu quả tổng thể. 

Triển khai trước khi làm chặt hạ tầng

Sai lầm đầu tiên có liên quan đến thứ tự ưu tiên. Nhiều tổ chức vội vàng đưa SIEM vào vận hành trong khi các lớp phòng thủ cơ bản chưa được hoàn thiện. Làm chặt hạ tầng, trong tiếng Anh gọi là hardening, bao gồm các công việc như thiết lập phân đoạn mạng, cấu hình các hệ thống phát hiện và ngăn chặn xâm nhập, triển khai đầy đủ phần mềm chống mã độc, và thực thi quy trình quản lý lỗ hổng. Khi những lớp này chưa hoàn thiện, kẻ tấn công có thể xâm nhập bằng những con đường phổ biến nhất mà không gặp trở ngại đáng kể, và SIEM buộc phải phát cảnh báo cho các cuộc tấn công lẽ ra đã phải bị chặn ngay từ đầu. Kết quả là chuyên viên an ninh bị bận rộn với những sự việc vốn có thể tránh được, còn thời gian dành cho việc phát hiện các mối đe dọa tinh vi hơn thì gần như không còn.

Không phân tích tài sản trước khi thu thập dữ liệu

Sai lầm thứ hai, cũng rất phổ biến, là việc bỏ qua bước phân tích tài sản. Quản lý tài sản, tức là xác định rõ những hệ thống nào là trọng yếu đối với hoạt động của tổ chức, hệ thống nào lưu giữ dữ liệu nhạy cảm, và hệ thống nào cần được giám sát ưu tiên, là tiền đề cho mọi quyết định về phạm vi thu thập. Nếu không có bước này, đội ngũ triển khai sẽ hoặc là thu thập quá ít, dẫn đến những điểm mù trong hạ tầng, hoặc là thu thập quá nhiều, dẫn đến tình trạng tràn ngập dữ liệu không liên quan, làm tăng chi phí lưu trữ và giảm khả năng phát hiện những dấu hiệu thật sự có ý nghĩa.

Gửi nhật ký một cách không chọn lọc

Sai lầm thứ ba là cấu hình các nguồn gửi toàn bộ nhật ký về SIEM mà không có chọn lọc. Ví dụ điển hình là việc kết nối một tường lửa thế hệ mới đến SIEM mà không tinh chỉnh cấp độ ghi nhận sự kiện. Một NGFW vận hành trong môi trường doanh nghiệp thông thường có thể sinh ra hàng triệu sự kiện mỗi ngày, trong đó đại đa số là thông tin kỹ thuật không có giá trị đối với phát hiện tấn công. Khi toàn bộ dòng sự kiện này được đưa về SIEM, không có lượng tài nguyên tính toán hay số lượng giấy phép nào đủ để xử lý hết, và chất lượng tương quan bị giảm xuống đáng kể do nhiễu dữ liệu.

Không xử lý cảnh báo sai dương tính

Ngược lại với tình trạng vừa kể, một số nguồn lại không được cấu hình để gửi đủ những sự kiện quan trọng cho mục đích an ninh. Cả hai thái cực đều dẫn đến cùng một hệ quả: hiệu quả phát hiện suy giảm. Cùng với đó, việc không thiết lập các ngoại lệ hợp lý để loại bỏ cảnh báo sai dương tính làm cho SIEM trở thành một dòng thác cảnh báo không ngớt, và đội ngũ vận hành mất niềm tin vào hệ thống. Khi cảnh báo nào cũng có khả năng sai, chuyên viên sẽ dần bỏ qua chúng một cách có hệ thống, và lúc cảnh báo thật sự quan trọng xuất hiện thì nó cũng bị chìm trong đám đông.

Thiếu quy tắc tương quan và chuyên môn

Cuối cùng, nhiều tổ chức tin rằng họ có thể tự xây dựng các quy tắc tương quan từ đầu, mà không khai thác các gói chuyên môn được nhà cung cấp chuẩn bị sẵn. Các gói này, được gọi là content pack hoặc expertise pack, chứa hàng trăm quy tắc đã được kiểm nghiệm trong các môi trường thực tế và thường cung cấp khoảng 90 phần trăm hiệu quả ban đầu.2 Việc phớt lờ nguồn này với hy vọng rằng một chuyên viên xuất sắc sẽ tự tạo ra toàn bộ kho quy tắc là một đặt cược thiếu thực tế, bởi vì năng lực đó đòi hỏi hàng năm kinh nghiệm và khả năng tiếp cận hàng loạt vụ tấn công thật.

Gap giữa phát hiện và ứng phó

Giả sử một tổ chức đã tránh được mọi sai lầm nêu trên và đã xây dựng được một hệ thống SIEM hoạt động trơn tru. Ngay cả trong điều kiện lý tưởng đó, vẫn tồn tại một khoảng trống căn bản mà các thế hệ công cụ giám sát truyền thống không lấp đầy được. Khoảng trống này nằm giữa thời điểm cảnh báo được phát ra và thời điểm hành động ứng phó được thực hiện một cách dứt khoát.

Quy trình xử lý một sự cố an ninh điển hình trải qua ít nhất năm giai đoạn. Giai đoạn thứ nhất là phát hiện, khi SIEM nhận diện một mẫu hành vi đáng ngờ và phát cảnh báo. Giai đoạn thứ hai là phân loại, khi chuyên viên ca trực đánh giá nhanh mức độ nghiêm trọng của cảnh báo và quyết định xem nó có đáng được điều tra sâu hay không. Giai đoạn thứ ba là điều tra, khi chuyên viên tập hợp thêm bằng chứng từ nhiều nguồn khác nhau để dựng lại diễn biến sự cố. Giai đoạn thứ tư là ứng phó, khi đội ngũ ra quyết định và thực thi các biện pháp ngăn chặn như cách ly máy, khóa tài khoản, hoặc chặn địa chỉ IP. Cuối cùng là giai đoạn khôi phục, khi hệ thống bị ảnh hưởng được đưa trở lại trạng thái hoạt động bình thường và các bài học được rút ra cho tương lai.

2.png

Vấn đề cốt lõi là: trong năm giai đoạn đó, bốn giai đoạn đầu tiên đặt gánh nặng lên vai con người. SIEM có thể tự động hóa việc phát hiện, nhưng các bước sau đó đòi hỏi chuyên viên phải đọc nhật ký, đối chiếu sự kiện, tra cứu cơ sở tri thức về mối đe dọa, rồi đưa ra phán đoán. Trong một trung tâm điều hành an ninh bận rộn, số lượng cảnh báo nhận được hằng ngày có thể lên đến hàng nghìn, trong khi số nhân sự có năng lực điều tra thường chỉ giới hạn ở một vài chuyên viên cao cấp. Hệ quả tự nhiên là phần lớn cảnh báo không được điều tra kỹ, và phần lớn cuộc tấn công tinh vi chỉ được phát hiện sau khi đã gây thiệt hại.

Đây chính là mảnh đất mà kiến trúc tác tử nhắm đến. Nếu có thể giao công việc điều tra lặp lại cho các tác tử trí tuệ nhân tạo, và chỉ để con người tập trung vào các quyết định chiến lược, thì khoảng trống giữa phát hiện và ứng phó có thể được thu hẹp đáng kể. Phần tiếp theo của bài luận sẽ giới thiệu nguyên lý vận hành của loại kiến trúc này.

Kiến trúc tác tử trí tuệ nhân tạo

Trong báo cáo AI Agent Trends 2026, Google Cloud đưa ra một phân biệt mang tính nền tảng giữa hai chế độ tương tác giữa con người và máy tính. Chế độ thứ nhất, được gọi là Instruction-based, tạm dịch là dựa trên chỉ thị, đặc trưng cho cách con người đã làm việc với máy tính trong suốt lịch sử của ngành công nghệ thông tin. Trong chế độ này, người dùng nói với máy một cách tường minh rằng cần thực hiện những bước cụ thể nào, chẳng hạn viết một hàm, gửi một lá thư, hoặc tạo một bản vẽ. Máy thi hành đúng chỉ thị và không tự mở rộng phạm vi hành động. 

Chế độ thứ hai, được gọi là Intent-based, tạm dịch là dựa trên ý định, là đặc trưng dự báo của giai đoạn hiện tại. Trong chế độ này, người dùng không còn mô tả các bước, mà mô tả mục tiêu cần đạt. Một người quản lý có thể giao cho hệ thống nhiệm vụ tổ chức toàn bộ quy trình hoàn trả hàng, hoặc tìm kiếm các lỗ hổng tiềm tàng trong một phiên bản phần mềm chuẩn bị phát hành. Hệ thống tự xây dựng kế hoạch hành động, thường thông qua một chuỗi suy luận gọi là Chain of Thought, tự lựa chọn các công cụ cần dùng và tự điều chỉnh khi gặp trở ngại. Vai trò của con người trong chế độ này là phê duyệt chiến lược và giám sát kết quả, chứ không phải chỉ đạo từng bước thao tác.

Khía cạnh

Chế độ Instruction-based

Chế độ Intent-based

Thông điệp đầu vàoChuỗi các bước cụ thểMục tiêu và ràng buộc
Chủ thể lập kế hoạchCon ngườiTác tử trí tuệ nhân tạo
Chủ thể lựa chọn công cụCon ngườiTác tử trí tuệ nhân tạo
Chủ thể xử lý lỗiCon người, sau khi nhận kết quả saiTác tử, trong vòng lặp tự điều chỉnh
Vai trò của con ngườiNgười chỉ đạo và vận hànhNgười phê duyệt và giám sát
Ví dụ trong an ninh mạng"Chạy kịch bản kiểm tra thủ công""Tìm lỗ hổng trong bản phát hành hôm nay"

Để chuyển từ chế độ thứ nhất sang chế độ thứ hai, cần có một mô hình phần mềm mà Google gọi là tác tử. Một tác tử ở đây là một chương trình được trang bị một mô hình ngôn ngữ lớn làm động cơ suy luận, được kết nối đến các công cụ thông qua giao diện lập trình, và có khả năng duy trì trạng thái qua nhiều bước tương tác. Đặc điểm phân biệt một tác tử với một trợ lý hỏi đáp thông thường là tính chủ động, tức khả năng tự quyết định hành động tiếp theo dựa trên mục tiêu và quan sát, chứ không chỉ phản ứng với lệnh.

Lưu ý: Orchestrator, trong tiếng Việt có thể dịch là bộ điều phối hoặc người điều phối, là vai trò của chủ thể điều phối hoạt động của nhiều tác tử chuyên trách. Chủ thể này có thể là một con người, cũng có thể là một tác tử cấp cao hơn. Trong bối cảnh vận hành an ninh mạng, chuyên viên SOC cao cấp thường đảm nhận vai trò điều phối, trong khi các tác tử chuyên trách phụ trách các tác vụ hẹp như truy vấn nhật ký, đối chiếu chỉ dấu tấn công, hoặc tạo lập báo cáo sự cố.

Dữ liệu khảo sát được trình bày trong báo cáo cho thấy, tại các doanh nghiệp đã triển khai trí tuệ nhân tạo sinh sinh dụng, có 52 phần trăm lãnh đạo công nghệ thông tin đã đưa tác tử vào môi trường sản xuất, và gần một nửa trong số này ứng dụng tác tử cho các lĩnh vực hỗ trợ khách hàng và tiếp thị. Ở lĩnh vực an ninh mạng, con số ứng dụng đạt khoảng 46 phần trăm, đứng thứ hai sau dịch vụ khách hàng. Đây là một tỷ lệ cao bất ngờ đối với một lĩnh vực vốn rất thận trọng trong việc tiếp nhận tự động hóa, và nó phản ánh mức độ cấp thiết của bài toán giảm tải cho đội ngũ vận hành.

Trung tâm Điều hành An ninh bán tự động

Mô hình cụ thể mà báo cáo đề xuất cho lĩnh vực an ninh mang tên Trung tâm Điều hành An ninh bán tự động, trong tiếng Anh gọi là Semi-Autonomous Security Operations Center. Điểm khác biệt căn bản giữa mô hình này và SOC truyền thống nằm ở chỗ phần lớn các nhiệm vụ lặp lại trong vòng đời sự cố được chuyển giao cho các tác tử, trong khi con người chỉ giữ vai trò tại các điểm quyết định mang tính chiến lược.

Kiến trúc của mô hình này bao gồm ít nhất ba tác tử chuyên trách, phối hợp với nhau theo một chu trình khép kín. Tác tử thứ nhất, gọi là Detection Agent, tiếp quản công việc của SIEM ở giai đoạn phát hiện và thực hiện thêm bước phân loại sơ bộ. Thay vì chỉ phát cảnh báo theo quy tắc cứng, tác tử này vận dụng mô hình học máy để đánh giá mức độ đáng ngờ của một chuỗi sự kiện trong bối cảnh cụ thể, qua đó loại bỏ phần lớn cảnh báo sai dương tính ngay từ đầu vòng xử lý.

Tác tử thứ hai, gọi là Investigation Agent, đảm nhận công việc điều tra. Khi nhận được một cảnh báo đã được phân loại, tác tử này chủ động truy vấn nhật ký bổ sung từ các nguồn liên quan, đối chiếu các chỉ dấu với cơ sở tri thức về mối đe dọa, dựng lại diễn biến sự kiện trên trục thời gian, và nhận diện các tài sản có thể đã bị ảnh hưởng. Sản phẩm đầu ra là một hồ sơ điều tra hoàn chỉnh, trong đó nêu rõ chuỗi hành vi, các bằng chứng liên quan, và đề xuất các phương án ứng phó có thể áp dụng.

Tác tử thứ ba, gọi là Response Agent, nhận hồ sơ điều tra và thực hiện các hành động ứng phó. Trong phiên bản bán tự động, tác tử này được phép tự thi hành các biện pháp có rủi ro thấp, chẳng hạn cách ly một máy trạm khỏi mạng hoặc chặn một địa chỉ IP được xác nhận là độc hại. Các biện pháp có tác động lớn hơn, chẳng hạn khóa hàng loạt tài khoản người dùng hoặc ngắt một dịch vụ trọng yếu, đều phải chờ phê duyệt của con người. Đây chính là ý nghĩa của chữ "bán" trong tên gọi: không phải toàn bộ quy trình đều chạy tự động, mà chỉ có phần công việc lặp lại và rủi ro thấp được giao cho máy.

3.png

Năng lực thích ứng của tác tử so với kịch bản tĩnh

Một điểm khác biệt cần được làm rõ giữa SOC bán tự động dựa trên tác tử và các giải pháp tự động hóa truyền thống như SOAR, viết tắt của Security Orchestration, Automation and Response. SOAR đã tồn tại trước khi Agentic AI ra đời và hoạt động theo nguyên lý kịch bản tĩnh, trong tiếng Anh gọi là playbook. Mỗi playbook là một chuỗi bước cố định, được cấu hình trước cho một loại cảnh báo cụ thể, và hệ thống thi hành đúng các bước đó khi gặp cảnh báo tương ứng. Ưu điểm của playbook là tính tiên đoán và tính kiểm toán, nhưng nhược điểm là thiếu khả năng thích ứng khi dữ liệu thực tế lệch khỏi khuôn mẫu đã định.

Ngược lại, tác tử không thi hành một kịch bản cố định mà xây dựng kế hoạch dựa trên bối cảnh hiện tại. Nếu trong quá trình điều tra phát hiện ra chi tiết bất ngờ, chẳng hạn một tài khoản mà playbook chuẩn không biết đến nhưng có liên quan đến chuỗi tấn công, tác tử có thể tự điều chỉnh kế hoạch để kéo nó vào phạm vi điều tra. Khả năng thích ứng này là điều mà Google nhấn mạnh như một lợi thế đặc thù của trí tuệ nhân tạo dạng tác tử so với tự động hóa kiểu cũ.1

An ninh tấn công và tác tử tìm lỗ hổng

Trong báo cáo của Google, đáng chú ý có hai công cụ được giới thiệu như minh họa cho hướng phát triển của an ninh tấn công, trong tiếng Anh gọi là offensive security. Công cụ đầu tiên mang tên CodeMender, được thiết kế để tự động tìm và đề xuất bản vá cho lỗ hổng trong mã nguồn trước khi mã được phát hành. Công cụ thứ hai là nền tảng Specular, có khả năng tự chạy các kịch bản tìm lỗ hổng zero-day và báo cáo lại cho đội ngũ phát triển. Đây là những ví dụ cho thấy rằng tác tử không chỉ hữu ích cho khía cạnh phòng ngự, mà còn có thể đóng vai trò chủ động trong việc củng cố an ninh phần mềm ngay từ giai đoạn trước khi triển khai.1

Hạ tầng kết nối: MCP và A2A

Để một hệ thống gồm nhiều tác tử có thể vận hành mạch lạc, hai vấn đề kỹ thuật cần được giải quyết. Thứ nhất, mỗi tác tử phải có khả năng truy cập đến các công cụ và nguồn dữ liệu bên ngoài, ví dụ cơ sở dữ liệu sự kiện, hệ thống quản lý lỗ hổng, hoặc tường lửa để thi hành lệnh chặn. Thứ hai, các tác tử phải có khả năng trao đổi thông tin với nhau một cách có cấu trúc, không qua trung gian con người. Google Cloud đã giới thiệu hai giao thức nhằm giải quyết hai bài toán đó, lần lượt là MCP và A2A. 

Model Context Protocol

MCP là viết tắt của Model Context Protocol, có thể dịch là giao thức bối cảnh cho mô hình. Giao thức này được xem như một chuẩn chung cho việc kết nối giữa một mô hình ngôn ngữ lớn và các công cụ, cơ sở dữ liệu, dịch vụ bên ngoài. Trước khi MCP xuất hiện, mỗi tác tử phải được viết lại phần giao tiếp riêng cho mỗi loại công cụ mà nó cần sử dụng, dẫn đến chi phí phát triển cao và thiếu khả năng tái sử dụng. MCP thay thế tình trạng đó bằng một giao diện hai chiều được chuẩn hóa, cho phép bất kỳ tác tử nào tuân thủ giao thức đều có thể kết nối đến bất kỳ nhà cung cấp công cụ nào cũng tuân thủ giao thức, với nỗ lực tích hợp tối thiểu.

4.png

Đối với lĩnh vực an ninh mạng, ý nghĩa thực tiễn của MCP là đáng kể. Một Investigation Agent có thể truy vấn nhật ký SIEM, tra cứu cơ sở dữ liệu lỗ hổng, đối chiếu chỉ dấu với khung MITRE ATT&CK và truy xuất thông tin tài sản từ hệ thống CMDB, tất cả đều qua cùng một giao thức. Một Response Agent có thể thi hành lệnh chặn trên NGFW, cách ly máy qua EDR, và vô hiệu hóa tài khoản trên hệ thống quản lý danh tính, cũng thông qua một giao thức duy nhất. Sự chuẩn hóa này không chỉ giảm chi phí phát triển, mà còn giảm đáng kể bề mặt rủi ro an ninh, bởi vì mỗi giao diện mới là một điểm tấn công tiềm tàng mới.

Giao thức Agent-to-Agent

Trong khi MCP quy định cách tác tử giao tiếp với công cụ, giao thức A2A, viết đầy đủ là Agent-to-Agent, quy định cách các tác tử giao tiếp với nhau. Ở dạng sơ khai, các tác tử có thể trao đổi thông tin qua thông điệp tự do bằng ngôn ngữ tự nhiên, nhưng cách làm này dễ sinh ra ambiguity và lỗi diễn giải. Giao thức A2A đưa ra một định dạng thông điệp có cấu trúc, trong đó mỗi thông điệp chứa các trường về mục đích, dữ liệu kèm theo, yêu cầu phản hồi, và mức độ ưu tiên. Điều này cho phép xây dựng các dây chuyền tác tử, trong đó đầu ra của một tác tử là đầu vào có cấu trúc cho tác tử tiếp theo, mà không cần con người can thiệp ở giữa.

Ví dụ mà báo cáo đưa ra gần gũi với an ninh mạng: một tác tử giám sát hệ thống mạng phát hiện sự cố, tự động gửi thông điệp theo giao thức A2A đến tác tử hỗ trợ khách hàng, và tác tử này tự gửi thông báo cho người dùng bị ảnh hưởng. Toàn bộ chuỗi hành động được báo cáo gọi là "dây chuyền lắp ráp số", trong tiếng Anh là Digital Assembly Line.1 Trong SOC, một dây chuyền tương tự có thể đi từ Detection Agent qua Investigation Agent đến Response Agent mà không có sự gián đoạn của con người, ngoại trừ các điểm phê duyệt đã được định trước.

Lưu ý: Việc để các tác tử trao đổi trực tiếp và thi hành hành động tự động đặt ra những yêu cầu mới về kiểm soát. Mỗi tác tử cần có định danh riêng, mỗi hành động cần để lại dấu vết kiểm toán đầy đủ, và cần có cơ chế giới hạn phạm vi hành động của tác tử để tránh các hành vi ngoài ý muốn. Đây là một lĩnh vực vẫn đang phát triển, và các tổ chức triển khai sớm cần đầu tư vào hạ tầng quan sát tác tử song song với việc triển khai chính các tác tử.

Điều kiện triển khai và đo lường hiệu quả

Dù mô hình bán tự động có sức hấp dẫn về mặt lý thuyết, việc triển khai thành công nó trong một tổ chức thực tế đòi hỏi nhiều điều kiện cả về kỹ thuật, quy trình và con người. Phần này tổng hợp những điều kiện đó dựa trên hai nguồn tham khảo chính, đồng thời mở rộng thêm một số khía cạnh liên quan đến đo lường.

Làm chặt hạ tầng trước khi tự động hóa

Nguyên tắc mà Kurilenko nhấn mạnh đối với SIEM truyền thống vẫn đúng, thậm chí càng đúng hơn, đối với SOC bán tự động. Không thể triển khai hệ thống giám sát tinh vi trên một hạ tầng chưa được làm chặt. Tường lửa phải được cấu hình đúng, máy chủ phải được vá lỗi định kỳ, người dùng phải được cấp quyền theo nguyên tắc đặc quyền tối thiểu, và các lỗ hổng đã biết phải được khắc phục. Khi những điều cơ bản đó được bảo đảm, các tác tử mới có thể tập trung năng lực phân tích vào những mối đe dọa tinh vi thật sự, thay vì bị cuốn vào các cảnh báo phát sinh từ cấu hình yếu.

Quản lý tài sản và phân loại trọng yếu

Không có tác tử nào, dù được thiết kế tinh vi đến đâu, có thể phát hiện được đâu là rủi ro thật sự nếu hệ thống không biết tài sản nào là trọng yếu. Quản lý tài sản, tức việc duy trì một danh mục đầy đủ và cập nhật các hệ thống, dữ liệu và dịch vụ của tổ chức, cùng với mức độ quan trọng của từng thành phần, là nền tảng thông tin mà mọi tác tử điều tra sẽ dựa vào để đánh giá ảnh hưởng của sự cố. Tại các tổ chức chưa có quy trình quản lý tài sản thành thục, việc đầu tiên không phải là triển khai tác tử, mà là xây dựng danh mục tài sản đó.

Năng lực con người và đào tạo liên tục

Báo cáo của Google dẫn ra một con số có tính cảnh báo: thời gian bán rã của kỹ năng chuyên môn trong lĩnh vực công nghệ đã rút xuống còn khoảng hai năm, nghĩa là sau hai năm, một nửa khối lượng kiến thức kỹ thuật của một chuyên viên có thể trở thành lỗi thời.1 Đối với chuyên viên an ninh mạng, con số này có thể còn ngắn hơn nữa do tốc độ tiến hóa của cả công cụ tấn công lẫn công cụ phòng thủ. Điều này hàm ý rằng một tổ chức muốn vận hành SOC bán tự động phải coi đào tạo là một hoạt động thường trực, không phải là một sự kiện đơn lẻ. Các hình thức thực hành trong môi trường mô phỏng, thường được gọi là cyber range, là công cụ hữu hiệu để duy trì năng lực thực chiến của đội ngũ.

Đo lường bằng mô phỏng tấn công có kiểm soát

Để trả lời câu hỏi liệu hệ thống có đang thật sự hoạt động hiệu quả hay không, việc đếm số cảnh báo được xử lý là không đủ. Công cụ được khuyến nghị là các giải pháp thuộc nhóm BAS, viết tắt của Breach and Attack Simulation, tạm dịch là mô phỏng xâm nhập và tấn công. Những giải pháp này thi hành các kịch bản tấn công đã biết trong chính hạ tầng của tổ chức, với quy mô và mức độ kiểm soát phù hợp, để kiểm tra xem SIEM, các tác tử và đội ngũ con người có phát hiện và ứng phó đúng hay không.2 Kết quả BAS cung cấp bằng chứng khách quan, có tính lặp lại, thay cho các nhận định chủ quan về mức độ sẵn sàng an ninh của tổ chức.

Các chỉ số định lượng cần theo dõi

Ngoài BAS, nhóm chỉ số sau đây thường được dùng để theo dõi sức khỏe của một trung tâm điều hành. Thứ nhất là độ phủ, tức tỷ lệ các tài sản trọng yếu được kết nối đến hệ thống giám sát. Thứ hai là tỷ lệ cảnh báo sai dương tính, biểu thị chất lượng của bộ quy tắc tương quan và các mô hình học máy hỗ trợ. Thứ ba là thời gian trung bình từ khi phát hiện đến khi điều tra xong, viết tắt là MTTD khi đo đến lúc phát hiện và MTTR khi đo đến lúc ứng phó. Thứ tư là mức độ tự động hóa, tức tỷ lệ cảnh báo được xử lý mà không cần sự can thiệp của con người ở các bước không đòi hỏi phê duyệt chiến lược. Bốn chỉ số này, khi được theo dõi đều đặn và so sánh với kết quả mô phỏng BAS, cung cấp một bức tranh đáng tin cậy về hiệu quả của toàn bộ kiến trúc.

Chỉ số

Ý nghĩa

Mục tiêu

Độ phủ tài sảnTỷ lệ tài sản trọng yếu được giám sátTiệm cận 100 phần trăm
Tỷ lệ cảnh báo saiMức độ chính xác của quy tắc và mô hìnhGiảm dần theo thời gian
MTTD (Mean Time To Detect)Thời gian trung bình đến lúc phát hiệnTừ ngày xuống giờ, rồi đến phút
MTTR (Mean Time To Respond)Thời gian trung bình đến lúc ứng phóTừ giờ xuống phút cho các sự cố thường gặp
Mức độ tự động hóaTỷ lệ cảnh báo được xử lý bởi tác tửTăng dần theo độ trưởng thành của quy trình
Kết quả BASTỷ lệ kịch bản mô phỏng được phát hiệnCải thiện sau mỗi vòng đánh giá

Kết luận

Hệ thống SIEM đã chứng minh giá trị của nó qua hơn một thập kỷ, nhưng chính những giới hạn cố hữu của nó cũng ngày càng trở nên rõ ràng. SIEM phát hiện, nhưng không điều tra. SIEM cảnh báo, nhưng không ứng phó. Toàn bộ khối công việc trí tuệ nặng nề sau điểm phát hiện vẫn phải đặt lên vai con người, và điều đó tạo ra nút thắt cơ bản của mọi trung tâm điều hành an ninh hiện đại. Trong điều kiện mà cả số lượng cảnh báo lẫn độ tinh vi của các cuộc tấn công đều tăng, mô hình hoàn toàn dựa vào sức người đã đi đến giới hạn của nó.

Kiến trúc tác tử trí tuệ nhân tạo, được triển khai dưới hình thức Trung tâm Điều hành An ninh bán tự động, không đặt ra tham vọng thay thế con người, mà định nghĩa lại sự phân công giữa người và máy. Các tác tử chuyên trách đảm nhận những tác vụ lặp lại có quy luật, từ phân loại cảnh báo, điều tra sơ bộ, cho đến thi hành các biện pháp ứng phó rủi ro thấp. Con người lui về vai trò điều phối và ra quyết định chiến lược, nơi giá trị thêm vào của trực giác và kinh nghiệm không thể bị thay thế. Các giao thức chuẩn như Model Context Protocol và Agent-to-Agent đóng vai trò hạ tầng chung, cho phép các tác tử của nhiều nhà cung cấp khác nhau kết nối và hợp tác trong cùng một quy trình.

Tuy nhiên, việc triển khai mô hình mới này không phải là một cuộc cách mạng tức thì. Nó đòi hỏi một nền tảng hạ tầng đã được làm chặt, một quy trình quản lý tài sản thành thục, một đội ngũ con người được đào tạo liên tục, và một hệ thống đo lường khách quan dựa trên mô phỏng tấn công. Các tổ chức chưa đáp ứng được những điều kiện này có thể cần dành thời gian củng cố nền tảng trước khi bước vào giai đoạn tự động hóa sâu. Ngược lại, các tổ chức đã sẵn sàng sẽ nhận được phần thưởng kép: vừa giảm áp lực cho đội ngũ vận hành, vừa nâng cao năng lực phát hiện và ứng phó đối với những mối đe dọa ngày càng tinh vi.

Từ SIEM đến SOC bán tự động, quỹ đạo phát triển của công cụ vận hành an ninh mạng phản ánh một xu hướng lớn hơn trong quan hệ giữa con người và máy tính. Chúng ta đã chuyển từ vai trò người vận hành sang vai trò người giám sát, và đang chuyển tiếp sang vai trò người điều phối. Thách thức của nhà quản lý an ninh hiện nay không còn chủ yếu nằm ở việc chọn đúng công cụ, mà ở việc thiết kế đúng quan hệ giữa con người và các tác tử mà công cụ đó mang theo. Đó là một bài toán vừa kỹ thuật, vừa tổ chức, và có lẽ, ở tầng sâu nhất, là một bài toán văn hóa.