Tuần trước tôi test cả ba model trên các task thực tế của BKGlobal và kết quả không theo đúng kỳ vọng ban đầu. Claude Opus 4.7 thắng áp đảo về coding (64.3% SWE-bench Pro). GPT-5.5 bá đạo agentic + terminal workflows. DeepSeek V4 Pro có performance gần ngang Claude với giá rẻ hơn **7 lần** — nhưng chỉ support text, không có image. Không có model nào "tốt nhất cho mọi thứ" — đây là guide để chọn đúng tool cho từng bài toán.
---
Scope creep không phải đột ngột xuất hiện — nó tích lũy từng ticket một, từng "nhỏ thôi" một. Team tôi mất một sprint rưỡi mới nhận ra điều đó, cho đến khi chúng tôi để AI theo dõi thay. Bài này chia sẻ kiến trúc thực tế: Azure DevOps API + Python feature engineering + LLM risk scoring — đủ để bạn triển khai trong một tuần.
---
Nếu bạn đang build LLM application trên .NET mà chưa đọc OWASP LLM Top 10 (2025), hãy dừng lại ngay bây giờ. SAST scanner bình thường không bắt được prompt injection. DAST tool không phát hiện data poisoning. Và kẻ tấn công không cần exploit code của bạn — chỉ cần exploit model của bạn. Bài này: vulnerable code → fixed code → test tool, theo từng mục trong Top 10.
---
Đây là lần thứ 11 tôi thấy cùng một kịch bản: team build AI feature trong vài sprint, celebrate go-live, rồi 6 tháng sau không ai biết model version nào đang chạy, ai đã approve nó, và dữ liệu nào đã được dùng để train. Governance không phải bureaucracy — đó là cách duy nhất để scale AI mà không mất kiểm soát.
---
Prompt injection là lỗ hổng #1 theo OWASP LLM Top 10, xuất hiện trong 73% production AI deployment. 77% nhân viên đã paste dữ liệu công ty vào chatbot AI. Và từ ngày 2/8/2026, EU AI Act bắt đầu enforce các hệ thống AI "high-risk" — mức phạt stack lên GDPR, có thể lên đến 11% doanh thu toàn cầu. Bài này là 7-domain checklist để team deploy AI không bị "lỗ" về bảo mật và pháp lý.
---
Fail-fast không phải về việc code nhanh hơn — mà về việc **biết mình sai sớm hơn**. AI không thay đổi nguyên lý đó, nhưng nó đẩy điểm phát hiện lỗi từ sprint 7 về sprint 1. Bài này chia sẻ 4 touch-point trong SDLC mà team BKGlobal đã cắm AI vào để rút ngắn feedback loop, kèm code example C# thực tế.
---
Sprint 6. Một tính năng payment reconciliation đã pass QA, pass staging, lên production được 3 ngày.
Rồi finance team gửi Slack: *"Dữ liệu tổng tiền sai với báo cáo kế toán."*
Đào ra thì lỗi nằm ở một edge case trong logic rounding — decimal precision khác nhau giữa VND và USD. Lỗi này hoàn toàn có thể bắt được ngay lúc code review nếu ai đó nhìn kỹ vào unit test coverage của currency conversion. Nhưng reviewer đang bận sprint khác, chỉ lướt qua. CI pipeline pass xanh. Merge. Done.
Tôi đã mất 2 ngày hotfix và 1 tuần giải thích với stakeholder.
Đó là lúc tôi bắt đầu nhìn lại cái vòng lặp **plan → code → test → review → deploy** và tự hỏi: AI có thể đẩy điểm phát hiện lỗi lên sớm hơn ở chỗ nào?
---