Skill Evolver | Analytics & Health Monitor for Claude Code Skills
Mình vừa code xong một plugin cho Claude Code tên là Skill Evolver, share cho anh em dùng thử.
Vấn đề là thế này: skill trong Claude Code là file markdown tĩnh, viết xong rồi thả vào chạy. Không biết nó được dùng bao nhiêu lần, user có hài lòng không, token ngốn bao nhiêu, có đang ngày càng tệ đi không. Kiểu viết prompt xong rồi cầu nguyện vậy đó.
Skill Evolver giải quyết chuyện này. Nói đơn giản nó như Google Analytics nhưng cho skill của Claude Code. Cài vào là tự tracking, không cần config gì hết.
Nó làm được gì:
- Tracking tự động: mỗi lần skill chạy, nó ghi lại số lần dùng, token tiêu hao, thời gian chạy, model version, tool calls. Tất cả qua Claude Code hooks.
- Reaction detection: phân tích tin nhắn tiếp theo của user để đánh giá hài lòng hay không. User chuyển sang topic khác thì satisfied, user nói "không, sửa lại" thì correction, user nói "quên mất phần này" thì follow-up. Không dùng LLM để phân tích, chỉ regex thuần để tránh circular dependency.
- Health monitor: cảnh báo khi satisfaction drop quá 15%, token tăng quá 30%, cancel rate quá 10%, hoặc model thay đổi. Phát hiện vấn đề trước khi nó thành bug.
- Correction log: gom các feedback correction lại, chạy TF-IDF clustering ra keyword pattern. Ví dụ 45% correction liên quan "security/secrets", 27% liên quan "too long/verbose". Biết ngay skill đang yếu chỗ nào.
- Version tracking: mỗi lần SKILL.md thay đổi tự snapshot bằng SHA-256. Xem satisfaction theo từng version, biết chính xác thay đổi nào làm skill tệ đi. Rollback 1 lệnh là xong.
- A/B testing ( Chức năng này chưa test kỹ lắm ae tự cảm nhận nha ): so sánh 2 version skill với real usage data. Random 50/50, chạy đủ 20 lần mới ra kết quả. Không còn đoán mò version nào tốt hơn.
- Skill Guards: tự cảnh báo khi SKILL.md phình quá 500 dòng, tăng hơn 30% so với baseline, hoặc description quá 200 ký tự.
Zero config, cài xong là chạy. Hook target dưới 100ms nên không ảnh hưởng workflow.
Triết lý thiết kế: data-driven chứ không phải AI-driven. Tool chỉ đo và hiển thị, không tự sửa skill. Human quyết định thay đổi gì dựa trên data.
Link : https://skill-evolver.dailyship.cc
Ai dùng Claude Code skill nhiều thì thử xem, có gì feedback mình cải thiện tiếp nhá!