← [Раздел](README.md) · [Главная](../README.md)

# Метрики эффективности AI

## Цель

Определить **измеримые** показатели пользы и риска агентной разработки, использовать eval-harness и регрессионное тестирование AI без самообмана.

## Предварительно

- [komandny-workflow.md](komandny-workflow.md)
- Базовая статистика (медиана, процентили)

## Время

~60 минут + настройка одной метрики на месяц.

---

## Что измерять (и что нет)

| Полезно | Бесполезно / опасно |
|---------|---------------------|
| Время до merge (с оговорками) | «Количество строк от AI» |
| Доля PR с зелёным CI с первого раза | Сырой счётчик промптов |
| Defect rate после релиза | Сравнение моделей без задачи |
| Время на рутину (boilerplate) | Vanity: «100% кода от AI» |
| Стоимость токенов / сессию | — |

**Контекст:** фича сложнее → время merge растёт — это нормально.

---

## Уровни измерений

### L1 — Личный (solo)

- Время на задачу до/после Agent (выборочно, 10 задач).
- Число итераций промпта до приемлемого diff.
- «Одобрил diff с первого раза» — да/нет.

Журнал в markdown достаточно.

### L2 — Команда

- Lead time PR (Git provider metrics).
- Review rounds per PR.
- CI failure rate на ветках с тегом `ai-assisted` (label).
- Опционально: опрос раз в квартал «доверие к AI diff».

### L3 — Организация

- Incident count связанных с AI (неправильный деплой, секрет в логе).
- Eval suite pass rate (ниже).
- Coverage skill/rules adoption (% репо с `.cursor/rules`).

---

## ECC eval-harness

Skill: `ECC/.cursor/skills/eval-harness/SKILL.md`

**Идея eval-driven development (EDD):**

1. Формализуйте задачи (prompt + expected properties).
2. Прогоняйте агента в sandbox.
3. Сравнивайте версии моделей / rules / skills.

Подходит для **внутренних** инструментов и шаблонов, не для «оценки программиста».

---

## ai-regression-testing

Skill: `ECC/.cursor/skills/ai-regression-testing/`

- API-тесты без prod БД;
- сценарии «агент не должен сломать X»;
- ловит регрессии, когда **та же модель** пишет и чинит код слепо.

Добавьте в CI nightly, не в каждый push (дорого).

---

## continuous-learning-v2 как метрика обучения

| Метрика | Источник |
|---------|----------|
| Число инстинктов | `/instinct-status` |
| Средний confidence | instinct store |
| Promoted to global | `/promote` history |
| Evolved skills | `/evolve` |

Интерпретация: рост инстинктов без review → риск шума.

---

## cost-report

Команда ECC: `/cost-report` — оценка стоимости сессий (если настроено в harness).

**Практика:** лимит на эксперимент multi-agent; отчёт раз в неделю для platform.

---

## Dashboard skill evolution

```text
ECC/.cursor/scripts/lib/skill-evolution/
```

Для maintainers ECC; идеи применимы к **вашим** internal skills: версии, health, provenance.

---

## Шаблон еженедельного отчёта (команда)

```markdown
## AI metrics — неделя N
- PRs with agent: 12 / 18
- CI first-pass: 9 / 12 (75%)
- Incidents: 0
- Notable win: …
- Notable fail: …
- Action: обновить rule X
```

---

## Анти-метрики

1. **Гонка за % AI-кода** → merge без понимания.
2. **Игнор review time** → technical debt.
3. **Одна метрика** → Goodhart law.

---

## Упражнение

Выберите **одну** L2 метрику для пилота на 4 недели. Зафиксируйте baseline сейчас.

---

## Самопроверка

1. Почему «строки от AI» — плохая метрика?
2. Что такое EDD в eval-harness?
3. Зачем label `ai-assisted` на PR?
4. Как связаны инстинкты и шум в правилах?

---

## Дальше

→ [Типичные ошибки](tipichnye-oshibki.md)  
← [Командный workflow](komandny-workflow.md)