Наступал на это ровно три месяца назад. Попросил агента проверить почему падает один тест, через пять минут он переписал три файла, добавил хелпер и вынес конфиг. Тест прошёл, но в проде это выявило регрессию, потому что никто не ожидал изменений в этих файлах и ревью проходило по-другому. Решение, которое сработало: в CLAUDE.md жёсткий протокол для диагностических задач, агент останавливается после постановки диагноза, показывает список файлов которые собирается трогать, ждёт явного подтверждения. Замедляет цикл на 30 секунд, но снимает именно эту проблему. Способность сделать и право сделать разные вещи, и без явного барьера в инструкциях агент их не разграничивает.
Комментариев нет:
Отправить комментарий