Adaptive Attacks

Robust Safety Monitoring of Language Models via Activation Watermarking

Robust Safety Monitoring of Language Models via Activation Watermarking

A robust monitoring framework for LLM safety that uses activation watermarking against adaptive attackers.

Mar 24, 2026