Adversarial AI 对抗性人工智能

操纵人工智能(AI)和机器学习(ML)系统让攻击更高效的技术。包括两个方向:用 AI 攻击别人,以及攻击别人的 AI

1. 用 AI 增强攻击

  • AI 生成钓鱼内容 —— GPT 类模型写极其逼真的 钓鱼 邮件,无语法错
  • Deepfake 语音/视频 —— 克隆 CEO 声音骗财务转账(已有真实案例)
  • AI 探测漏洞 —— 自动化扫描 + 利用,加速攻击周期
  • AI 撞库 —— 学密码生成规律,优化暴力破解
  • 多语言无障碍 —— AI 翻译让攻击者跨国行动

2. 攻击 AI 系统本身

  • 对抗样本(Adversarial Examples) —— 给图片加肉眼看不见的扰动,让 AI 识别错(熊猫识别成长臂猿)
  • 数据投毒(Data Poisoning) —— 污染训练数据,让模型学错
  • 模型窃取 —— 通过 API 查询反推模型参数
  • Prompt Injection —— 给 LLM 喂引诱性输入,绕过安全限制
  • 模型逆向 —— 从模型输出推测训练数据(隐私泄露)

为什么是新兴威胁

  • 攻击和防御都在升级,军备竞赛
  • AI 系统被越来越多关键场景采用(医疗、金融、自动驾驶) → 攻击面巨大
  • 防御 AI 还不成熟,工业界标准刚开始形成

防御方向:对抗训练、输入验证、模型水印、AI 红队、OWASP Top 10 for LLM Applications 这类新框架。