朝着抵抗力最大的路径走-Rank16-强化学习、黑盒攻击、Baseline-SecurityAI

写在最前面的话

朝着抵抗力最大的路径走

我也不是RL的专家,但我认为GAN是使用RL来解决生成建模问题的一种方式。GAN的不同之处在于,奖励函数对行为是完全已知和可微分的,奖励是非固定的,以及奖励是agent的策略的一个函数。但我认为GAN基本上可以说就是RL。

Ian Goodfellow(生成对抗网络之父)

基于上述原则,成绩不重要,我们进行了以下工作。

一、强化学习

在这里,我们把扰动图生成变成像素点级的一个游戏。
即现在有一个500*500围棋棋盘,请随机在格子中下棋子,系统将返回奖励或惩罚。
据此,引入强化学习的策略梯度算法(Policy Gradient)
简单来说,神经网络的输入是原始的状态信息,优化即在该状态下执行动作的回报,即Q函数,输出是该状态下执行动作的概率。训练完成之后,神经网络逼近的是最优Q函数。

Q(S, a)
# 其中s为状态,a为动作

![enter image description here](https://tianchi-public.oss-cn-hangzhou.aliyuncs.com/public/files/forum/159911192499792771599111924046.jpeg =500x)
以下示例:

(1) 定义参数

N = 500
T = N ** 2
base = np.array([0 for _ in range(T)])
ACTION_DIM = T, T

(2) 定义模型

model = tf.keras.models.Sequential([
   tf.keras.layers.Conv2D(8, (3, 3), activation='relu', input_shape=(N, N, 1)),
   tf.keras.layers.MaxPooling2D((2, 2)),
   tf.keras.layers.Conv2D(16, (3, 3), activation='relu'),
   tf.keras.layers.MaxPooling2D((2, 2)),
   tf.keras.layers.Conv2D(16, (3, 3), activation='relu'),
   tf.keras.layers.Flatten(),
   tf.keras.layers.Dense(64, activation='relu'),
   tf.keras.layers.Dense(ACTION_DIM, activation="softmax"),
])
model.compile(loss='categorical_crossentropy', optimizer=tf.keras.optimizers.Adam(0.01))
print(model.summary())

![net model](https://tianchi-public.oss-cn-hangzhou.aliyuncs.com/public/files/forum/159911919176667041599119189739.png =500x)

(3) 动作选择

def choose_action(s):
   prob = model.predict(np.array([s.reshape((N, N, 1))]))[0]
   return np.random.choice(len(prob), p=prob)

根据模型返回概率生成动作。

(4) 模型迭代

def train(records):
   s_batch = np.array([record[0] for record in records])
   a_batch = np.array([[1 if record[1] == i else 0 for i in range(ACTION_DIM)] for record in records])
   prob_batch = model.predict(s_batch) * a_batch
   r_batch = np.array([record[2]*10000 for record in records])
   model.fit(s_batch, prob_batch, sample_weight=r_batch, verbose=0)

根据每次结果迭代训练模型。

解释一下

model.fit(s_batch, prob_batch, sample_weight=r_batch, verbose=0)

在这里通过sample_weightloss加一个权重,进而改变损失函数(loss function),促使神经网络朝着累加期望大的方向优化。

(5) 奖励惩罚

最重要也是最困难的一步。需要定义出合适的奖励和惩罚函数,并给出限制条件。
也就是说游戏中,每画好一个点,都应该有奖励分数+10或者惩罚分数-10,并当所下棋子过多结束本轮游戏。

def sfun(arx):
   arr = cv.imread(f"{pdata0}/{idata}")
   _arr = arr.copy()
   for iarx in np.where(arx == 1)[0]:
      y_arx = iarx//N
      x_arx = iarx%N
      _arr[y_arx-M:y_arx+M, x_arx-M:x_arx+M] = datac
   cv.imwrite(f"{pdatat}/_{idata}", _arr)
   
   # .....省略
   detectionst = do_detect(darknet_model, imgt, 0.5, 0.4, True)
   result_t1 = inference_detector(mmdet_model1, f"{pdatat}/_{idata}")
   result_t1 = np.concatenate(result_t1)
   # .....省略
   
   # 此处选择检测框概率作为奖励或惩罚关键
   sdetectionst = [
      np.sum([_[4]*100 for _ in detectionst]),
      np.sum([result_t1[_, 4]*100 for _ in range(len(result_t1)) if result_t1[_, 4] > show_score_thr]),
   ]
   bb_score = [0 if np.isnan((_s0-_st)/_s0) or np.isinf((_s0-_st)/_s0) else (_s0-_st)/_s0 for _s0, _st in zip(sdetections0, sdetectionst)]
   bb_score = np.sum(_bb_score)
   rrr = bb_score * connected_domin_score
   
   return total_area_rate > 0.02 or patch_number > 10, rrr

(6) 开始游戏

for i in range(episodes):
   s = base
   replay_records = []
   while True:
      a = choose_action(s)
      
      next_s = s.reshape(T).copy()
      next_s[a] = 1

      done, r = sfun(next_s)
      replay_records.append((s.reshape((N, N, 1)), a, r))

      s = next_s

      # 回合结束
      if done:
         print('episode:', i, 'training')
         train(replay_records)
         print('episode:', i, 'trainend')
         break

(7) 结果展示

![enter image description here](https://tianchi-public.oss-cn-hangzhou.aliyuncs.com/public/files/forum/159912189937659791599121898030.png =500x)

(8) 过程总结

其实可以看到,训练过程还是跟传统梯度下降训练网络概念相对一致,有趣的地方在于游戏化状态化

以探索经验来说,强化学习的关键在于奖励,试想怎么走都没有分数的话,模型无论如何学不会最终结果。

启动机制设置,通过保存最优结果在下次重新开始游戏前进行预训练。

(9) TODO

  • <input disabled="" type="checkbox"> 游戏动作优化;
  • <input disabled="" type="checkbox"> 奖励或惩罚函数修正;
  • <input disabled="" type="checkbox"> 神经网络模型结构优化,对回合数据进行batch;
二、黑盒攻击

一般来说,当有方法能促使白盒模型1、白盒模型2得分最大后,黑盒模型得分甚低,攻击随机陷入局部最优。
并随着黑盒模型的破译,白盒模型分数将先下降,再与黑盒模型分数取得总分最大。是谓平衡。

所以我们始终觉得比赛中黑盒攻击虽然不是提分关键,却是比赛关键。

以下思路基于感觉光试是试不出来黑盒模型的,但只要能拟合出来相对同质的就OK。

其实是黑客思维,破译密码一样的概念。但这还比破译密码简单,因为会返回一定的分数,给你评估这次破译是否合理,误差多少。

(1) 通用方法

基于上述概念,我们需要一个通用方法Baseline,且方法得分不需过高,但各模型得分够均匀。
这里我们使用圆靶形贴图。
并通过fpoinnt函数来多次修改圆心。

查看本文全部内容,欢迎访问天池技术圈官方地址:

💪朝着抵抗力最大的路径走-Rank16-强化学习、黑盒攻击、Baseline-SecurityAIRound4_天池技术圈-阿里云天池

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/551986.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

推动企业档案数字化转型的措施

推动企业档案数字化转型的措施有以下几点&#xff1a; 1. 制定数字化转型战略&#xff1a;企业应该制定明确的数字化转型战略&#xff0c;明确企业数字化转型的目标、步骤和时间表&#xff0c;并将档案数字化转型作为其中的重要内容。 2. 投资数字化技术&#xff1a;企业应该投…

代码随想录:二叉树5(层序遍历全解)

目录 102.二叉树的层序遍历 107.二叉树的层序遍历II 199.二叉树的右视图 637.二叉树的层平均值 429.N叉树的层序遍历 501.在每个树行中找最大值 116.填充每个节点的下一个右侧节点指针 117.填充每个节点的下一个右侧节点指针II 104.二叉树的最大深度 111.二叉树的最大…

UE5 HLSL 详细学习笔记

这里的POSITION是变量Position的语义&#xff0c;告诉寄存器&#xff0c;此变量的保存位置&#xff0c;通常语义用于着色器的输入和输出&#xff0c;以冒号“&#xff1a;”的方式进一步说明此变量&#xff0c;COLOR也类似 还有什么语义呢&#xff1f; HLSL核心函数&#xff1a…

CAN的底层驱动

框架图 拆解链路模型 CAN子系统 can_controller Core 包含协议控制器和接收/发送移位寄存器。它可处理所有 ISO 11898-1: 2015 协议功能,并支持 11 位和 29 位标识符。

【数据结构】树与森林(树的存储结构、森林与二叉树的转化、树与森林的遍历)

目录 树和森林树的存储结构一、树的双亲表示法&#xff1a;二、树的孩子表示法方法一&#xff1a;定长结点的多重链表方法二&#xff1a;不定长结点的多重链表方法三&#xff1a;孩子单链表表示法 三、树的二叉链表(孩子-兄弟)存储表示法 森林与二叉树的转换树和森林的遍历先根…

Java中的容器

Java中的容器主要包括以下几类&#xff1a; Collection接口及其子接口/实现类&#xff1a; List 接口及其实现类&#xff1a; ArrayList&#xff1a;基于动态数组实现的列表&#xff0c;支持随机访问&#xff0c;插入和删除元素可能导致大量元素移动。LinkedList&#xff1a;基…

前端常见面试题:HTML+CSS

1. title与h1的区别、b与strong的区别、i与em的区别&#xff1f; title与h1的区别&#xff1a; title标签用于定义整个HTML文档的标题&#xff0c;它显示在浏览器窗口的标题栏或者标签页上。每个HTML文档只应该有一个title标签&#xff0c;它对搜索引擎优化&#xff08;SEO&a…

C语言结构体与公用体

结构体 概述 有时我们需要将不同类型的数据组合成一个有机的整体&#xff0c;如&#xff1a;一个学生有学号/姓名/性别/年龄/地址等属性这时候可通过结构体实现结构体(struct)可以理解为用户自定义的特殊的复合的“数据类型” 可以理解为其他语言的object类型 结构体变量的定…

项目五:学会如何使用python爬虫解析库(小白小成级)

前言 在上一篇我们学习了re模块的使用方法和了解正则表达式的基本语法规则&#xff0c;那么这一次还继续在学习一下re模块的函数用法&#xff0c;毕竟要想短时间内学会爬虫&#xff0c;基本功一定要扎实。这样面对日益更新的技术我们能够从容应对。 当然忘了可以看一下下面的…

使用SpringBoot将中国地震台网数据保存PostGIS数据库实践

目录 前言 一、数据转换 1、Json转JavaBean 2、JavaBean与数据库字段映射 二、空间数据表设计 1、表结构设计 三、PostGIS数据保存 1、Mapper接口定义 2、Service逻辑层实现 3、数据入库 4、运行实例及结果 总结 前言 在上一篇博客中基于Java的XxlCrawler网络信息爬…

ActiveMQ 07 集群配置

Active MQ 07 集群配置 官方文档 http://activemq.apache.org/clustering 主备集群 http://activemq.apache.org/masterslave.html Master Slave TypeRequirementsProsConsShared File System Master SlaveA shared file system such as a SANRun as many slaves as requ…

leetcode:739.每日温度/496.下一个更大元素

单调栈的应用&#xff1a; 求解当前元素右边比该元素大的第一个元素&#xff08;左右、大小都可以&#xff09;。 单调栈的构成&#xff1a; 单调栈里存储数组的下标&#xff1b; 单调栈里的元素递增&#xff0c;求解当前元素右边比该元素大的第一个元素&#xff1b;元素递…

Python继承

语法格式&#xff1a; class 子类类名(父类1[&#xff0c;父类2&#xff0c;...])&#xff1a;类体如果在类定义中没有指定父类&#xff0c;则默认父类是 object类 。也就是说&#xff0c;object 是所有类的父类&#xff0c;里面定义了一些所有类共有的默认实现&#xff0c;比…

Python接口自动化 —— Web接口!

1.2.1 web接口的概念 这里用一个浏览器调试工具捕捉课程管理页面请求作为例子&#xff1a; 当请求页面时&#xff0c;服务器会返回资源&#xff0c;将协议看做是路的话&#xff0c;http可以看做高速公路&#xff0c;soap看做铁路传输的数据有html&#xff0c;css&#xff0…

【文献分享】PCCP:机器学习 + 分子动力学 + 第一性原理 + 热学性质 + 微观结构

分享一篇关于机器学习 分子动力学 第一性原理 热学性质&#xff08;密度、粘度、扩散系数&#xff09; 微观结构的文章。 感谢论文的原作者&#xff01; 关键词&#xff1a; 1. Machine learning, 2. Deep potential, 3. Molecular dynamics 4. Molten salt, 5. Thermo…

OCP-数据库中的小米SU7

oracle ocp ​数据库中的SU7 ​好看又好用 需要找工作和落户的快来

剑指offer剪绳子;leetcode:LCR 131. 砍竹子 I

现需要将一根长为正整数 bamboo_len 的竹子砍为若干段&#xff0c;每段长度均为正整数。请返回每段竹子长度的最大乘积是多少。 示例 1&#xff1a; 输入: bamboo_len 12 输出: 81提示&#xff1a; 2 < bamboo_len < 58 注意&#xff1a;本题与主站 343 题相同&#…

基于峰谷分时电价引导下的电动汽车充电负荷优化

在研究电动汽车用户充电需求的前提下&#xff0c;利用蒙特卡洛方法对&#xff12;种不同充电方式进行模拟并对其进行分 析&#xff1b;分析用户响应度对电动汽车有序充电的影响&#xff0c;建立峰谷分时电价对电动汽车负荷影响的模型&#xff0c;在模拟出电动汽 车无序充电负荷…

Windows 部署ChatGLM3大语言模型

一、环境要求 硬件 内存&#xff1a;> 16GB 显存: > 13GB&#xff08;4080 16GB&#xff09; 硬盘&#xff1a;60G 软件 python 版本推荐3.10 - 3.11 transformers 库版本推荐为 4.36.2 torch 推荐使用 2.0 及以上的版本&#xff0c;以获得最佳的推理性能 二、部…

重生奇迹mu恶魔来袭副本

在游戏重生奇迹mu中&#xff0c;恶魔来袭副本是玩家能够组队通过的副本。但是因为手游组队的不方便性&#xff0c;部分玩家对其还是非常苦手。而今天&#xff0c;我们就给大家讲解一下这个游戏的双人通关攻略。 1、挂机找怪手动输出 (1)对于普通剧情副本而言&#xff0c;挂机…