在交易中,MT5平台安卓版凭借其强大的功能和便捷的操作,成为众多交易者的得力助手。从MT5平台安卓版官网下载这款应用后,交易者能够随时随地开启交易之旅。然而,想要在交易中取得成功,创建一个稳定的交易策略至关重要,而其中不可或缺的一环便是风险管理。
为了构建稳定的交易策略,我们必须重视风险的管理。在当前的设计中,风险模块的缺失是一个亟待解决的问题。以 EA 为例,它在每根新交易蜡烛出现时评估市场形势并决定交易操作,但每一根即将到来的柱线都可能给账户带来风险,柱线内的价格走势一旦不利于我们,账户余额就会受到影响。这就是为什么使用止损至关重要,它虽然简单,却能有效限定每笔交易的风险。
在训练代理者并建立交易策略时,逻辑上需要考虑连续动作空间训练特征。这里面临一个关键问题:如何训练模型来预测交易量以及持仓的平仓价位。利用监督学习算法可以轻松指定教师提供的所需目标值来解决,但强化学习算法存在一定复杂性。此前我们采用过奖励预测和接收最大奖励的概率这两种方式训练强化模型。
解决此问题的一种方法是为交易操作的所有参数定义离散值,并为每个可能的选项创建单独的动作,这能让我们从资本和风险管理的某些方面进行考量。然而,这种方式并非完美无缺。选择离散事务参数在数据准备阶段需要额外工作,而且要在选项数量和代理者制定灵活决策的能力之间做出妥协。这可能导致可能动作的组合数量大幅增加,使模型更加复杂,训练时间相应延长,因为训练时需要研究每个可能动作的奖励。例如,仅取 3 个交易量离散值、3 个止损位和 5 个止盈位,为定义 2 个交易方向的动作空间就需要 90 个元素(3 3 5 * 2 = 90),再加上持仓和平仓动作,代理者操作选项已达 92 个。这种有限的自由度会导致模型输出端神经元数量显着增加,任何交易参数的离散值增加都会使神经元数量增多,训练更复杂的模型还可能需要其他训练样本集及应对随之而来的各种问题。
不过,还有在连续动作空间中训练代理者的算法。通过此类算法训练的代理者能从连续数值范围内选择动作,使其在管理交易参数(如交易量、止损和止盈级别)时更加灵活和准确。深度判定性策略梯度(DDPG)就是其中一种流行算法。在 DDPG 中,模型由扮演者(Actor)和评论者(Critic)两个神经网络组成。扮演者基于当前状态预测最优动作,评论者则对该动作进行审评。与优势扮演者 - 评论者算法有相似之处,但扮演者训练算法不同。在 DDPG 中,利用梯度提升训练 Actor 以优化判定性策略,扮演者直接基于当前状态预测最优动作,而非对动作的概率分布进行建模。
DDPG 的扮演者训练通过计算评论者为扮演者动作给出的梯度值,并据此更新扮演者的参数,这虽复杂,但能让扮演者找到使评论者评分最大化的最优动作。需要重点注意的是,DDPG 是非策略算法,依据之前与环境交互获得的数据进行训练,与当前决策策略无关,这一特征使其可用于复杂和随机的环境,比如在金融市场预测品质低劣的情况下。
DDPG 基于深度 Q - 网络(DQN)的核心原理,结合了许多方式,包括经验回放缓冲区和目标模型。扮演者接收环境状态作为输入,输出从连续数值分布中获取的动作,如形成交易量、止损和止盈水平,可根据模型架构和问题陈述采用绝对值或相对值,还可添加噪音提高对环境的探索水平。执行的动作进入新环境状态,从环境中获得奖励,收集 “状态 - 动作 - 新状态 - 奖励” 数据集合放入经验回放缓冲区,这是强化学习算法的典型过程。
从经验回放缓冲区选择训练数据包,将其中的状态输入扮演者,扮演者返回连续分布的动作,将当前状态和生成的动作传输给评论者评估动作价值,评论者预测奖励并最小化预测奖励与实际值之间的标准偏差,构建全面策略时使用目标网络模型,且要用扮演者的目标模型依据后续状态形成动作。DDPG 的独特之处在于不使用目标输出值训练扮演者,而是取评论者模型的误差梯度值置于动作上传递给扮演者模型,在训练评论者的 Q - 函数时,用动作上的误差梯度优化扮演者的动作,可认为扮演者是 Q - 函数的一部分,训练 Q - 函数会优化扮演者函数。
同时,在评论者训练时优化其参数以正确评估状态 - 行动对,在训练扮演者时优化其参数以提升预测奖励。该方法的作者建议使用目标模型的软更新,以重新计算目标模型的参数取代简单替换,这种方法虽减慢目标模型更新速度,但提升了训练稳定性。
对于从MT5平台安卓版官网下载并使用该平台的交易者来说,深入理解风险管理以及像 DDPG 这样的训练算法,能够更好地构建稳定的交易策略,在复杂多变的市场中争取更理想的交易成果,充分发挥MT5平台安卓版的优势。