在现代制造业中,原材料成本控制是提升企业竞争力的关键因素,特别是在机械制造、船舶制造等重工业领域,金属板材的高效利用直接影响经济效益。二维矩形零件套料作为制造过程中的核心环节,其目标是在给定板材上合理排布零件以最大化材料利用率。然而,传统套料方法存在显著局限性:精确算法如分支定界法计算复杂度呈指数级增长;启发式算法如BLF虽计算速度快但解的质量有限;元启发式算法如遗传算法参数设置复杂且易陷入局部最优;而传统强化学习方法则面临学习效率低、泛化能力差的问题。这些缺陷促使我们探索更智能的解决方案,深度强化学习的兴起为此提供了新的技术路径。
本研究创新性地提出了一种基于深度强化学习的二维矩形零件智能套料方法。研究首先将套料问题建模为马尔可夫决策过程,通过状态空间(包含板材占用情况、零件几何特征等)、动作空间(零件选择决策)和状态转移函数的定义,将复杂的组合优化问题转化为序列决策问题。在几何定位方面,研究融合了No-Fit Polygon(NFP)与Bottom-Left(BL)算法的优势:NFP通过滑动多边形轨迹精确计算可行放置区域,而BL算法则在可行域内实施"先下后左"的启发式搜索。这种混合策略既保证了几何约束的满足,又显著提升了定位效率。

研究的核心创新在于设计了基于近端策略优化(PPO)的深度强化学习框架。如图所示的指针网络架构,采用编码器-解码器结构的LSTM网络,通过注意力机制动态捕捉零件间的空间关系。网络输入为零件尺寸数据的嵌入表示,输出为优化后的排样序列。为有效引导智能体学习,研究构建了融合领域知识的加权奖励函数,包含紧凑度奖励(评估空间利用密度)、贴合度奖励(促进零件紧密排布)和材料利用率奖励(监测废料变化),实现多目标优化。
