
11月20日下午,河南工业大学人工智能与大数据学院张自豪副教授应邀在计算机学院314会议室作题为“多模态图像融合的场景语义分割方法及其应用研究”的线上学术报告。此次报告是计算机学院第六届研究生学术文化节的重要组成部分,由人工智能与计算摄影团队组织举办。
报告中,张自豪首先指出,复杂场景下像素级语义分割是“智能感知”落地的共性瓶颈,传统单模态视觉数据在目标遮挡、光照剧变及特征稀缺条件下精度骤降,亟需红外、深度等多模态信息互补。随后,他从“高质量空间结构获取—跨模态特征融合—轻量级模型适配”三个层面展开:在立体匹配阶段,提出多方向宽度学习框架,无监督恢复稠密视差,为后续语义对齐提供高置信度几何先验;在融合分割阶段,设计CCANet、PCBNet及多辅助层级引导网络,通过交叉模态全面特征聚合与位置交叉宽基表示,显著提升了室内RGB-D及室外RGB-T场景的像素识别率;在系统部署阶段,构建一致性像素对齐策略与自适应通道剪枝机制,实现模型在边缘端实时推理。
报告结合钢铁高炉、无人巡检等案例,充分彰显了多模态融合算法在工业视觉感知中的核心价值,为计算机专业研究生提供了“视觉+AI+行业”交叉研究的新视角。会场互动热烈,师生就模态缺失、领域偏移及泛化评价等细节深入研讨,为后续科研合作奠定了坚实基础。