照片修复总“无中生有”?我们找到了根治AI幻觉的新解法
拍完手机照片后,总是期望老照片能够更加清晰一些。然而现有的超分技术,特别是基于扩散模型的方案,在修复人像纹理或者建筑线条之时,常常会无端“脑补”出一些本不存在的细节,例如将眼角纹诠释为怪异的褶皱。这种幻觉问题,恰恰是我们新工作Ada - RefSR所要根治的痛点所在。针对这个单步扩散模型的棘手问题,我们提出了“信而有证” 的全新范式,使得AI在参考真实信息之际,学会自我验证。
破解病态问题的钥匙
本质上单图超分属于那种“无中生有”的数学难题,低质图像所丢失的细节存在无数种可能性。以往基于单步扩散模型,虽说生成速度快,然而由于没有外部约束,模型仅仅只能依靠“记忆”进行猜测,幻觉问题极其严重。
参考超分原本是作为解决的思路,是要引入一张高清的参考图以此来提供指引的。只是在真实的场景当中,低质图所呈现出的模糊以及噪点情况是千变万化的,就好比你拿着一张2000年的模糊照片,想要用现在的照片当作参考,然而这两者是很难实现对齐的。低质图与参考图出现匹配失败的状况,反而会将错误的纹理强行加诸给结果。
信而有证的新范式
咱们所提出的Ada - RefSR,其核心逻辑宛如一位行事严谨的侦探,先是会充分地去信任那些线索(也就是参考信息),然而呢,这些线索必须得经过交叉验证之后才能够被采纳。我们是依据这个基于单步扩散模型来构建的,借助于两个关键路径达成这一实际目标。
第一条路径承担着“信任”的职责,借由注意力机制主动从参考图里吸纳高频纹理。第二条路径负担着“验证”的使命,凭借隐式相关性建模,去计算低质图与参考图各个区域的相关性,以此为后续的筛选奠定基础。这两条路径并行且协作,保障了信息的引入具备依据。
自适应隐式相关门控
旨在达成“信而有证”模式的关键模块,称作AICG。其具备如同智能阀门般的效能,按照低质图和参考图的适配程度,对参考细节的注入力度予以动态调控。适配度高时,阀门开启幅度增大;适配度低时,阀门开启幅度减小。
刚开始的时候,我们运用一组能够进行学习的总结Token,依照交叉注意力机制,把参考图里最具价值的关键纹理进行压缩提炼,并非毫无选择地全部接纳,如此这般大大减少了计算量以及噪声干扰。接下来,我们把低质图的查询特征同提炼之后的参考特征进行匹配,进而生成一张相关性热力图,借此清晰地展现出哪些区域能够用来参考、哪些区域需要予以警惕。
鲁棒性从何而来
处于最后阶段的动态门控调节,乃是达成模型鲁棒性的关键所在。我们会把生成的相关性图于Token维度里求取平均值,并且借助Sigmoid函数映射成为一个处于0到1之间的自适应权重G。这个G值即为最终的“信任分”。
当低质量的图片跟参考的图片达到完美匹配的状态之时,G值会接近到1,参考的信息会全力地进行注入。然而当两者之间不存在任何关联的时候,G值会趋向于0,模型会自动去屏蔽参考的信息,转而依靠自身具备的能力去进行基础的修复。这样的一种设计确保了不管参考的图片质量是怎样的情况,最终的输出都不会出现崩坏的现象。
全面领先的实证结果
四个主流的参考超分基准测试集里,我们验证了Ada - RefSR的实力,其中包括像Urban100和Manga109这类以复杂纹理闻名的数据集。实验结果表明,我们的方法在像素一致性指标PSNR上取得了领先成绩,同时在感知指标LPIPS上也取得了领先成绩。
| 数据集 | 指标 | 性能表现 |
| :--------------------- | :------------------- | :---------------------------------------- |
| 通用纹理 (CUFED5、WRSR) | FID / LPIPS | 达到最佳,视觉自然度显著优于 ReFIR |
| 人脸场景 (Face) | PSNR / SSIM | 超越 FaceMe、InstantRestore 等垂直领域专用方法 |
| 特定类别 (Bird) | 结构稳定性 | 在保持语义一致性方面优势明显 |
特别是在针对真实世界会有退化状况的场景所开展的测试期间,当质量欠佳的图片和用作参考的图片之间有着比较大的视角方面的差异或者光照方面的差异之时展开测试,我们所采用的方法仍然能够稳定地生成具备自然而然逼真特点的纹理。与之形成相对比的情况为,当下存在的那些主流运用的方法或许是产生模糊不清的状况,又或许是出现明显的纹理出现错乱的情况,然而Ada - RefSR借助隐式验证的机制,有效地避开了这些会导致失效的案例。
专为手机影像设计
该研究是由vivo影像实验室跟南开大学一起完成的,在设计开始之际就对手机端的部署需求做了考虑,,那是基于单步扩散模型来构建的,其推理速度比较快,并且结合着AICG模块的轻量化设计,整体计算开销处于可控状态。
这表明,在未来的vivo手机当中,不管是去修复那些老旧的照片 ,还是对当下拍摄的数码变焦细节予以增强 ,用户均可获取速度又快且效果真实的呈现。Ada - RefSR不单单是一项学术方面的突破 ,更是为移动端实现高性能以及低功耗的影像修复 ,明确了全新的落地实施方向。
把这篇文章看完之后,你可以去思考一下,在平常进行拍照的时候,是会更加在意照片所呈现出来的清晰度,还是会更加担忧AI给画出来一些原本并不存在的事物?欢迎来到评论区把你的想法分享出来,点赞能够让更多的人去了解这项技术!




还没有评论,来说两句吧...