秋葵视频APP黄下载,CVPR2026(自动)《驾驶》与协作智能梳理：模型正在走向可{控真}实世界-兴和县振泓遥百货店

从仿真构造到多主体配合，AI 正在补齐行动决策链条。

作者丨郑佳美

编辑丨马晓宁

过去，视觉模型更多是在回答"看见了什么"，但当 AI 进入自动驾驶、游戏、机器人和多智能体协作场景时，问题已经不只是识别环境，而是"看见之后如何行动"。

一辆自动驾驶汽车不能只知道前方有车，还要判断如何避让、如何规划路线，甚至要在遮挡、夜晚和复杂天气中借助外部信息补足感知，一个游戏智能体不能只识别画面里的角色、障碍和敌人，还要把连续观察转化成具体操作；多个机器人或虚拟人也不能只是各自执行动作，而要根据队友位置、物体形状、任务目标和团队规模动态配合。

这种变化在 CVPR 2026 的相关研究中变得更加清晰：自动驾驶方向不再只关注单一感知模块，而是开始围绕可控场景生成、真实感仿真、端到端驾驶对齐和空间检索增强展开。

智能体方向也不再停留在"看见运动"，而是进一步探索如何从视频追踪走向动作学习，如何从互联网规模的玩家视频中恢复操作监督；多智能体方向则把问题推进到更复杂的团队行为，包括任意队伍规模下的人形协作，以及离线数据条件下的多目标协作学习。

这些研究看似分布在自动驾驶、游戏智能体和多人协作等不同任务里，但背后其实都在推动同一条能力链条：让模型从环境感知走向行动决策。

它们关心的不只是输入图像是否被正确理解，而是场景能否被构造，动作能否被学习，策略能否在闭环中稳定执行，多个主体能否在同一任务中形成配合。

也正因此，AI 的能力正在从"理解世界"进一步延伸到"参与世界"——不只是看见道路、角色或物体，而是能在复杂环境中判断、行动，并与其他主体协同完成任务。

从可控场景生成到空间记忆增强

自动驾驶研究正在从"让模型看懂当前画面"，进一步走向"让模型能够构造、编辑和利用更复杂的驾驶世界"。在仿真与训练中，一个关键问题是：如何生成足够真实、可控且多样的驾驶场景，尤其是那些真实道路中少见但对安全至关重要的危险交互、罕见轨迹和复杂交通情况。

由 NEC 美国研究院、石溪大学和加州大学圣地亚哥分校共同提出的《HorizonForge: Driving Scene Editing with Any Trajectories and Any Vehicles》。研究的是自动驾驶场景中的可控视频生成与编辑问题，也就是如何在已有驾驶视频中精确修改车辆轨迹、插入新车辆，或者改变自车与其他交通参与者的运动方式，同时保持画面的真实感、空间一致性和时间连续性。

现有方法往往难以同时做到高真实感和精确控制：要么编辑能力有限，要么生成结果容易出现结构不稳定、时序不连贯的问题。

HorizonForge 的核心思路是先把驾驶场景重建成可编辑的 Gaussian Splats 和 Meshes，再在这个 3D 表示上进行精细操作。系统可以直接修改车辆轨迹、调整场景几何，或根据语言指令插入新车辆；编辑后的结果再通过 noise-aware video diffusion 渲染出来，用扩散模型补足真实感，并保证空间和时间一致性。

相比每条轨迹都要重新优化的方法，HorizonForge 可以在一次前向推理中生成多种场景变化，更适合大规模自动驾驶仿真。

论文地址：https://arxiv.org/pdf/2602.21333v2

它的亮点在于，把 3D 可编辑表示和视频扩散生成结合起来：前者负责轨迹和车辆控制，后者负责最终视频的自然性和连贯性。论文还提出 HorizonSuite 评测基准，覆盖自车和交通参与者两个层面的编辑任务，包括轨迹修改和物体操作等场景。

实验中，Gaussian-Mesh 表示相比其他 3D 表示能带来更高保真度，视频扩散中的时间先验也对连贯合成非常关键；最终 HorizonForge 相比第二名方法实现了 83.4% 的用户偏好提升和 25.19% 的 FID 改进。

整体来看，这篇论文把自动驾驶场景生成从"生成一段看起来像驾驶视频的画面"，推进到"可精确编辑轨迹、车辆和 3D 场景结构的可控仿真"。它的意义不只是让驾驶视频更真实，也在于为感知、预测和规划模型提供更可控、更可扩展的训练与测试环境。

有了可编辑的仿真场景后，另一个问题随之出现：仿真画面本身是否足够真实，能否在插入车辆、行人等动态物体后，仍然保持自然的光照、阴影和前后景一致性。

由英伟达、多伦多大学、康奈尔大学和以色列理工学院合作完成《DiffusionHarmonizer: Bridging Neural Reconstruction and Photorealistic Simulation with Online Diffusion 的Enhancer》，研究的就是自动驾驶和机器人仿真中的真实感增强问题。

现在很多仿真环境可以通过 NeRF、3D Gaussian Splatting 等神经重建方法从真实数据中恢复出来，但在新视角渲染、稀疏视角外推，或插入其他场景的动态物体时，常常会出现几何伪影、缺失区域、光照不一致、阴影缺失和前景背景风格不统一等问题。

DiffusionHarmonizer 的核心思路是把神经重建渲染出的不完美画面，在线增强成更真实、更连贯的仿真视频帧。它不是重新构建整个 3D 场景，而是在渲染后加入生成式增强模块，用来修复新视角伪影、协调前景和背景外观，并为插入物体生成更合理的阴影。

模型由预训练的多步图像扩散模型改造成 single-step temporally-conditioned enhancer，只需一步推理就能增强当前帧，同时利用前几帧作为时间上下文，保证在线仿真中的时间稳定性。

论文地址：https://arxiv.org/pdf/2602.24096v2

它的亮点在于，既保留扩散模型的真实感生成能力，又尽量满足在线仿真的效率要求。普通视频扩散模型计算成本太高，普通图像增强模型又容易造成帧间闪烁；因此论文把多步扩散模型改造成确定性的单步增强器，并加入时间条件。

同时，作者还设计了专门的数据构建流程，合成外观协调、伪影修复、重光照、阴影生成和物体重新插入的数据，让模型学会处理颜色不一致、重建错误和光照不真实等问题。

整体来看，这篇论文把神经重建仿真从"能渲染出场景"，推进到"能生成更接近真实世界的在线仿真画面"。它的价值不只是让画面更好看，而是让基于真实数据重建的仿真环境更可信、更稳定，也更适合大规模训练和评测。

而当仿真环境变得更真实、更可控之后，训练出来的驾驶模型是否能在闭环中稳定执行，又取决于专家示范和学生模型之间是否真正对齐。由德国图宾根大学及图宾根人工智能中心、英伟达研究院以及德国"人工智能科学"卓越集群合作完成的《LEAD: Minimizing Learner-Expert Asymmetry in End-to-End Driving》研究就的是端到端自动驾驶中的模仿学习问题。

虽然仿真器可以生成大量驾驶数据，但用专家轨迹训练出的学生模型，在闭环驾驶时仍然容易不稳定，核心原因在于专家和学生之间存在明显的信息不对称。专家往往拥有更强的"上帝视角"，而学生模型在测试时只能依赖车载传感器输入和有限导航信息，因此很难可靠模仿专家行为。

LEAD 的重点不是单纯换一个更大的模型，而是系统性地缩小 learner-expert asymmetry。作者把这种差距分成两类：一类是 state alignment，即专家看到的信息和学生实际能看到的信息不一致；另一类是 intent alignment，即学生在测试时只拿到一个目标点，导航意图过于模糊。

论文地址：https://arxiv.org/pdf/2512.20563v2

针对这些问题，论文对专家生成方式、学生输入、导航目标表达和训练数据监督进行了修改，让学生学到的驾驶策略更接近自己真实测试时能执行的行为。

这项研究它没有把端到端自动驾驶的失败简单归因于模型容量不足，而是指出了模仿学习中更根本的训练偏差：

如果专家示范依赖学生看不到的信息，学生即使学得很像，也可能在闭环中犯错。通过减少可见性差异、不确定性差异和导航意图差异，论文训练出的 TransFuser v6（TFv6）在多个公开 CARLA 闭环 benchmark 上取得新的最好结果，例如在 Bench2Drive 上达到 95 DS，并在 Longest6 v2 和 Town13 上超过以往方法两倍以上。

整体来看，这篇论文把端到端自动驾驶中的模仿学习问题，从"如何让学生更好地模仿专家"，推进到"如何让专家示范更适合学生真实可见、可执行的条件"。

此外，论文还将感知监督整合进 sim-to-real 流程，并在 NAVSIM 和 Waymo Vision-Based End-to-End Driving benchmark 上带来稳定提升，说明这种对齐思路也有助于真实世界数据下的端到端驾驶泛化。

如果说 LEAD 关注专家与学生之间的信息对齐，那么《Spatial Retrieval Augmented Autonomous Driving》则进一步把自动驾驶的输入来源从车载传感器扩展到外部空间记忆。

论文由复旦大学可信具身智能研究院、上海交通大学、中国科学院空天信息创新研究院目标认知与应用技术重点实验室、中国科学技术大学共同提出，研究的是自动驾驶中的一个新思路：现有自动驾驶系统主要依赖车载摄像头、激光雷达、IMU 等实时传感器感知环境，但这种方式很容易受限于当前视野。

一旦遇到遮挡、夜晚、雨天或视距不足，模型就可能看不清道路结构。人类驾驶员在这种情况下往往会凭借对道路布局的记忆继续判断，而这篇论文希望给自动驾驶模型也加入类似的"空间记忆"能力。

论文提出的核心范式叫 spatial retrieval，也就是根据车辆当前位置检索离线地理图像，比如卫星图、街景图或已有自动驾驶数据集中的地理图像，并把它们作为额外输入提供给自动驾驶模型。

论文地址：https://arxiv.org/pdf/2512.06865

这些信息不需要增加新的车载传感器，可以从离线地图缓存或公开地图 API 中获得，因此更像是一种可插拔的外部空间先验。论文还扩展了 nuScenes 数据集，通过 Google Maps API 检索地理图像，并将这些图像与自车轨迹对齐，形成 nuScenes-Geography 数据，用来系统评估这种空间检索范式。

它的亮点在于，不是单纯提升某一个自动驾驶模块，而是把地理检索信息接入多个核心任务。论文围绕 3D 目标检测、在线地图构建、占用预测、端到端规划和生成式世界模型建立基线，并设计了可插拔的 Spa

CVPR2026(自动)《驾驶》与协作智能梳理：模型正在走向可{控真}实世界

猜你喜欢

最新头条