对对配 AI「活在同一个世界里」了！首个共享世界生成模型IC-World登场

如果两个 AI 同时生成在同一个房间里"漫步"的视频，它们生成的是同一个房间吗？

如果两个 AI 生成站在同一条街上的视频，街上的车辆和行人会依次走进它们的视野里吗？

答案是：以前不行，现在行了。

Lin Guosheng（林国省）与 Ye Deheng（叶德珩）的研究团队提出 IC-World，首次系统性地解决了一个长期被忽视、却极其关键的问题：共享世界生成——给 AI 同一个世界在不同视角下的图片，让 AI 分别生成对应视角的视频，并且它们真的描绘了"同一个世界"。

IC-World 是一个基于强化学习，激发视频生成模型强大上下文能力的共享世界生成新范式，能够同时生成同一个时间的同一个世界在不同视角下的视频，首次做到共享世界一致性，在多项一致性评估指标上超过现有方法，生成视频视觉质量高，且生成速度远超传统生成方案。

值得注意的是，在该团队完成 IC-World 工作之后，Saining Xie团队也在后续发布了采用相似核心思想的研究工作 Solaris，这一时间上的接近并非巧合，而是从侧面印证了一个事实：视频生成世界模型正在从"独立世界生成"，走向"共享世界生成"的必然阶段。

IC-World 的提出，正是对这一趋势的系统化探索与完整验证。

从"独立"到"共享"

为什么"共享世界"这么重要？想象几个重要的应用场景：

1. 多机器人协作：两个机械臂在同一空间里搬运物体，一个"看到"苹果在桌子左边，另一个却"看到"在右边？直接灾难。

2. 多人第一人称游戏：两个玩家同时进入一张地图，门口的招牌、桌子上的广告牌、NPC 的动作，在不同玩家视角下必须完全一致。

视频生成世界模型（Video-based World Model）如果连"同一个世界"都无法稳定建模，那所谓的推理、规划、决策，都是空谈。但现实是：现有的视频生成世界模型，几乎全都失败了，并且在有不同输入时无法同步生成。

现有视频模型的问题在哪里？当前主流的视频模型（image-to-video / text-to-video）有一个致命假设：一次只生成一个视角下的视频。

当你试图输入同一世界的多张不同视角下的图片分别生成视频时会发现：场景结构对不上、人物位置飘移、动作不同步、前一秒出现的物体，下一秒"消失"。

这不是小 bug，而是建模范式本身的问题。

双策略协同打造共享世界模型

IC-World 的核心思想：让视频大模型"一次性看到整个世界"。

团队提出了一个看似简单、但极其有效的思路：In-Context Generation ——把来自同一世界的多张不同视角下的图片像拼图一样拼成一个大图，配合一个明确的共享世界 text prompt，让视频模型一次性生成一个"视频合集"，然后再把它切分回多个视角视频，从一开始就把生成的视频绑定在同一个世界里。

不仅如此，研究团队还要求生成的世界必须一致，这一点光靠模型自身的生成能力还不够，团队进一步引入基于 GRPO 的强化学习微调策略，提出几何一致性奖励模型（Geometry consistency reward model）和动态一致性奖励模型（Motion consistency reward model），来教会视频模型去生成不同视角下一致性的视频。

实验表现

为全面验证 IC-World 的核心价值，团队设计了一套完整的评估体系。

一致性评估：IC-World 全面领先

团队提出两种互补场景：

静态场景 + 动态相机下的几何一致性评估，输入是同一世界的两张图片，拍摄时间一致，但相机视角不同，要求输出两个视角下、相机自由运动的视频。

动态场景 + 静态相机下的物体动态一致性评估，相机固定不动，场景中存在明显的动态行为（如人类操作、物体交互），输出固定视角下的动态视频。