京东开源图像模型JoyAI-Image-Edit

我们用AI做图、修图时，经常会遇到一些难题：想把图中的杯子挪个位置，结果杯子变形了；想换个视角看看画面，透视却完全不对；想调整两个物体的前后位置，也会出现遮挡混乱、比例失衡……核心问题是AI更像是在平面上“P图”，无法理解图像背后的三维空间结构。

近日，京东探索研究院正式开源了自研的JoyAI-Image-Edit图像模型，彻底解决上述难题。这是业内首个把 “空间智能” 刻进骨子里的开源模型，让AI终于能真正 “看懂” 空间、“编辑” 空间，从原来的平面修图，升级成了三维空间重塑，而且模型的推理代码全部开放，开发者能直接拿

彻底解决传统模型空间逻辑混乱难题

JoyAI-Image-Edit深度贴合真实世界空间规律，从空间位置关系、多视角一致性、相机感知到场景推理等维度全面建模，实现了相机坐标视角变换、物体空间位移旋转、几何结构精准控制等多项空间编辑技术突破，将空间认知能力深度融入文本与图像生成流程，搭建了完整的空间理解数据与任务体系。

该模型打破了AI“理解图像” 和 “生成图像” 的壁垒，让AI不仅能生成逼真的图像外观，更能精准理解图像背后的空间结构，在编辑过程中稳定保持主体形象与场景结构完整，多视角空间布局高度一致。不管是移动物体、换视角，还是调整物体间的关系，都能保持场景的几何规律，遮挡、光影也都自然合理，不会再出现变形、错乱的情况，彻底解决传统模型空间逻辑混乱的行业难题。

经实验验证，在物体移动精度、空间一致性等空间编辑核心指标上，JoyAI-Image-Edit达到世界一流水准。

三大空间编辑范式突破融合15类通用编辑能力

JoyAI-Image-Edit的核心跃升，在于其攻克了此前开源模型难以逾越的空间理解难题，具备三大辨识度极高的空间编辑能力：视角变换——用户可通过自然语言指定相机的偏航角、俯仰角及缩放程度，模型在保持场景几何一致性的前提下生成新视角图像；空间漫游——支持连续的视角移动，生成在空间中逻辑连贯的多视角图像序列，类似于在三维场景中"走动"；物体空间关系操控——在保持场景整体结构稳定的前提下，对特定物体进行位移、缩放等空间变换，同时确保遮挡与光影关系自然合理。

在实现空间级突破的同时，JoyAI-Image-Edit全面兼容15类通用编辑能力，深度覆盖内容创作的高频需求。无论是物体的替换、删除、添加，还是整体风格迁移、细节精修等操作，模型均实现了高性能覆盖。结合顶尖的空间编辑技术，模型在长文本精准渲染、多视角一致性生成等行业高难度任务中表现卓越，真正做到了全场景、无死角的高效创作。

凭借领先的空间理解与编辑能力，JoyAI-Image-Edit模型突破场景限制，可广泛应用于电商内容生产、创意设计制作、智能图像处理、3D模型重建、具身智能视觉感知等多元领域，大幅提升AI图像技术在复杂空间场景中的适配性与实用性。尤其是在具身智能领域，空间理解能力是机器人“理解世界”的核心基础，而该模型的推出，也为相关技术研发提供了关键的底层能力。

左右滑动查看更多

此次JoyAI-Image-Edit的开源，是京东在AI多模态模型领域的重要布局，更是让AI图像编辑实现了从平面到空间的大跨越。未来该模型还将持续落地更多场景，不断探索空间智能落地价值。

在AI研发和应用领域，京东今年成果不断。过去一个月内，京东宣布首次开源基础大模型JoyAI-LLM Flash，打破了大模型参数内卷的困局；京东云“龙虾”系列产品集体上线，token调用量周环比增长高达455%；京东还宣布将建成全球最大的具身数据采集中心。依托超级供应链优势，京东将持续推动AI与产业深度融合，真正为产业创造价值。

JoyAI-Image 是一个统一的多模态基础模型，用于图像理解、文本到图像的生成以及指令引导的图像编辑。它结合了 8 亿像素的多模态大型语言模型 (MLLM) 和 16 亿像素的多模态扩散变换器 (MMDiT)。JoyAI-Image 的核心原则是理解、生成和编辑之间的闭环协作。更强大的空间理解能力通过更优的场景解析、关系基础和指令分解来提升基于场景的生成和可控的编辑，而诸如视角变化之类的生成变换则为空间推理提供了补充证据。

architecture

💎精彩集锦

统一的多模态基础：通过共享的 MLLM-MMDiT 接口，实现理解、生成和编辑的单一模型系列。
实用数据和训练方案：一个可扩展的管道，包含空间理解数据（OpenSpatial）、长文本渲染数据、编辑数据（SpatialEdit）和多阶段优化策略。
唤醒空间智能：通过理解和生成之间的双向循环，增强空间理解力、可控空间编辑能力和新颖视角辅助推理能力。
高级视觉生成：强大的长文本排版、布局保真度、多视图生成和可控编辑，并能更好地保留场景结构。

📦 模型动物园

模型	任务	描述	下载链接
JoyAI-Image-Und	多模态理解	一个能够实现高保真空间推理和编辑感知的文本-图像理解主干。	🤗拥抱脸
JoyAI图像编辑	图像编辑	一种具有精确可控空间操作的指令引导式图像编辑模型。	🤗拥抱脸🤖模型范围
JoyAI图像编辑精简版	图像编辑	JoyAI图像编辑的精简版，推理速度更快	即将发布
JoyAI图像编辑增强版	多图编辑	支持多图像编辑的指导式模型，可实现跨图像合成、一致性和联合操作。	即将发布
JoyAI-图像	文本转图像	具有很强的多视角一致性的高质量文本到图像生成模型。	即将发布

🔍 视觉概览

能力概况

JoyAI-Image 在理解、合成和编辑方面展现出广泛的多模态性能，尤其在空间推理、长文本渲染、多视图生成和可控编辑方面具有优势。

capability-radar

高级文本渲染展示

JoyAI-Image 针对具有挑战性的文本密集型场景进行了优化，包括多格漫画、密集的多行文本、多语言排版、长篇布局、真实场景文本和手写风格。

text-rendering-showcase

多视图生成与空间编辑展示

JoyAI-Image 展示了一个基于空间的生成和编辑流程，支持多视角生成、几何感知变换、相机控制、物体旋转以及精确的、特定位置的物体编辑。在这些设置下，它能够保持场景内容、结构和视觉一致性，同时更准确地遵循视点相关的指令。

spatial-editing-showcase

空间推理的空间编辑展示

JoyAI-Image 提供高保真度的空间编辑功能，是增强空间推理能力的有力催化剂。与 Qwen-Image-Edit 和 Nano Banana Pro 相比，JoyAI-Image-Edit 通过忠实地执行相机运动，合成最具诊断意义的视角。这些高保真度的新颖视角能够有效消除复杂空间关系的歧义，为后续推理提供更清晰的视觉证据。

spatial-reasoning-showcase

🚀 快速入门

1. 环境搭建

要求：Python 版本 >= 3.10，支持 CUDA 的 GPU

创建虚拟环境并安装：

conda create -n joyai python=3.10 -y
conda activate joyai

pip install -e .

关于 Flash Attention 的说明：flash-attn >= 2.8.0为了获得最佳性能，Flash Attention 被列为依赖项。

核心依赖项

包裹	版本	目的
`torch`	≥ 2.8	PyTorch
`transformers`	版本 >= 4.57.0，< 4.58.0	文本编码器
`diffusers`	版本 >= 0.34.0	管道公用事业
`flash-attn`	版本 >= 2.8.0	快速注意力核

2. 推理

2.1 图像理解

python inference_und.py \
  --ckpt-root /path/to/ckpts_infer \
  --image "test_images/test_1.jpg,test_images/test3.png" \
  --prompt "Compare these two images." \
  --max-new-tokens 1024

CLI 参考 ( `inference_und.py`)

争论	类型	默认	描述
`--ckpt-root`	斯特	必需的	检查点根包含`text_encoder/`
`--image`	斯特	必需的	输入图像路径，或以逗号分隔的多幅图像路径。
`--prompt`	斯特	`"Describe this image in detail."`	用户提问或说明。如果省略，则默认为图像说明文字。
`--max-new-tokens`	整数	2048	要生成的最大代币数量
`--temperature`	漂浮	0.7	采样温度。`0`用于贪婪解码
`--top-p`	漂浮	0.8	Top-p（核）采样阈值
`--top-k`	整数	50	Top-k采样阈值
`--output`	斯特	没有任何	可选的输出文件，用于保存响应文本

2.2 图像编辑

python inference.py \
  --ckpt-root /path/to/ckpts_infer \
  --prompt "Turn the plate blue" \
  --image test_images/test_1.jpg \
  --output outputs/result.png \
  --seed 123 \
  --steps 30 \
  --guidance-scale 5.0 \
  --basesize 1024

CLI 参考 ( `inference.py`)

争论	类型	默认	描述
`--ckpt-root`	斯特	必需的	检查点根
`--prompt`	斯特	必需的	编辑指令或 T2I 提示
`--image`	斯特	没有任何	输入图像路径（编辑时必需，T2I 时省略）
`--output`	斯特	`example.png`	输出图像路径
`--steps`	整数	50	去噪步骤
`--guidance-scale`	漂浮	5.0	无分类器指导尺度
`--seed`	整数	42	为了保证可复现性，使用了随机种子。
`--neg-prompt`	斯特	`""`	否定提示
`--basesize`	整数	1024	输入图像缩放的桶基本大小（256/512/768/1024）
`--config`	斯特	汽车	配置路径；默认为`<ckpt-root>/infer_config.py`
`--rewrite-prompt`	旗帜	离开	启用基于LLM的提示符重写
`--rewrite-model`	斯特	`gpt-5`	提示重写的模型名称
`--hsdp-shard-dim`	整数	1	多GPU的FSDP分片维度（设置为GPU数量）

3. 空间编辑参考

JoyAI-Image 支持三种空间编辑提示模式：物体移动、物体旋转和相机控制。为了获得最稳定的性能，我们建议您尽可能严格地遵循以下提示模板。更多信息（包括数据整理和评估策略），请参阅SpatialEdit。

3.1 物体移动

当您想将目标对象移动到指定区域时，请使用此模式。

提示模板：

Move the <object> into the red box and finally remove the red box.

规则：

<object>请用对要移动的目标对象的清晰描述来替换。
红色方框表示图像中的目标位置。
“最终移除红色方框”这句话的意思是，指导框不应该出现在最终编辑结果中。

例子：

Move the apple into the red box and finally remove the red box.

3.2 物体旋转

当您想将对象旋转到特定的标准视图时，请使用此模式。

提示模板：

Rotate the <object> to show the <view> side view.

支持的<view>值：

front, right, left, rear, front right, front left, rear right, rear left

规则：

<object>请用对要旋转的物体的清晰描述来替换。
请替换<view>为以上支持的方向之一。
此指令旨在改变物体的方向，同时尽可能保持物体的身份和周围场景的一致性。

例如：

Rotate the chair to show the front side view.
Rotate the car to show the rear left side view.

3.3 相机控制

当您只想改变相机视角而保持 3D 场景本身不变时，请使用此模式。

提示模板：

Move the camera.
- Camera rotation: Yaw {y_rotation}°, Pitch {p_rotation}°.
- Camera zoom: in/out/unchanged.
- Keep the 3D scene static; only change the viewpoint.

规则：

{y_rotation}以度为单位指定偏航旋转角度。
{p_rotation}指定俯仰旋转角度，单位为度。
Camera zoom必须是以下之一：in，，outunchanged
最后一行很重要：它明确地告诉模型要保留 3D 场景内容和几何形状，而只调整相机视角。

例如：

Move the camera.
- Camera rotation: Yaw 45°, Pitch 0°.
- Camera zoom: in.
- Keep the 3D scene static; only change the viewpoint.

Move the camera.
- Camera rotation: Yaw -90°, Pitch 20°.
- Camera zoom: unchanged.
- Keep the 3D scene static; only change the viewpoint.

3.4 应用

三维重建：

第一个例子和第三个例子展示了仅包含单个给定视点的点云。第二个例子和第四个例子则通过SpatialEdit进行了增强，SpatialEdit 可以从稀疏的输入视图中合成更丰富的空间观测数据。

基于条件帧的视频生成：

给定第一帧，SpatialEdit首先生成视频的最后一帧，然后视频生成模型在保持背景一致性的同时，在它们之间创建平滑的旋转过渡。

input video

output-2

input-2 video-2

3.5 演示展示

SpatialEdit_Demo.mp4

⚖️ 许可协议

JoyAI-Image 采用 Apache 2.0 许可。

京东开源图像模型JoyAI-Image-Edit

💎精彩集锦

📦 模型动物园

🔍 视觉概览

能力概况

高级文本渲染展示

多视图生成与空间编辑展示

空间推理的空间编辑展示

🚀 快速入门

1. 环境搭建

核心依赖项

2. 推理

2.1 图像理解

CLI 参考 ( `inference_und.py`)

2.2 图像编辑

CLI 参考 ( `inference.py`)

3. 空间编辑参考

3.1 物体移动

3.2 物体旋转

3.3 相机控制

3.4 应用

3.5 演示展示

⚖️ 许可协议

商业航天公司“星云动力”完成新一轮融资

优艾智合发布半导体移动机器人 Youibot P300

IBM 发布首个量子/经典混合算力平台

赛力斯发布定增计划：重点投入自动驾驶与芯片研发

高通推出 Snapdragon X Elite 2 芯片方案

爱奇艺利用 AI 辅助内容审核与分发

联发科天玑 9500 采用台积电 3nm 工艺流片

Groq 宣布其 LPU 推理芯片吞吐量创纪录

💎精彩集锦

📦 模型动物园

🔍 视觉概览

能力概况

高级文本渲染展示

多视图生成与空间编辑展示

空间推理的空间编辑展示

🚀 快速入门

1. 环境搭建

核心依赖项

2. 推理

2.1 图像理解

CLI 参考 ( inference_und.py)

2.2 图像编辑

CLI 参考 ( inference.py)

3. 空间编辑参考

3.1 物体移动

3.2 物体旋转

3.3 相机控制

3.4 应用

3.5 演示展示

⚖️ 许可协议

CLI 参考 ( `inference_und.py`)

CLI 参考 ( `inference.py`)