伟德体育(BetVictor Sports)国际官网(访问: hash.cyou 领取999USDT)在图像生成任务中,U-MLLMs的表现与专注型生成模型的差距不如理解任务那么大举例来说,Gemini2.0-flash-exp 在Text-to-Image任务中甚至超过了DALL·E 3 六个点,展现出强大的生成潜力。多数U-MLLMs(如 EMU3、HermersFlow、GILL)在图像生成任务的平均得分均高于48,显示基础图像生成已具一定可用性。不过,在视频生成任务上仍是短板。尽管如Emu3声称具备视频生成能力,但由于缺乏相应 checkpoint,暂时无法验证。从图像细节还原的角度看,当前开源U-MLLMs与DALL·E等模型仍有显著差距,尤其是在特定文本细节(如T恤号码、背景标语等)上的还原。
@HASHKFK