技术博客阅读分享 26-04-22
技术博客阅读分享 26-04-22
- 《 Qwen3.6-Plus:编码智能体能力全面跃升!》通义大模型
- 《 This is ChatGPT Images 2.0 》OpenAI
- 《 MiniMax Agent 更新:这次我们重新设计了 Agent 操作电脑的方式 》Minimax稀宇科技
- 《 MiniMax 发布 MMX-CLI:为 Agent 设计的全模态命令行工具 》Minimax稀宇科技
- 《 实测GPT-image-2,设计行业真的完蛋了吗?》数字生命卡兹克
今天阅读的几篇博客都有关最近各大厂商释出的最新的模型。首先是OpenAI的Images 2.0,图像生成模型的一大飞跃,在图像生成过程中加入了思考能力,且能支持多张图像的同时生成,让AI创作漫画,全篇杂志等成为可能。看了卡兹克对Images2的实测,确实被震撼了,生成出来的图片真假难辨,且生成文字十分精准,不像我之前使用大模型试图生成带中文的图片,生成出来的文字部分都是乱码。同时丰富准确的世界知识,甚至还有审美,不得不感叹,也许我们以后对信息真伪的判断已经不再准确了,甚至当AI生成的内容越来越多,判断真假已经成为一个没有答案的命题。
Qwen3.6放出的最新模型在编码能力上大大加强,当然我还没体验,不知道实际使用效果如何。
最让我惊喜的是Minimax最新的桌面端Agent和MMX-CLI,首先MMX-CLI,支持从终端调用Minimax的多模态能力,且专门做了体验相关的优化,比如视频,声音的产出。桌面端Agent推出的Pocket功能,通过手机命令agent操作电脑桌面。如何准确的操作电脑桌面一直是一个难题,包括对截图的解读与坐标定位,如何执行等等,但Minimax在这个方向是迈出了一大步,同时关于权限的把控也挺精准,确保每一次操作都有用户介入,这在agent能力还不够强时是必须的。
摘抄
- 模型不只是「看见」图像和视频,而是真正具备从感知、理解、推理到执行任务的完整能力闭环,逐步走向更实用的原生多模态智能体。
- 命令行是 Agent 在终端中完成工作的常见形态,但用户的工作并不只发生在命令行内,电脑上还有大量任务藏在命令行无法触达的本地软件、内部系统和图形界面中。
- 我们将桌面操作拆成四个独立的工具域:Desktop Control、Window Manager、Browser Engine、Clipboard。这样做的原因是:不同任务的最优执行路径不一样。
- 模型不直接输出像素坐标,而是输出一个 0 到 1 之间的相对位置,由系统根据当前屏幕分辨率换算为真实坐标执行。模型不需要知道用户用的是什么屏幕,操作精度在所有设备上保持一致。
- 我们给每一步桌面操作都接上了一个验证环节:操作执行完,立刻自动截图,让模型看一眼‘刚才那一步真的做到了吗’。
- 当 Agent 准备执行文件删除等操作时,会暂停下来,把这一步的具体内容推送到用户的 IM 对话里……用户能对 Agent 的每一个关键动作保持完整的知情权与控制权。
This post is licensed under CC BY 4.0 by the author.