SNACK 세 줄 요약
- 구글이 Gemini 3.5 Flash에 컴퓨터 사용 기능을 공식 추가했습니다. 스크린샷을 보고 브라우저·모바일·데스크톱 화면을 이해한 뒤 마우스 클릭과 키보드 입력 같은 UI 동작을 제안할 수 있습니다.
- 이번 변화는 단순한 채팅 답변 강화보다 에이전트가 실제 앱과 웹을 만지는 단계에 가깝습니다. 구글은 폼 입력, 웹 테스트, 여러 사이트 조사 같은 작업 예시를 함께 제시했습니다.
- 완전 무인 자동화로 읽으면 과장입니다. 구글은 위험하거나 되돌리기 어려운 동작에는 사용자 확인이 필요할 수 있고, 샌드박스·사람 검토·접근 통제를 함께 쓰라고 강조했습니다.

스낵걸즈 편집부 후기
AIKO: “이제 AI가 글만 쓰는 게 아니라 화면을 보고 버튼을 누를 순서까지 제안하는 단계로 가는 느낌이에요.”
레드: “대신 여기서 중요한 건 마법처럼 다 알아서 한다는 환상보다, 어디까지 자동화하고 어디서 사람 확인을 끼울지예요. 실무에서는 그 선이 더 중요하거든요.”
무엇이 바뀌었나
구글은 6월 24일 Gemini 3.5 Flash에 Computer Use를 기본 도구로 넣었다고 발표했습니다. 이 기능은 모델이 스크린샷으로 화면을 보고, 다음에 해야 할 마우스 클릭·키보드 입력 같은 UI 동작을 제안하는 방식입니다.
공식 문서 기준으로 지원 환경은 브라우저, 모바일, 데스크톱입니다. 구글은 개발자와 기업이 이를 통해 폼 입력 자동화, 웹 애플리케이션 테스트, 여러 사이트를 넘나드는 조사 작업 같은 에이전트를 만들 수 있다고 설명했습니다.
왜 의미가 큰가
이번 발표의 핵심은 AI가 답변이나 코드만 내놓는 단계를 넘어, 실제 화면을 읽고 행동 순서를 제안하는 운영형 도구로 넓어진다는 점입니다. 쉽게 말하면 텍스트만 잘 쓰는 AI 비서에서, 리모컨을 쥔 작업 보조에 더 가까워진 셈입니다.
구글은 Computer Use가 긴 단계의 자동화와 엔터프라이즈 업무에 특히 유리하다고 설명했습니다. 공식 문서도 브라우저·모바일·데스크톱을 한 모델 축에서 다룰 수 있고, 동작마다 intent를 붙여 왜 그 행동을 하려는지 설명할 수 있다고 적고 있습니다.
일반 독자가 오해하기 쉬운 점
다만 이 기능을 보고 Gemini 앱이 오늘부터 모든 사이트와 프로그램을 마음대로 조작한다고 이해하면 과장입니다. 공식 문서에도 클라이언트 쪽 실행 환경을 개발자가 따로 구현해야 한다고 나와 있고, 현재 초점은 개발자·기업용 에이전트 구축에 있습니다.
즉, 이번 발표는 소비자용 단축 버튼 뉴스보다 에이전트 개발 도구가 한 단계 넓어졌다는 신호에 가깝습니다. 일반 독자에게는 앞으로 서비스 자동화가 어느 화면 단계까지 확장되는지 확인할 새 기준점이 됩니다.
지금 조심해서 볼 점
구글은 안전 장치도 함께 강조했습니다. 공식 발표에는 민감하거나 되돌리기 어려운 동작에 대한 사용자 확인, 간접 프롬프트 인젝션 감지 시 작업 중단, 그리고 문서의 샌드박스·human-in-the-loop·엄격한 접근 통제 권고가 함께 들어 있습니다.
그래서 실무 관점에서는 “무엇을 자동화할 수 있나”만큼이나 어디서 멈추게 하고 누가 확인할지 설계하는 일이 중요합니다. 이번 발표는 에이전트 능력 확대와 안전 운영 규칙이 동시에 따라붙어야 한다는 점을 분명히 보여줍니다.
출처 및 확인일 · 발표 2026-06-24 / 확인 2026-06-25T01:36:46+00:00
출처
댓글 남기기