"AI한테 시켰더니 또 엉뚱한 거 해놨어..."

프롬프트 넣고, 결과 확인하고, 다시 수정 요청하고, 또 확인하고. 이 지루한 핑퐁 게임이 은근히 시간을 잡아먹거든요. 특히 퇴근 후 짬 내서 사이드프로젝트 하는 메이커한테는, 그 30분이 아까워요.

그런데 OpenAI가 어제 출시한 GPT-5.4가 이 게임의 판 자체를 바꿔놓을 것 같아요. 추론·코딩·에이전트·컴퓨터 직접 조작까지 하나로 합친 최신 플래그십 모델인데요. 단순히 "더 똑똑해졌다"가 아니라, AI가 일하는 방식 자체가 달라졌어요.

GPT-5.4 달라진 점 — 에이전트 자동화가 이제 말로 된다고? 🆕

GPT-5.4는 ChatGPT(Thinking 모드), API, Codex 전체에 동시 배포됐어요. 이전 GPT-5.3-Codex의 코딩 강점을 흡수하면서, 스프레드시트·프레젠테이션·문서 작업 능력까지 한 모델 안에 통합했어요.

가장 먼저 눈에 띄는 건 Thinking 모드의 변화예요. 기존에는 AI가 답을 쭉 내놓고 나서야 "아, 이게 아닌데..." 하는 걸 알 수 있었거든요. GPT-5.4는 작업을 시작하기 전에 먼저 "이렇게 접근할게요" 하고 계획을 보여줘요.

덕분에 AI가 한참 작업하는 중간에도 방향이 이상하면 바로 수정할 수 있어요. "다시 해줘"라는 말을 훨씬 덜 하게 된다는 뜻이에요.

또, 딥 웹 리서치 성능도 크게 올랐어요. 아주 구체적이고 좁은 주제로 검색해도 훨씬 정확한 결과를 가져와요. 긴 사고가 필요한 질문에서 이전 컨텍스트를 유지하는 능력도 개선돼서, 복잡한 작업을 여러 단계에 걸쳐 이어가도 흐름이 끊기지 않아요.

AI 컴퓨터 조작, 이제 GPT-5.4로 현실이 됐어요 🖱️

이번 GPT-5.4의 진짜 빅뉴스는 네이티브 AI 컴퓨터 조작(computer-use) 기능이에요. 범용 모델 중에서는 최초예요.

쉽게 말하면 이런 거예요. 이전까지 AI는 "코드 짜줄게요"까지만 했어요. 그걸 실제로 실행하고 결과를 확인하는 건 사람이 해야 했거든요.

GPT-5.4는 달라요. 웹사이트를 직접 열고, 클릭하고, 폼을 채우고, 결과를 가져와요. Playwright 같은 라이브러리를 통해 코드 기반으로 조작하거나, 스크린샷을 보고 마우스·키보드 명령을 직접 내리는 방식 둘 다 지원해요.

쇼핑몰 가격 비교, 경쟁사 데이터 수집, 반복 클릭이 필요한 업무... 이런 걸 AI한테 "이 사이트 들어가서 이거 긁어와줘"라고 말만 해도 되는 시대가 됐어요.

GPT-5.4 성능 수치, 실제로 얼마나 대단해요? 📊

말로만 하면 실감이 안 나죠. 숫자로 볼게요.

OSWorld-Verified (AI 컴퓨터 조작 벤치마크): GPT-5.4 75.0% — 인간 성능 72.4%를 넘어섰어요. 이전 GPT-5.2는 47.3%였으니까 거의 두 배 가까이 오른 거예요.
SWE-Bench Pro (실제 코딩 실력): 57.7% — 실제 소프트웨어 개발 문제를 AI가 스스로 해결하는 비율이에요.
GDPval (44개 직종 실무 능력 평가): 전문가와 비교해서 83% 상황에서 대등하거나 우세해요. GPT-5.2는 70.9%였어요.
할루시네이션 감소: 개별 사실 오류가 이전 대비 33% 줄었고, 전체 답변에 오류가 포함될 확률도 18% 감소했어요.

그리고 1M 토큰 컨텍스트도 지원해요. 쉽게 설명하면, 책 한 권 분량의 코드를 통째로 넣고 "이 부분 고쳐줘"라고 할 수 있는 수준이에요.

대형 프로젝트에서 컨텍스트가 잘려서 AI가 앞 내용을 잊어버리는 문제, 이제 거의 없어져요.

사이드프로젝트에 어떻게 써먹어요? 🚀

메이커들한테 가장 와닿는 변화는 세 가지예요.

1. AI 컴퓨터 조작으로 자동화 범위가 넓어졌어요.

브라우저 자동화, 반복 클릭 업무, 경쟁사 데이터 수집... 이전엔 Playwright나 Selenium으로 코드 짜고, 크롤러 만들고, 오류 디버깅하는 게 보통 일이 아니었어요.

GPT-5.4는 그 과정을 "이 사이트에 들어가서 이거 해줘"라는 말 한 마디로 줄여줘요. 코딩 없이 웹 자동화를 쓸 수 있게 됐다는 게 메이커한테 가장 큰 변화예요.

2. Tool Search로 도구 연결이 스마트해졌어요.

수백 개의 API·플러그인·도구 중에서 지금 맥락에 맞는 걸 AI가 알아서 골라 써요. 기존엔 프롬프트 앞에 도구 설명을 수천 토큰씩 때려 넣어야 했는데, 이제 그럴 필요가 없어요. 도구 생태계가 커질수록 이 기능의 가치도 커져요.

3. 스프레드시트·문서 작업 능력이 확 올랐어요

주니어 투자 분석가 수준의 스프레드시트 모델링 작업에서 GPT-5.4는 87.3%를 달성했어요. GPT-5.2가 68.4%였으니까 의미 있는 도약이에요.

MVP 만들면서 수익 모델 분석, 사용자 데이터 정리, 피칭 덱 초안 작성 같은 작업을 AI한테 훨씬 믿고 맡길 수 있게 됐어요.

✍️ 에디터의 한 마디

GPT-5.4, 사이드프로젝트 메이커 관점에서 얘기할게요.

지금까지 AI는 "도와주는 도구"였어요. 내가 방향을 정하고, 코드를 검토하고, 결과를 확인하고, 다시 지시하는 건 여전히 내 몫이었거든요.

GPT-5.4는 그 경계를 조금 더 밀어냈어요. AI 컴퓨터 조작 기능 덕분에, 이제 AI는 내 지시를 받아서 실행까지 스스로 하는 수준이 됐어요. 아직 100% 믿고 혼자 돌려놓기엔 이르지만, "실행 보조자"에서 "반자율 실행자"로 한 단계 올라선 느낌이에요.

특히 혼자 여러 역할을 해야 하는 1인 메이커한테, 이건 꽤 의미 있는 변화예요. 기획도 하고, 개발도 하고, 마케팅도 해야 하는데, 반복 업무 하나하나를 AI가 더 믿음직하게 처리해줄수록 메이커가 집중할 수 있는 시간이 늘어나거든요.

https://openai.com/index/introducing-gpt-5-4/

GPT-5.4 출시 — AI가 컴퓨터를 직접 조작하는 시대 왔어요 🤖💻