🔥 동시성을 활용한 웹 크롤러 만들기

759자

8분

강의 목차

전체 코드

Go 언어는 동시성 프로그래밍을 위한 강력한 기능들을 제공합니다. 이번 예제에서는 Go의 동시성 기능을 활용하여 웹 크롤러를 병렬로 처리하는 방법에 대해 알아보겠습니다.

먼저, Crawl 함수를 수정하여 URL을 병렬로 가져오되, 같은 URL을 두 번 가져오지 않도록 해보겠습니다.

func Crawl(url string, depth int, fetcher Fetcher) {
	if depth <= 0 {
		return
	}
 
	// 이미 가져온 URL인지 확인하기 위해 맵을 사용합니다.
	visited := make(map[string]bool)
 
	// 작업을 동기화하기 위해 뮤텍스를 사용합니다.
	var mu sync.Mutex
 
	// 작업 그룹을 생성하여 고루틴을 관리합니다.
	var wg sync.WaitGroup
 
	// 재귀 호출 대신 큐를 사용하여 URL을 저장합니다.
	queue := []string{url}
 
	for len(queue) > 0 {
		// 큐에서 URL을 꺼냅니다.
		url := queue[0]
		queue = queue[1:]
 
		// 이미 방문한 URL인 경우 건너뜁니다.
		mu.Lock()
		if visited[url] {
			mu.Unlock()
			continue
		}
		visited[url] = true
		mu.Unlock()
 
		// 작업 그룹에 작업을 추가합니다.
		wg.Add(1)
 
		// 고루틴을 생성하여 URL을 가져옵니다.
		go func(url string) {
			defer wg.Done()
			body, urls, err := fetcher.Fetch(url)
			if err != nil {
				fmt.Println(err)
				return
			}
			fmt.Printf("found: %s %q\n", url, body)
 
			// 새로 찾은 URL을 큐에 추가합니다.
			mu.Lock()
			for _, u := range urls {
				if !visited[u] {
					queue = append(queue, u)
				}
			}
			mu.Unlock()
		}(url)
	}
 
	// 모든 작업이 완료될 때까지 기다립니다.
	wg.Wait()
}

func Crawl(url string, depth int, fetcher Fetcher) {
	if depth <= 0 {
		return
	}
 
	// 이미 가져온 URL인지 확인하기 위해 맵을 사용합니다.
	visited := make(map[string]bool)
 
	// 작업을 동기화하기 위해 뮤텍스를 사용합니다.
	var mu sync.Mutex
 
	// 작업 그룹을 생성하여 고루틴을 관리합니다.
	var wg sync.WaitGroup
 
	// 재귀 호출 대신 큐를 사용하여 URL을 저장합니다.
	queue := []string{url}
 
	for len(queue) > 0 {
		// 큐에서 URL을 꺼냅니다.
		url := queue[0]
		queue = queue[1:]
 
		// 이미 방문한 URL인 경우 건너뜁니다.
		mu.Lock()
		if visited[url] {
			mu.Unlock()
			continue
		}
		visited[url] = true
		mu.Unlock()
 
		// 작업 그룹에 작업을 추가합니다.
		wg.Add(1)
 
		// 고루틴을 생성하여 URL을 가져옵니다.
		go func(url string) {
			defer wg.Done()
			body, urls, err := fetcher.Fetch(url)
			if err != nil {
				fmt.Println(err)
				return
			}
			fmt.Printf("found: %s %q\n", url, body)
 
			// 새로 찾은 URL을 큐에 추가합니다.
			mu.Lock()
			for _, u := range urls {
				if !visited[u] {
					queue = append(queue, u)
				}
			}
			mu.Unlock()
		}(url)
	}
 
	// 모든 작업이 완료될 때까지 기다립니다.
	wg.Wait()
}

이제 코드를 하나씩 살펴보겠습니다.

visited := make(map[string]bool)

visited := make(map[string]bool)

visited 맵을 사용하여 이미 가져온 URL을 추적합니다.
맵의 키는 URL이고, 값은 해당 URL을 방문했는지 여부를 나타내는 불리언 값입니다.

var mu sync.Mutex

var mu sync.Mutex

sync.Mutex를 사용하여 맵에 대한 동시 접근을 동기화합니다.
맵은 여러 고루틴에서 동시에 접근할 수 있으므로, 뮤텍스를 사용하여 경쟁 상태를 방지합니다.

var wg sync.WaitGroup

var wg sync.WaitGroup

sync.WaitGroup을 사용하여 생성된 고루틴들을 관리합니다.
작업 그룹은 모든 고루틴이 완료될 때까지 기다리는 역할을 합니다.

queue := []string{url}

queue := []string{url}

재귀 호출 대신 큐를 사용하여 URL을 저장합니다.
초기에는 시작 URL만 큐에 추가됩니다.

for len(queue) > 0 {
	url := queue[0]
	queue = queue[1:]
	// ...
}

for len(queue) > 0 {
	url := queue[0]
	queue = queue[1:]
	// ...
}

큐에 URL이 있는 동안 반복합니다.
큐에서 URL을 꺼내고, 해당 URL에 대한 작업을 수행합니다.

mu.Lock()
if visited[url] {
	mu.Unlock()
	continue
}
visited[url] = true
mu.Unlock()

mu.Lock()
if visited[url] {
	mu.Unlock()
	continue
}
visited[url] = true
mu.Unlock()

뮤텍스를 사용하여 visited 맵에 대한 접근을 동기화합니다.
이미 방문한 URL인 경우 건너뜁니다.
방문하지 않은 URL인 경우 visited 맵에 추가합니다.

wg.Add(1)

wg.Add(1)

작업 그룹에 작업을 추가합니다.
wg.Add(1)은 작업 그룹에 새로운 작업이 추가되었음을 알립니다.

go func(url string) {
	defer wg.Done()
	// ...
}(url)

go func(url string) {
	defer wg.Done()
	// ...
}(url)

고루틴을 생성하여 URL을 가져옵니다.
defer wg.Done()은 고루틴이 완료되면 작업 그룹에 알립니다.
고루틴 내에서 URL을 가져오고, 결과를 출력합니다.

mu.Lock()
for _, u := range urls {
	if !visited[u] {
		queue = append(queue, u)
	}
}
mu.Unlock()

mu.Lock()
for _, u := range urls {
	if !visited[u] {
		queue = append(queue, u)
	}
}
mu.Unlock()

새로 찾은 URL을 큐에 추가합니다.
뮤텍스를 사용하여 visited 맵과 큐에 대한 접근을 동기화합니다.
방문하지 않은 URL만 큐에 추가합니다.

wg.Wait()

wg.Wait()

모든 작업이 완료될 때까지 기다립니다.
wg.Wait()은 모든 고루틴이 완료될 때까지 블로킹합니다.

이렇게 수정된 Crawl 함수는 URL을 병렬로 가져오면서도 같은 URL을 두 번 가져오지 않도록 합니다. 고루틴을 사용하여 동시성을 활용하고, 뮤텍스와 작업 그룹을 사용하여 동기화와 관리를 수행합니다.

전체 코드

package main
 
import (
	"fmt"
	"sync"
)
 
type Fetcher interface {
	Fetch(url string) (body string, urls []string, err error)
}
 
func Crawl(url string, depth int, fetcher Fetcher) {
	if depth <= 0 {
		return
	}
 
	visited := make(map[string]bool)
	var mu sync.Mutex
	var wg sync.WaitGroup
 
	queue := []string{url}
 
	for len(queue) > 0 {
		url := queue[0]
		queue = queue[1:]
 
		mu.Lock()
		if visited[url] {
			mu.Unlock()
			continue
		}
		visited[url] = true
		mu.Unlock()
 
		wg.Add(1)
 
		go func(url string) {
			defer wg.Done()
			body, urls, err := fetcher.Fetch(url)
			if err != nil {
				fmt.Println(err)
				return
			}
			fmt.Printf("found: %s %q\n", url, body)
 
			mu.Lock()
			for _, u := range urls {
				if !visited[u] {
					queue = append(queue, u)
				}
			}
			mu.Unlock()
		}(url)
	}
 
	wg.Wait()
}
 
func main() {
	Crawl("<https://golang.org/>", 4, fetcher)
}
 
type fakeFetcher map[string]*fakeResult
 
type fakeResult struct {
	body string
	urls []string
}
 
func (f fakeFetcher) Fetch(url string) (string, []string, error) {
	if res, ok := f[url]; ok {
		return res.body, res.urls, nil
	}
	return "", nil, fmt.Errorf("not found: %s", url)
}
 
var fetcher = fakeFetcher{
	"<https://golang.org/>": &fakeResult{
		"The Go Programming Language",
		[]string{
			"<https://golang.org/pkg/>",
			"<https://golang.org/cmd/>",
		},
	},
	"<https://golang.org/pkg/>": &fakeResult{
		"Packages",
		[]string{
			"<https://golang.org/>",
			"<https://golang.org/cmd/>",
			"<https://golang.org/pkg/fmt/>",
			"<https://golang.org/pkg/os/>",
		},
	},
	"<https://golang.org/pkg/fmt/>": &fakeResult{
		"Package fmt",
		[]string{
			"<https://golang.org/>",
			"<https://golang.org/pkg/>",
		},
	},
	"<https://golang.org/pkg/os/>": &fakeResult{
		"Package os",
		[]string{
			"<https://golang.org/>",
			"<https://golang.org/pkg/>",
		},
	},
}

package main
 
import (
	"fmt"
	"sync"
)
 
type Fetcher interface {
	Fetch(url string) (body string, urls []string, err error)
}
 
func Crawl(url string, depth int, fetcher Fetcher) {
	if depth <= 0 {
		return
	}
 
	visited := make(map[string]bool)
	var mu sync.Mutex
	var wg sync.WaitGroup
 
	queue := []string{url}
 
	for len(queue) > 0 {
		url := queue[0]
		queue = queue[1:]
 
		mu.Lock()
		if visited[url] {
			mu.Unlock()
			continue
		}
		visited[url] = true
		mu.Unlock()
 
		wg.Add(1)
 
		go func(url string) {
			defer wg.Done()
			body, urls, err := fetcher.Fetch(url)
			if err != nil {
				fmt.Println(err)
				return
			}
			fmt.Printf("found: %s %q\n", url, body)
 
			mu.Lock()
			for _, u := range urls {
				if !visited[u] {
					queue = append(queue, u)
				}
			}
			mu.Unlock()
		}(url)
	}
 
	wg.Wait()
}
 
func main() {
	Crawl("<https://golang.org/>", 4, fetcher)
}
 
type fakeFetcher map[string]*fakeResult
 
type fakeResult struct {
	body string
	urls []string
}
 
func (f fakeFetcher) Fetch(url string) (string, []string, error) {
	if res, ok := f[url]; ok {
		return res.body, res.urls, nil
	}
	return "", nil, fmt.Errorf("not found: %s", url)
}
 
var fetcher = fakeFetcher{
	"<https://golang.org/>": &fakeResult{
		"The Go Programming Language",
		[]string{
			"<https://golang.org/pkg/>",
			"<https://golang.org/cmd/>",
		},
	},
	"<https://golang.org/pkg/>": &fakeResult{
		"Packages",
		[]string{
			"<https://golang.org/>",
			"<https://golang.org/cmd/>",
			"<https://golang.org/pkg/fmt/>",
			"<https://golang.org/pkg/os/>",
		},
	},
	"<https://golang.org/pkg/fmt/>": &fakeResult{
		"Package fmt",
		[]string{
			"<https://golang.org/>",
			"<https://golang.org/pkg/>",
		},
	},
	"<https://golang.org/pkg/os/>": &fakeResult{
		"Package os",
		[]string{
			"<https://golang.org/>",
			"<https://golang.org/pkg/>",
		},
	},
}

이 코드는 Go 언어의 동시성 기능을 활용하여 웹 크롤러를 병렬로 처리하는 예제입니다. Crawl 함수를 수정하여 URL을 병렬로 가져오면서도 같은 URL을 두 번 가져오지 않도록 했습니다. 고루틴, 뮤텍스, 작업 그룹을 사용하여 동시성을 제어하고 동기화를 수행했죠.

이렇게 Go 언어의 동시성 기능을 활용하면 효율적이고 빠른 웹 크롤러를 만들 수 있습니다. 병렬 처리를 통해 크롤링 속도를 높이고, 동기화 기술을 사용하여 안전하게 데이터를 처리할 수 있죠.

⚡️ 소개

○ 문서 소개

⚡️ 패키지

○ Go 언어의 패키지

○ Import 사용하기

○ 이름 내보내기

⚡️ 함수

○ Go 언어의 함수

○ 함수 파라미터의 타입 생략하기

○ 여러 개의 반환값

○ 반환값에 이름 붙이기

⚡️ 변수와 상수 그리고 타입

○ 변수

○ 변수 초기화하기

○ 변수 단축 선언

○ Go 언어의 기본 타입

○ 기본 초기값(제로값)

○ 타입 변환

○ 타입 추론

○ 상수

○ 숫자 상수

⚡️ 제어문

○ For 문

○ For 문에서 생략 가능한 문

○ Go 언어에서 for는 while이다

○ 무한 루프

○ if 문

○ 초기화문을 가진 if 문

○ if와 else

○ 연습문제 - 제곱근 함수 구현하기

○ swift 문

○ switch 문의 평가 순서

○ 조건문 없이 switch 사용하기

○ defer

○ defer와 함수 호출 스택

○ defer, panic, recover

⚡️ 다양한 타입들

○ 포인터

○ 구조체 (Struct)

○ 구조체 필드

○ 포인터를 통한 구조체 필드 접근

○ 구조체 리터럴

○ 배열

○ 다차원 배열

○ 슬라이스(slice)

○ 배열을 참조하는 슬라이스

○ 슬라이스 리터럴

○ 슬라이스 범위 기본값

○ 슬라이스 길이와 용량

○ Nil 슬라이스

○ make로 슬라이스 생성하기

○ 중첩 슬라이스

○ 슬라이스에 요소 추가하기

○ Range를 사용한 반복문

○ Range에서 인덱스와 값 생략하기

○ 연습문제 - 슬라이스로 그레이스케일 이미지 만들기

○ Map

○ Map 리터럴

○ Map 리터럴과 값타입

○ Map 변경하기

○ 연습문제 - WordCount 구현하기

○ 함수 값

○ 함수 클로저

○ 연습문제 - 피보나치 수열

⚡️ 메서드

○ 메서드 정의하기

○ 메서드는 리시버를 가진 함수

○ 타입 확장하기

○ 포인터 리시버

○ 포인터와 함수

○ 메서드와 포인터 Indirection - 1

○ 메서드와 포인터 Indirection - 2

○ 값 또는 포인터 리시버 선택하기

⚡️ 인터페이스

○ 인터페이스 타입

○ 인터페이스는 암시적으로 구현된다

○ 인터페이스 값

○ 인터페이스 값과 nil 기본 값

○ Nil 인터페이스 값

○ 빈 인터페이스 (Empty Interface)