[사이트긁어오기 강좌#1] php와 snoopy로 로그인 처리



사이트 긁어오기를 하다보면, 로그인을 해야만 가능한 사이트들을 만나게 된다. 사이트파싱 에서 로그인처리는 까다로운 녀석인데, snoopy에는 로그인을 처리하는 기능이 있다.  로그인에 변수들을 던져주면 자동으로 로그인이 된다. 

로그인 처리를 해보면, 대부분 스누피를 이용해서 파싱이 가능하다. 물론, 좀 복잡한 방법으로 해야만 하는 경우도 있다.  복잡한 방법은 놔두고, 간단히 처리하는 방법을 알아본다. 
 

테스트로 사용할 사이트중에 어디가 좋을까나.. 제휴사이트중 “링크프라이스” 라는 곳으로 해보자. 보통의 사이트들은 아래 같은 방법이면 70%는 로그인이 가능하다. 


일단, 사이트의 로그인처리를 살펴봐야한다. 알아야 할 항목은 크게 3가지다. 

1. 로그인 처리를 하는 url
2. 아이디를 받아내는 변수
3. 비밀번호를 받아내는 변수


긁어올 사이트에 들어가서, HTML 소스보기를 한다. 로그인 폼 부분을 찾는다. 아래 부분이 로그인폼의 소스다.
 

<form name=“loginform” action=“https://www.linkprice.com/AC/login.php” method=“post” onSubmit=“change_login_type();”>

<p><input type=“radio” name=“login_target” value=“AC”  checked class=“radio1”>

<input type=“radio” name=“login_target” value=“MC”  class=“radio2”></p>

<input type=“text” size=16 maxlength=10 name=“account_id” value=“monody” class=“id”>

<input type=“password” size=16 name=“password” class=“pass”>

input type=“hidden” name=“from_www” value=“Y”>

<input type=“image” src=“image/btn_login.gif” class=“btn1” alt=‘로그인’>

<a href=“javascript:lost_password()”><img src=“image/btn_idfind.gif”  alt=“아이디찾기” class=“btn2”></a>

<a href=“linkprice0801.htm”><img src=“image/btn_join.gif” alt=“회원가입” class=“btn3”></a>

</form>


<form> 태그의 action 값을 보면, 로그인 처리가 되는 URL을 확인할수 있다. 이 경우에는 https://www.linkprice.com/AC/login.php 다. <input> 태그중 아이디를 넣는 칸의 name 값은 account_id 인것을 알수 있고, 비밀번호의 필드네임은 password 라는 것 을 알 수 있다. 


필요한 중요요소 3가지를 모두 찾았다. 이 3가지요소를 가지고, 스누피에서 로그인 처리한다. 

아래 소스가 로그인 처리하는 소스다. 

include_once ‘class.snoopy.php’;

$__s=new snoopy;

$url=“http://www.linkprice.com/AC/login.php”;

$s[‘account_id’]=“내 아이디”;

$s[‘password’]=“내 비밀번호”;

$__s->submit($url,$s);

$__s->setcookies();

$__s->fetch(“http://www.linkprice.com/AC/index.htm”);


이렇게 기분좋게 간단히 로그인이 되면 참 좋겠지만, 간혹 마음대로 안되는 녀석들이 있다. 

내가 이때까지 해본 애들중에 가장 어려운 녀석들 베스트 3.

  1. 쉐어박스 파트너 페이지 
  2. 황금사주 관리자 페이지
  3. 카페24 리셀러페이지
     

로그인처리는 “아이디/비밀번호”가 들어가기때문에, 개인용이 아니면 쓰기가 어려운 경우가 많다.인터넷에서 은근히 귀찮은것이 로그인이다. 로그인해서 먼가를 주기적으로 확인해야할때, 로그인은 귀찮다. 이 기능을 이용하면 편안하게 원하는 데이타를 받아 볼 수 있다. 

나름수익모델연구소에서는 “내돈” 프로젝트를 진행중이다. 

각종 파트너,제휴사이트들의 수익정보를 모아서 한곳에서 보는 프로그램을 제작중이다. 매번 로그인해서 수익을 보는게 여간 짜증나는게 아니다. 현재 내돈 v1.0 에서는 애드센스,링크프라이스,쉐어박스,리포트샵 등의 제휴사이트들을 자동으로 볼수 있다. 사용자 편의성은 전혀 고려되지 않았다. php를 조금이라도 할줄알아야 설치해서 사용가능하다. 



사이트 파싱에 궁금한점이나, 의뢰는  로 주세요 ^^



Posted by 달을파는아이 달을파는아이

댓글을 달아주세요:: 네티켓은 기본, 스팸은 사절

  1. 2012.04.16 11:03 신고
    댓글 주소 수정/삭제 댓글
    아주 좋은 블로그가 정말 좋아 ~
  2. 2012.05.12 01:07 신고
    댓글 주소 수정/삭제 댓글
    안녕하세요
    한가지 문의드리고 싶은게 있습니다.
    URL을 파싱하게 되는데 이 URL에 #이 붙으면 #뒤의 URL은 인식을 못하고
    짤리게 됩니다.
    아래 사이트인데요
    http://www.zappos.com/womens-shoes~1i7#!/womens-shoes~1i5?s=isNew/desc/goLiveDate/desc/recentSalesStyle/desc/
    위의 URL을 파싱하게 되면
  3. 2012.05.12 01:07 신고
    댓글 주소 수정/삭제 댓글
    http://www.zappos.com/womens-shoes~1i7
    여기까지의 URL만 인식하여 파싱을 하게 되네요..
    혹시 #을 포함한 URL을 파싱할수있는 방법이 있을까요?


BLOG main image
멈추지 않으면 얼마나 천천히 가는지는 문제가 되지 않느니라 by 달을파는아이

나의 인생 시계 만들기 >>

카테고리

분류 전체보기 (429)
달을파는아이 (283)
머니머신 (125)
파싱의 추억 (20)
현미촌 현미국수면 (1)
Statistics Graph